受講データ(ログイン回数、学習時間、学習科目)などをクラスタリング、つまり似たもの同士を集めて傾向を把握する手法に関するメモです。
■何に利用するのか
クラスタリングとは、ここでは大雑把に言って、似たもの同士を寄せ集める手法を指します。
似たもの同士をグループ化することで利用の傾向を把握し、受講者などへのアプローチを検討するのに役立たせます。例えば、受講時間が短いグループ、ログイン回数が少ないグループ等を判別し、チューターからのアプローチを考えるのに利用する等。
(尚、例で挙げたようなグループ分けは、利用前から直感的にそういうグループができそうだと判断できるので、厳密には、クラスタリングを用いるまでも無い。クラスタリングでは、複数の属性を関連させて、分析を行い、分析前には予想しなかったグループの発見こそが、最も意図しているところであります。)
■クラスタリングの手法(単純版)
データの属性を次元、データを点 として、d個属性のあるn個のデータは、d次元のn個の点ととらる。この時、各点の距離の近いものをクラスタリングしていけばよい。
1.各点を適当にクラスタリング(初期状態)
2.あるクラスタ内の点を一箇所入れ替える。
入れ替えが発生したことで、各クラスタの重心が変更になり以下の変更が発生する
A.点を入れ替えた以外のクラスタでは、この変更により、クラスタ内の各点が、点を
入れ替えたクラスタ重心に、現所属クラスタの重心よりも近くなる事で、点を入れ替えた
クラスタに参加する、もしくは、近くならないので現状のままか、どちらかの状態が起こる
B.点を入れ替えたクラスタでは、そのクラスタ内の各点の重心への距離が更新される。
(これは、重心に近くなったり、遠くなったりする。)
3.2.の操作を全ての点に対して計算を行い、最も総体の距離量が小さくなる変更を
実施する。これを、全部のクラスタで繰り返す。
■単純版のアルゴリズムの欠点
・計算量が非常に多い
・例外が考慮されていない。
コメント