eラーニング最新動向Watch! : 答えはデータが知っている／データマイニング基礎その2

まずは手始めに、最も簡単な形でデータマイニングを実施してみます。
手元にあるデータは　ユーザーの受講履歴　と　有料ユーザーのID　です。
（ユーザーは無料体験のお試しユーザーと有料ユーザーがいます。）

今回は、これらのデータから、どの講座を見たユーザーが有料ユーザーになり易いか、
という確率を見てみたいと思います。これを式で書くと、Xを講座として、Yを有料ユーザー
とした場合

X⇒Y　（XならばY）　となる確率をもとめます。
データマイニングでは、このとき、２つの名称が出てきます。ひとつは、確信度　で　もうひとつ
はサポートといいます。

確信度とは、　X⇒Y　の事象が起こる確からしさで、Xを含むトランザクションのうち、X⇒Yとなった確率です。（X⇒Yとなった数をXを含むトランザクションの数で割る）

サポートとは、X⇒Yという事象があった場合、それが全体のうちどの程度の割合かを示す数値です。（Xを含むトランザクションを全トランザクションで割る）

例えば、確信度の高い事象の場合、かなりの確率でその事象が発生しますが、その事象の
サポートが低い場合、X⇒Yという事象そのものがなかなか発生しない、という事を表します。

もっと具体的に言うと、ある講座Xを見たユーザーは必ず有料ユーザーになるならば、この
Xを見たら有料ユーザーになる、という事象の確信度は高いといえます。
しかし、講座閲覧数全体のうちXが見られる回数が少ない場合、この事象のサポートは少ない、ということになります。

では、実際に行ってみます。
今回は、ある講座A　だけで、　AとBを見た場合　という組み合わせまでは見ないので、
単純に各講座の再生数を割ってあげればいいだけです。

こんな感じになるはずです。
さて、今回は、特に組み合わせを考えなかったので、手計算とエクセルでどうにか
なりました。しかし、AとBを見た場合、など、組み合わせを考え出すとどうなるでしょうか。

引き続き、次回で考えて見ましょう。

eラーニング最新動向Watch!