まずは手始めに、最も簡単な形でデータマイニングを実施してみます。
手元にあるデータは ユーザーの受講履歴 と 有料ユーザーのID です。
(ユーザーは無料体験のお試しユーザーと有料ユーザーがいます。)
今回は、これらのデータから、どの講座を見たユーザーが有料ユーザーになり易いか、
という確率を見てみたいと思います。これを式で書くと、Xを講座として、Yを有料ユーザー
とした場合
X⇒Y (XならばY) となる確率をもとめます。
データマイニングでは、このとき、2つの名称が出てきます。ひとつは、確信度 で もうひとつ
はサポートといいます。
確信度とは、 X⇒Y の事象が起こる確からしさで、Xを含むトランザクションのうち、X⇒Yとなった確率です。(X⇒Yとなった数をXを含むトランザクションの数で割る)
サポートとは、X⇒Yという事象があった場合、それが全体のうちどの程度の割合かを示す数値です。(Xを含むトランザクションを全トランザクションで割る)
例えば、確信度の高い事象の場合、かなりの確率でその事象が発生しますが、その事象の
サポートが低い場合、X⇒Yという事象そのものがなかなか発生しない、という事を表します。
もっと具体的に言うと、ある講座Xを見たユーザーは必ず有料ユーザーになるならば、この
Xを見たら有料ユーザーになる、という事象の確信度は高いといえます。
しかし、講座閲覧数全体のうちXが見られる回数が少ない場合、この事象のサポートは少ない、ということになります。
では、実際に行ってみます。
今回は、ある講座A だけで、 AとBを見た場合 という組み合わせまでは見ないので、
単純に各講座の再生数を割ってあげればいいだけです。
こんな感じになるはずです。
さて、今回は、特に組み合わせを考えなかったので、手計算とエクセルでどうにか
なりました。しかし、AとBを見た場合、など、組み合わせを考え出すとどうなるでしょうか。
引き続き、次回で考えて見ましょう。