データマイニングは、アプリオリアルゴリズムのチュートリアルシリーズ(4 5)をはじめ
アプリオリ(先験的)アルゴリズムの関連付けは、ルール集中データ収集が頻繁に発生するデータを見つけるために使用されるアルゴリズムの古典的な研究の一つ。以前のブログを読んで持っている場合は、この考えていないの()親和性分析データマイニング入門チュートリアルシリーズこのブログは非常に似ていますか?はい、確かに非常に似ているが、このブログでは、我々は信頼性の高い効果的な親和性を見つける方法のより詳細な分析となります。次のブログとアプリオリアルゴリズムでは、映画の親和性を分析するために使用。これは、アプリオリアルゴリズムプロセスを導入することです。
頻繁な基準(項目セット)データ
これは、中にデータマイニングチュートリアルシリーズの()親和性分析入門このブログ言及したが、ここでは詳細な話を再しています。
Ruは、データが頻繁にあるかどうかを判断しますか?私たちの考えによると、より多くのデータは、データをより頻繁に発生したことを表す、データの出現数に集中しなければなりません。
ここで、データがデータであってもよいし、データ(項目セット)の複数であってもよい。ことに留意されたいです。
画像ショーこの次の例に、このグラフは、各列が商品を購入しているかどうか(購入1、いいえ0)を表し、各行は単一のトランザクション・レコードを表します。
で使用される評価基準のサポート、自信、そしてリフト 3:
サポート(支援):
サポートは、データセットの表示されます(また、合計データセットの数の割合であってもよい)、またはデータセットの発生確率のデータ数です。
下記式割合を説明する
[\ \&{}分割データXで始まる場合、それは支持体である:\\&サポート(X)= P(X)= \ FRAC {NUM(X) } {NUM(ALL)} \\ & データはデータ項目(X、Y)の集合である場合、支持体である:\\&サポート(X、Y )= P(X、Y)= \ FRAC {NUM( XY)} {NUM(ALL) } \\& データはデータ項目(X、Y、Z)の集合である場合、支持体がある:\\&サポート(X、Y 、Z)= P(X、Y、 Z)= \ FRAC {NUM( XYZ)} {NUM(ALL)} \\&(X、Y、Zは)X、Y、Z同時発生の数を表す\端{スプリット} \]
上記取引で例えば:
さんが求めてみましょう(バター、りんご)のサポートの:
(バター、りんご)最初の0,2,3
パス、5つのデータの合計が登場\(サポート(バター、りんご)= \ FRAC {3} { 5} = 0.6 \)
一般的に、それは必ずしも頻繁に高いデータをサポートしていませんが、データは確かに頻繁に高いをサポート
自信(信頼):
自信は、条件付き確率で精度の規則の履行、あること、データの確率が表示され、他のデータが表示さを表します。(例えば購入は、既に購入のY、Xの確率で購入される)は以下の式である:
\ [\}&{スプリット分析データX開始設けられ、Yは、信頼YのXは、\\・信頼(X \ LEFTARROW Y) = P(X | Y)= \ FRAC {P(XY)} {P(Y)} \\& 設けられた分析データX、Y、Z、Y及びZはXであります信頼レベル:\\&信頼(X \ LEFTARROW
YZ)= P(X | Y-Z)= \ FRAC {P(XYZ)} {P(YZ)} \\ \端{スプリット} \] またはIn (バターアップル)の例として、信頼アップルバターの計算:\(信頼(バター\ LEFTARROWリンゴ)= \ {FRAC 3} = {0.75} 4 \) 。
しかし、自信は、それが関連する重要性を歪める可能性があるという欠点があります。それが度Yの人気を反映しているので。Xの人気も高い場合、自信は素晴らしいものです。ここではいくつかのデータマイニング江Shaohuaの教師の私たちが使用する必要がある理由です提升度
言葉は:
リフト(リフト):
Yを含む条件下で発現リフト、及びXの確率、及び考慮X、次式の確率を取る両方を含む:
\ [\ {整列}リフト(X \ LEFTARROW Y)開始&= \ FRAC {\ {式}開始支持体(X、Y)} {支持体(X)\回サポート(Y)} \ \&= \ FRAC {P(X、Y)} {P(X)\回P(Y)} \\&= \ FRAC {P(X | Y)
} {P(X)} \\&= \ FRAC {confidenc(X \ LEFTARROW Y)} {P(X)} \端{整列} \端{式} \] リフティング場合度、\(リフト(X \ LEFTARROW Y )= 1 \)は、 互いに独立しているX、Yを表し、(ように関連付けられていない| Y)= P(X-)\)\(P(X-、場合)\ (リフト(X \ LEFTARROW Y) > 1 \)を示し、\(X \ LEFTARROW Y \)を示している(\ X \ LEFTARROW Y)\強く相関(Yの購入の場合には、おそらくそれ以降X)に有効です。場合\(リフト(X \ LEFTARROW Y )<1 \)を示し、\(X \ LEFTARROW Y \)を示している(\ X \ LEFTARROW Y)\無効強い関連です。
一般的に、どのように我々はリフト時にデータのデータセットの周波数の使用を判断します。
アプリオリアルゴリズムの流れ
基準を持って、我々は(参考文献1)から処理アルゴリズムについて話しています。
アプリオリアルゴリズムの目標は、K、頻繁なアイテムの最大のコレクションを見つけることです。すべての最初の二つの意味があります、私たちは頻繁に、設定された標準(信頼またはリフト)に合わせたサポートを見つける必要があります。しかし、このような頻繁なセットは、多くがあるかもしれません。第2の意味は、私たちが頻繁にセットの最大数を見つけたいものです。例えば、我々は唯一のABEを保持、頻繁セットはABとサポートと一致ABEは、その後、我々はABを放棄します見つけ、2頻繁ので、ABが設定され、3 ABEが頻繁に設定されています。
(図は、「Pythonのエントリと実践をマイニングデータ」から)次のようにアルゴリズムのフローチャートです。
ここでは、この例では、図の基準としてサポートされる(図ソースは、彼らがどこから来た知らない、多くのブログを使用している)を導入するための具体的な例である\(C_N \)の代わりに、設定の選択肢 Lを代表して、後のオプションのセットが切断されて、\(最小\サポートが= 50 \%\)は(それはしばしば言わより大きい)サポートの最小標準を表します。
この例では、まだ鮮明な画像がいっぱいです、見て分かりやすいです。ここでは簡単な説明があります:
まずは、データ項目を生成し、データDのセットを持っている\(= 1 \ K)を設定する選択肢の\(C_L \)を、除去(support_n <最小\サポート\ \ ) 取得するためにデータ項目\(L_1 \)を、次いで、データ項目が生成\(K = 2 \)選択肢の集合\(C_2 \) 、次いで除去\(support_n <最小\サポート\ ) データ項目。再帰的に新たな頻出アイテムが見つかりませんでしたまで。
エンディング
全体的に、Aprioriのアルゴリズムは、プロセスも非常に単純なアルゴリズムであり、そのコアが効果的な評価基準、サポートを構築する方法で、難しいことではありませんか?自信?リフト?または他の?しかし、それはまた、いくつかの欠点があります:選択肢のセットの多くを生成するために、各再帰の必要性を、データセットが大きい場合には、その後、どのように行うには?スキャンデータセットを複製......
次のブログ記事では、私は、分析のためのアプリオリアルゴリズムムービーデータセットを使用する方法について説明し、その後、間の相関を見つけるでしょう。
参照
- アプリオリアルゴリズム理論の概要
- 相関ルールとアプリオリアルゴリズム:Aチュートリアル
- 「Pythonのデータマイニングエントリと実践」
- データマイニング江Shaohua教師