著者 | アンチ
ガイド
不正行為防止製品と不正行為ブラック製品の対立がますます激しくなり、不正行為の方法が日々変化しているため、新しい不正行為の問題を解決するために常に新しい方法を試みています。本稿では主に、イベント シナリオにおけるコミュニティ型不正行為の問題を解決するためのグラフ アルゴリズムの適用について紹介します。グラフモデルは、グラフのトポロジー構造とノードの特性を同時に統合して学習できるだけでなく、半教師ありモデルとして、ラベルのないデータをより有効に活用し、再現効果を向上させることができます。記事で言及されているGCNグラフモデルとSCGCN(マルチグラフ連結モデル)の両方が、リコールの不正行為において良好な結果を達成しています。
全文は 4102 ワードで、予想読了時間は 11 分です。
01 はじめに
運用活動は、企業がユーザーの成長と維持を確保するための重要な手段であり、企業のコア競争力の 1 つでもあります。その主な形態は、新規ユーザーの誘致と活性化の促進であり、新規ユーザーの獲得とは、古いユーザーから新しいユーザーを招待してユーザーのリソースプールを増やすことで新規ユーザーを獲得することであり、活性化の促進とは、タスクを実行することで DAU を増加させ、ユーザーの定着率を高めることです。たとえば、私たちは通常、アプリでタスクを実行して赤い封筒を受け取る活動に参加します。これは、運用活動の特定の形式の 1 つです。独自の製品特性を組み合わせて運用活動を実行することにより、企業はユーザーの維持率とコンバージョン率を向上させるという目的を達成し、それによって企業の収入と影響力を高めることができます。Baidu APP では、「友達を招待して赤い封筒を受け取る」、「タスクを実行して赤い封筒を受け取る」など、さまざまなアクティビティもあります。しかし、不正行為によって不当な利益を得ようとする不正行為者 (インターネット ハッカーなど) がイベントに多数出現し、イベントのマーケティング効果に影響を与える可能性があります。現時点では、不正行為防止システムは、会社の営業活動を護衛するために、ユーザーの肖像、ユーザーの行動、デバイス情報などの多次元情報を通じてブラック製品を識別する必要があります。近年、アンチチートとブラック業界の間の絶え間ない攻撃的および防御的な対立により、ブラック業界のチート方法も、大規模なコンピューターベースのチートからクラウドソーシングのチート、さらには小規模なリアルな不正行為まで、繰り返しアップグレードされてきました。不正行為と不正行為の識別の難しさも増しているため、ブラック製品を識別してブロックするための新しい方法を常に繰り返す必要があります。
02 難易度
運営活動では、新規参入者の誘致活動を例に挙げます。ニュータイプを引き寄せる活動において、招待が発生すると自動的にユーザー同士の関係が成立することを、ここでは「師弟関係」と呼びます(招待者を「師匠」、招待者を「見習い」とみなします)。 」)。例えば、Pic.3は「新規招待」操作で生成されたユーザー関係図で、上位キャラクターを下位キャラクターの「師匠」、下位キャラクターを「見習い」と呼びます。上位キャラたち。写真では、マスターは複数の見習いを募集することができ、同時に対応する報酬を受け取ります. 通常、見習いが多いほど、より多くの報酬を受け取ります.
△Pic.1 友達招待活動、Pic.2 国慶節活動
△Pic.3 招待イベントキャラクターの関係性解説
現在、新しいシナリオを引き出す際のアンチチート モデリングは、次の 2 つの問題に直面しています。
1. ユーザー間の連絡先を記述する能力の欠如: 現在のアクティビティ アンチチート ビジネスのアプリケーション モデルには、ツリー モデル、DNN、および機械学習モデルが含まれます。ユーザーをノードと見なすと、これらのモデルの学習とトレーニングは、ノード自体の特性により注意を払いますが、ノード間の関係の特性を学習する能力が不足していることがわかります。最近のいくつかのチート攻撃では、「コミュニティ」は大規模な攻撃を基本単位とするチートの一種であり、行動や装備情報が明らかに共有されており、チート者間の情報には強い相関関係があることがわかりました。この「連想」能力を学習するためのより良いモデルが必要です。
2. サンプルの純度が低いとリコールが制限されます: 一般に、黒色のサンプルは手動サンプリング評価と顧客の苦情フィードバックの強化によって取得されますが、白色のサンプルは特定の割合で無作為にサンプリングすることによって取得されます。ただし、この方法では簡単に解決できない問題があります。つまり、これらのホワイト サンプルに未知のチート データが混在している可能性があり、ホワイト サンプルの純度が低下し、教師ありモデルのトレーニング効果に影響を与えます。
以下では、上記の 2 つの問題を効果的に解決できるグラフ モデル アルゴリズムを紹介します。
03 グラフアルゴリズムの応用
上記の 2 つのビジネス上の問題を解決するために、ビジネス モデリングにはグラフ ニューラル ネットワーク モデルが選択されます。グラフモデルの利点は、グラフのトポロジ構造とノードの特性を統合して同時に学習できることであり、ノード間に確立されたエッジ関係を通じて情報を接続できるだけでなく、モデルの学習能力を補完することができます。グラフ モデルは、半教師ありモデルとして、ラベル付けされていないデータをより有効に活用し、再現効果を向上させることができます。
3.1 グラフィカルモデルの紹介
現在一般的に使用されているグラフ ニューラル ネットワーク モデルは、ランダム ウォーク モデルなどのグラフ ウォーク手法に基づくモデルと、GCN、GAT、GraphSAGE などのグラフ畳み込み手法に基づくモデルの 2 つのカテゴリに分けることができます。ネットワーク モデル。グラフ全体の観点から見ると、GCN は元のグラフ構造とニューラル ネットワークの間の壁を突破しますが、グラフ全体に基づく膨大な計算量が大規模なシーン アプリケーションでボトルネックに遭遇する一方で、GraphSAGE の観点からはのローカル グラフを使用すると、この問題をある程度解決できます。もう 1 つの一般的に使用されるグラフ モデルである GAT には、アテンション メカニズムが追加されています.モデル パラメーターが増えると、学習能力が向上するだけでなく、時間と空間の複雑さが増し、モデルのトレーニングにより十分なサンプル情報とコンピューティング リソースが必要になります. 実際のビジネス シナリオでは、サンプル サイズを制御できるため、GCN グラフ アルゴリズムが直接選択されてトレーニングされます. 以下に、GCN の原理を簡単に紹介します。
GCN は多層グラフ畳み込みニューラル ネットワークです. 各畳み込み層は 1 次近傍情報のみを処理します. 複数の畳み込み層を重ねることで, 多次近傍での情報伝達を実現できます.
各畳み込み層の伝播規則は次のとおりです [1]。
\(H^{(l+1)}=σ(\tilde{D}^{-{\frac 1 2}}\tilde{A}\tilde{D}^{-{\frac 1 2}}H ^{(l)}W^{(l)})\)
の
- \(\tilde{A}=A+I_{N} \) は、無向グラフ\(G\)と自己接続 (つまり、各頂点とそれ自体とエッジ)の隣接行列、 \(I_{ N} \)は恒等行列です。
- \(\tilde{D}\)は\(\tilde{A} \)の次数行列、つまり \(\tilde{D}{ii}=\sum_j\tilde{A}{ij}\)
- \(H^{(l)}\)は\(I\)層の活性化ユニット行列\( H^0=X\)
- \(W^{(l)}\)は各層のパラメータ行列
隣接行列\(A\)はノードの隣人の情報を伝達し、恒等行列\(I_{N}\) はノード自身の情報の伝達を表します. このため、GCN モデルは両方のノードを学習できます。ノード自体の特性と他のノードとの関連情報、およびトレーニングと学習のために自身と隣接ノードの情報が集約されます。
△写真4 GCNの模式図
△写真5 作例
研究のホットスポットの 1 つとして、グラフ ニューラル ネットワーク分野は、近年さまざまな産業シナリオで広く使用されており、良好な結果を達成しています。
3.2 グラフアルゴリズムの適用
3.2.1 新しいプル アクティビティのチート シナリオに基づく GCN リコール モデル
新しいイベントシーンのモデリングを引っ張る
新しいイベント シーンは、イベントの主要なチート シーンの 1 つです。「マスターと見習いの招待シナリオ」を例にとると、マスターユーザーが見習いユーザーを新しいユーザーになるように招待することに成功した場合、マスターユーザーと見習いユーザーの両方が対応する報酬を受け取ります。ブラック企業は、偽の見習いアカウントのバッチを使用して、マスターが新入生を招待して利益を得るための行動を完了するのを支援します. データの統計分析を通じて、これらの偽の見習いユーザーが IP を共有し、モデルが重複していることがわかりました。これを踏まえて、「マスターユーザー」をグラフの基本ノードとし、「都市+モデル」と「IP+モデル」を辺関係としてそれぞれグラフモデルを構築してみます。
図のトリミング
IP モデルを共有するすべてのマスターがチート信号を持っているわけではないため、特徴強化の効果を達成するために、重みがしきい値 T より大きいエッジのみが保持されます。
モデル効果
△表1 モデル効果比較
実験結果は、GCN アルゴリズムが重要な効果を持ち、不正なサンプルの再現率を 42.97% 増加させることを示しています。
3.2.2 マルチ画像融合法の応用探索
上記の実験から、さまざまな構成方法がさまざまな不正行為グループを想起させることがわかります。これらのグループ間の違いに関する情報が融合された場合、より多くの再現率が得られるでしょうか? したがって、さまざまなグラフ情報を同じモデルに統合して、不正なサンプルの再現率を向上させる効果的な方法を見つけるようにしてください。マルチイメージフュージョンの考え方に従い、それぞれ実験を行うために以下の3つの方法が提案されています。
融合法
Edge_union は「画像 A と画像 B を同じ画像に混ぜてトレーニングと学習を行う」というアイデアで 2 つの画像をマージし、このようにして画像 A と画像 B に含まれる情報を融合します。
△Pic.6 edge_unionモデル
△Pic.7 edge_union合成法
scgcn-split 埋め込み機能の継承
2つの画像を融合するという考え方は、「トレーニングと学習のために、トレーニングされた画像Aの埋め込み表現を画像Bの入力特徴として取得する」ことであり、このようにして、画像Aと画像Bに含まれる情報は次のようになります。融合しました。
△Pic.8 scgcn-分割モデル
scgcnシリアル グラフ マージ トレーニング
scgcn-splitスキームに基づいて、グラフ A とグラフ B が直列に接続され、トレーニングと学習が同時に行われます。
△Pic.9 scgcnモデル
モデル効果
以下は、同じデータセットに対するさまざまな方法のパフォーマンス比較結果です。
△表2 モデル効果比較
新しい再現率の観点からは、scgcn 法が最良であり、ほとんどの不正なサンプルを再現しています; edge_union 法のパフォーマンスは低く、その再現率は GCN 単一画像ほど良くありません。その理由を簡単に分析すると、edge_union メソッドは、さまざまな種類のエッジを同じグラフ構造にマージします.このプロセスでは、エッジの種類と重要性は区別されません。実験から結果として、リコールの一部が失われました。同時に、edge_union モデルは、半教師あり学習シナリオと不十分なサンプル純度によって制限されます.ノード間のエッジ接続を追加する一方で、間違った情報を送信するリスクもあります. 上記の実験に加えて, concat/max-pool/avg-pool などの画像融合の方法も埋め込みレイヤーで試行されました. これらの方法はすべてリコールロスを持っています.モデルをもっと詳しく知る 逆に、情報の喪失相互排除効果により、情報が呼び戻されます。それどころか、「シリアル」グラフ融合の方法はより効果的であるように見えます。scgcn-split と scgcn はどちらも、単一画像モデルよりも多くの再現率を持っています。特に、複数画像パラメーターを同時にトレーニングする scgcn モデルは、複数画像情報を真に統合することができ、単一画像モデルよりも多くを再現します。モデルリコールユニオンでサンプル多数。
04 まとめと展望
従来のモデルと比較して、グラフ モデルはノード情報を取得できるだけでなく、ノード間の関係情報も取得できます。ノード間に確立されたエッジ関係を通じて、情報が相互に接続され、より多くの情報が学習され、それによってリコールが拡張されます。新しい昇進活動の不正行為防止師弟活動シーンでは、グラフアルゴリズムの適用により、新たに回収された不正行為のサンプルは元の不正行為のサンプルに基づいて50%増加し、回収率が大幅に改善されました。 .
今後は、以下の方向でさらなる探索が行われる予定です。
1.前作から、グラフモデルの学習には辺の関係が重要な役割を果たしていることがわかります.辺の重みは後で処理して学習し、ノード情報も補完します.データ情報を追加することで.と効果的な機能により、モデルが強化されます。
2.不正行為の方法の継続的なアップグレードに伴い、不正行為の形態は機械操作から人間の操作に徐々に移行しており、不正行為の規模が縮小しているため、不正行為の機能がまばらになり、識別が難しくなっています。今後は、アテンションメカニズムを導入したGAT[2]モデルや、多層ネットワークをスタックできるDeepgcn[3]モデルなど、不正検知の感度を向上させるために、より多くのグラフアルゴリズムが試行される予定です。
- 終わり -
参考文献:
[1] キップ、トーマス N.、マックス ウェリング。「グラフ畳み込みネットワークによる半教師付き分類」arXiv プレプリント arXiv:1609.02907 (2016).
[2] Veličković、Petar、他。「アテンション ネットワークをグラフ化する」arXiv プレプリント arXiv:1710.10903 (2017).
[3]李、国浩ほか 「Deepgcns: gcns は cnns と同じくらい深いところまで行くことができますか?」コンピュータ ビジョンに関する IEEE/CVF 国際会議の議事録。2019年。
推奨読書:
サーバーレス: パーソナライズされたサービス ポートレートに基づく柔軟なスケーリングの実践
パフォーマンス プラットフォーム データ アクセラレーション ロード
Baidu エンジニアがモジュール フェデレーションを理解する