貯水池サンプリングリザーバサンプリングアルゴリズム

https://blog.csdn.net/huagong_adu/article/details/7619665

https://www.jianshu.com/p/63f6cf19923d

https://www.cnblogs.com/snowInPluto/p/5996269.html

https://www.cnblogs.com/xudong-bupt/p/4053652.html

https://www.jianshu.com/p/51f7089c082b

コンセプト:

配列内のランダムなデータを抽出し、その指定された長さの確率は簡単ですが、それの未知の長さの大規模なデータ・ストリームに直面している場合?貯水池のサンプリング(貯水池サンプリング)アルゴリズムは、この問題を解決するために使用され、それは時間のいくつかの大規模なデータセットの分析に非常に有用です。

シーンの説明:

アプリケーションシーンシーンの説明:サンプルの特徴は(クエリの検索数)、adpv(検索広告の数)、adshow(広告インプレッションの合計が広告後の金額)、クリックしてPVを含みマス広告データ、100クエリ(番号をクリックしてください)

リザーバサンプリング:Uは=ように、Uの乱数(0,1)値を生成する(1 / PV)を、大きい値の最初の100を取ります。

 

おすすめ

転載: www.cnblogs.com/Lee-yl/p/11209634.html