https://blog.csdn.net/huagong_adu/article/details/7619665
https://www.jianshu.com/p/63f6cf19923d
https://www.cnblogs.com/snowInPluto/p/5996269.html
https://www.cnblogs.com/xudong-bupt/p/4053652.html
https://www.jianshu.com/p/51f7089c082b
コンセプト:
配列内のランダムなデータを抽出し、その指定された長さの確率は簡単ですが、それの未知の長さの大規模なデータ・ストリームに直面している場合?貯水池のサンプリング(貯水池サンプリング)アルゴリズムは、この問題を解決するために使用され、それは時間のいくつかの大規模なデータセットの分析に非常に有用です。
シーンの説明:
アプリケーションシーンシーンの説明:サンプルの特徴は(クエリの検索数)、adpv(検索広告の数)、adshow(広告インプレッションの合計が広告後の金額)、クリックしてPVを含みマス広告データ、100クエリ(番号をクリックしてください)
リザーバサンプリング:Uは=ように、Uの乱数(0,1)値を生成する(1 / PV)を、大きい値の最初の100を取ります。