使用Hive如何进行抽样查询?

对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果,而不是全部结果。Hive可以通过分桶抽样来满足这个需求。

通过rand()函数实现抽样(可以通过分桶裁剪提高抽样效率)

通过块抽样(百分比)实现抽样

注:在使用rand进行抽样是可以使用桶进行输入裁剪。

猜你喜欢

转载自my.oschina.net/134596/blog/1800593