对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果,而不是全部结果。Hive可以通过分桶抽样来满足这个需求。
通过rand()函数实现抽样(可以通过分桶裁剪提高抽样效率)
通过块抽样(百分比)实现抽样
注:在使用rand进行抽样是可以使用桶进行输入裁剪。
对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果,而不是全部结果。Hive可以通过分桶抽样来满足这个需求。
通过rand()函数实现抽样(可以通过分桶裁剪提高抽样效率)
通过块抽样(百分比)实现抽样
注:在使用rand进行抽样是可以使用桶进行输入裁剪。