数据准备
1、数据来源:淘宝用户购物行为数据集
数据的相关介绍:
数据的一条记录包括:用户id,商品id,商品类目id,行为类型(行为类型:pv——点击,buy——购买,cart——加入购物车,fav——收藏),时间戳
数据包含了2017年11月25日至2017年12月3日之间淘宝用户的数据行为
用户数量:987994
商品数量:4162024
用户数量:987994
商品类目数量:9439
所有行为数量:100150807
2.上传数据
- 上传数据(将数据上传到hdfs)
新建文件夹data
mkdir data
将数据上传到xshell中的data文件夹
在hdfs上建立文件夹zq/data
hdfs dfs -