基于spark的淘宝用户行为数据分析及其可视化研究

数据准备

1、数据来源淘宝用户购物行为数据集

数据的相关介绍:
数据的一条记录包括:用户id,商品id,商品类目id,行为类型(行为类型:pv——点击,buy——购买,cart——加入购物车,fav——收藏),时间戳
数据包含了2017年11月25日至2017年12月3日之间淘宝用户的数据行为
用户数量:987994
商品数量:4162024
用户数量:987994
商品类目数量:9439
所有行为数量:100150807

2.上传数据

  • 上传数据(将数据上传到hdfs)

新建文件夹data

mkdir data

将数据上传到xshell中的data文件夹

在这里插入图片描述

在hdfs上建立文件夹zq/data

hdfs dfs -

猜你喜欢

转载自blog.csdn.net/qq_58768870/article/details/129756570
今日推荐