电商用户行为数据分析(MySQL+Tableau)

一、项目介绍

1.1 项目背景
UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。本数据集包(UserBehavior.csv)含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。

1.2 分析目的
本次分析的目的是通过对淘宝用户行为进行数据分析,为以下问题提供提供解释和改进建议:
①分析用户在淘宝使用过程常见的电商分析指标,并建立用户转化漏斗模型,确定各个环节的流失率,寻找需要优化的环节。
②分析用户在不同时间维度下的行为,找到用户在不同时间周期下的活动规律,并推出相应的活动策略。
③找到用户的商品偏好,针对不同商品找到对应的营销策略。
④通过RFM模型对用户进行分层,对不同类型的用户行为进行分析,并提出相应的运营策略。

1.3 数据来源
数据来源:淘宝用户购物行为数据集_数据集-阿里云天池
UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。
在这里插入图片描述UserBehavior.csv
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
在这里插入图片描述注意到,用户行为类型共有四种,它们分别是
在这里插入图片描述关于数据集大小的一些说明如下
在这里插入图片描述二、分析框
在这里插入图片描述三、数据清洗

3.1 导入数据,修改表字段
源数据表字段不明确,修改其名称,同时修改对应数据类型:user_id, item_id, category_id, behavior_type, time_stamp
在这里插入图片描述

3.2 去除重复值
将各字段‘不是null’打钩,并选定userID,itemID,timestamps作为主键。
这一步可以确保表格中没有空值与重复值。
在这里插入图片描述在这里插入图片描述
结果显示没有重复值。

3.3 查找缺失值
在这里插入图片描述
对比查询结果,无缺失值,数据集数据质量较高。

3.4 转换时间格式
在这里插入图片描述在这里插入图片描述
3.5 过滤异常值
在这里插入图片描述
剔除异常值
在这里插入图片描述共剔除511条异常值
然后再检查一遍看数据是否已经剔除干净
在这里插入图片描述
四、数据分析
4.1 基于用户行为漏斗模型分析用户行为
4.1.1 了解用户行为整体情况
4.1.1.1 常见数据指标统计
在这里插入图片描述
独立访客总数(UV):10202
页面总访问量(PV):939535
统计区间平均每人页面访问量(PV/UV):约为92

4.1.1.2 留存率
① 用户次日、3日、5日、7日留存人数
首先查询第一日活跃用户数,同时建立一个新表用来存放留存数据
在这里插入图片描述
查询次日留存用户,三日、五日、七日留存人数查询方式相同,修改一下日期即可
在这里插入图片描述
在这里插入图片描述
② 留存率
在这里插入图片描述留存率一直保持在75%以上,甚至7日后还能达到77.42%,留存率较高。

4.1.1.3 复购率
复购率是在一个时间范围内重复消费的用户,即消费次数在两次及以上的用户在总消费用户中的占比。
在这里插入图片描述复购率约为66.27%,复购率较高,说明平台用户的忠诚度较高

4.1.1.4 跳出率
跳失率定义:仅仅访问了单个页面的用户占全部访问用户的百分比,或者从首页离开的网站的用户占所有访问用户的百分比。
跳失率可以反映用户对网站内容的认可程度,或者说网站是否对用户有吸引力。而网站的内容是否能够对用户有所帮助留住用户也直接可以在跳失率中看出来,所以跳失率是衡量网站内容质量的重要标准。
在这里插入图片描述跳出率只有0.09%,几乎为0,说明商品或者商详页内容对于用户具有较强的吸引力。
小结:
综合留存率、复购率和跳失率来看,淘宝的用户忠诚度较高,且内容质量高,可以吸引用户持续使用,因此,需要重视用户关系,继续维系用户忠诚度。

4.1.2 用户行为转化漏斗模型分析
漏斗分析模型已经广泛应用于各行业的数据分析工作中,用以评估总体转化率、各个环节的转化率,以科学评估促销专题活动效果等,通过与其他数据分析模型结合进行深度用户行为分析,从而找到用户流失的原因,以提升用户量、活跃度、留存率,并提升数据分析与决策的科学性等。
(1)用户总行为转化漏斗
B
在这里插入图片描述从<用户总行为转化漏斗>可以看出:
①浏览详情页后比例最高的行为是加入购物车,猜测用户再对比商品时,更倾向于加入购物车。
② 收藏商品行为比例较小,且小于加入购物车行为,原因可能是因为收藏后 ,用户无法直接进行结算,需要再次进行点击-加购-支付等一系列流程。
③ 占比最小的用户行为是购买商品,仅占浏览详情页行为的2.27%,可以看出用户点击浏览商品后流失量比较大,现在将如何减少点击行为到购买行为之间的流失作为下面的分析方向。

(2) 独立访客转化漏斗
在这里插入图片描述

在这里插入图片描述从<独立访客转化漏斗>可以看出:
收藏行为用户最少,低于加购行为用户。浏览页面详情后,购买的转化率较高,达到68.47%,下面拆解分析哪种购物方式促进了用户的购买转化。

(3) 拆解不同行为路径
将购买行为拆解为四种:点击——购买、点击——加购——购买、点击——收藏——购买、点击——收藏——加购——购买
先新建一个临时视图,存放每个用户的行为数据。
在这里插入图片描述① 浏览——购买 路径
浏览:34226
购买:1735
购买转化率:5.01%

② 浏览——加购——购买 路径
浏览:316811
加购:26581
购买:9870
购买转化率:3.12%

③ 浏览——收藏——购买 路径
浏览:37895
收藏:3297
购买:1268
购买转化率:3.35%

④ 浏览——收藏——加购——购买 路径
浏览:144245
收藏:9843
加购:9164
购买:4306
购买转化率:2.99%

小结:
浏览——购买 路径 的购买转化率最高,可以通过增加这部分用户所占比例来提高销量,例如在浏览页面增加 优惠活动提示等,来促进加购的用户来进行收藏操作。

4.2 从时间维度分析用户行为
4.2.1 每天的用户行为分析
在这里插入图片描述每日用户行为数据变化
在这里插入图片描述

在2017年11月25日-2017年12月3日统计窗口内,11月25日-26日及12月2日-3日为周末。

通过每日用户行为数据变化可知:11月25日-12月1日,数据波动变化范围很小,12月2日-12月3日,各项数据指标明显上涨,高于前7天的各项数据指标。但上一个周末(11月25日-11月26日)的各项数据指标并未存在明显涨幅,所以12月2日-12月3日数据指标的上涨与周末的相关度较小,并且由每日用户行为数据图可知,日活跃用户数、浏览数、收藏数、加购数的涨幅相比于购买数更为明显,因此推测12月2日-12月3日数据指标的上涨可能与淘宝双十二预热活动有关,预热会使购买前置动作的浏览、收藏、加购行为量增长。

4.2.2 每时的用户行为分析
在这里插入图片描述每时用户行为数据变化
在这里插入图片描述通过每时用户行为数据变化可知,在2-5点左右,各项数据指标进入低谷期,在9-18点,数据呈现一个小高峰,波动变化较小(其中,在12点和16-17点有小幅度下降),在18-23点,各数据指标呈现一个大高峰,并且在21点左右达到日数据的最大峰值,数据的变化趋势符合大部分用户的正常作息规律。
在制定运营策略时,可以利用这个规律进行创收,选择在用户最活跃的时间段20-22点间使用直播带货、优惠活动等营销手段。

4.3 从商品维度分析用户行为
可以从销量和浏览量两个维度对商品受欢迎程度进行分析。浏览量高的商品可能是因为被页面或广告等吸引而来,或者只是感兴趣,用户并不一定会购买;而销量高的商品可能才是用户真正需要的,用户搜索和点击购买的目标比较明确。因此需要同时结合销量与浏览量两个维度进行分析。
4.3.1 商品排行榜分析
4.3.1.1 合并商品销量、浏览、加购、收藏排行榜TOP20
在这里插入图片描述—— 商品销量前20
在这里插入图片描述——浏览量前20
在这里插入图片描述—— 收藏前20
在这里插入图片描述
—— 加购前20
在这里插入图片描述
—— 合并四个表
在这里插入图片描述
结果显示,销量前20的商品中只有3件商品的浏览量、加购量排到了前20(且没有排进前10)。反映出销量与浏览量(以及收藏、加购量)之间的相关性较差,销量高的商品浏览量(以及收藏、加购量)不一定高,因此需要同时结合销量与浏览量两个维度进行分析。下面将以商品销量和浏览量两个维度对商品进行四象限划分,分析不同商品对应的用户行为,并提出相应的改进措施。

4.3.2 商品四象限划分
销量和浏览量两个维度的界限值分别取4、40(需要根据实际业务场景确定界限值),将商品按照销量和浏览量划分为四个象限。
在这里插入图片描述在这里插入图片描述第一象限:该象限内商品的销量和浏览量都较高,说明该象限内商品的转化率比较高,是受欢迎产品。
优化建议:重点推送该象限内的商品,提高商品的曝光度,同时可以多做一些活动,吸引更多的潜在用户购买。

第二象限:该象限内的商品销量较高,但浏览量较低。产生这种现象的原因可能是:
①该象限内的商品可能属于某类特定群体的刚需产品,特定受众搜索目标比较明确,浏览后直接购买的可能性较高;
②该象限内的商品受众广,本身转化率就高,但是引流入口数量少,导致商品的曝光量低。
优化建议:收集浏览和购买了该象限内商品的用户信息,分析用户画像,结合商品特定,核实商品是否存在特定受众。
①若存在,平台可以针对该类用户进行精准推送,同时还可以为该类商品的用户建立专属社群,为用户交流提供更便捷的平台,进一步增加用户粘性;
②若不存在,则可以为该象限内的商品增设引流入口,多渠道进行推广引流,设置高频率搜索关键词提高曝光率,浏览量上去,销量可能会随之提升。

第三象限:该象限内商品的浏览量和销量都较低,需要考虑引流入口和商品本身两方面的原因。
优化方法:
①假设是商品的宣传力度过小导致商品的浏览量和销量较低,考虑增加引流入口的数量,提高该象限内商品的曝光量,然后监测商品的浏览量和销量是否有所提升。
②假设是商品本身原因,用户对此类商品不感兴趣,即使是增加引流入口也不能提升此类商品的浏览量和曝光量,那么就需要考虑商品是否真的为用户所需,商品过往的流量趋势如何,是否具有季节性(需要在特定时间推广此类产品) 等因素,如果排除所有因素,那么就需要考虑将此类产品直接优化掉,避免造成资源浪费。

第四象限:该象限内商品的浏览量较高,但销量都较低,主要分析一下原因:
①目标人群:商品本身的宣传非常效果非常好,但是指向性不明确,导致很多非目标受众点击商品,但没有购买,从而拉低了销量;
②商品定价:商品定价过高,存在同类可替代的高性价比商品,用户就会转向其他同类商品;
③商详页、客服及评价:用户无法从商详页和客服处得到更多的商品详细信息,或者商品差评较多,或者其他客户的评价中提到了用户比较介意的问题,导致用户没有直接购买;
④购买流程:商品优惠券使用方式负责,或凑单购买流程复杂,使得用户放弃购买;
⑤运费、物流时效、退换货政策:运费高且没有优惠活动,物流时效长,没有售后保障,用户对网站信任度低因而放弃购买。
优化方法:根据上述可能的原因使用调研、A/B测试等方法查明原因,对症下药。

4.3.3 “长尾效应”分析
根据商品销量对商品进行分类统计
在这里插入图片描述在这里插入图片描述售出的商品总共有18338件,购买次数为1的商品有16188件,占总数的88.28%,说明该平台主要依靠长尾商品累计效应带动平台销量,而不是爆款商品带动销量。

4.4 基于RFM用户分层模型分析用户行为
由于数据集中不包含订单金额,故本次分析中不考虑M维度,只从R、F两个维度来分析,对两个维度的指标进行分级打分,最终按照综合得分对用户分层。
4.4.1 R维度分析
数据源时间跨度为2017年11月25日到12月3日,共计9天。现将其分为三个区间:
时间间隔在[0:2]中,记R_Score值3分
时间间隔在[3:5]中,记R_Score值2分
时间价格在[6:8]中,记R_Score值1分

——先算出每个用户的最近一次消费距离2017-12-03有多少天,然后赋值,打分,最后统计不同分值的用户数量
在这里插入图片描述从结果可以看出,有超半数的用户的最近一次购买时间距离2017-12-03的间隔在3天内,说明该平台的用户粘性较好。

4.4.2 F维度分析

计算用户的消费频率F值,对F值进行打分。根据F值最大值72和最小值1,将范围分为6个区间:
消费频次在[1:9],记F_Score值1分
消费频次在[10:19],记F_Score值2分
消费频次在[20:29],记F_Score值3分
消费频次在[30:39],记F_Score值4分
消费频次在[40:49],记F_Score值5分
消费频次在[50:72],记F_Score值6分

在这里插入图片描述在这里插入图片描述
分数1 占比 :0.06%
分数2 占比 :0.01%
分数3 占比 :0.07%
分数4 占比 :0.27%
分数5 占比 :2.87%
分数6 占比 :96.71%

可见,在统计区间内,有96.71%的用户在平台消费了1-9次,只有3.24%的用户在平台消费10次及10次以上。

根据RF综合得分(最大值9,最小值2),对用户进行分层:
RF分为2-3分,为易流失用户
RF分为4-5分,为挽留用户
RF分为6-7分,为发展用户
RF分为8-9分,为忠诚用户
在这里插入图片描述在这里插入图片描述
用户分层结果:
挽留用户的占比最高,这部分用户可待挖掘的潜在价值很大,可对这部分用户进行定时促活,如上新提醒、优惠发放、提供更精准的商品推荐等,留住用户并提高其消费频率;
易流失用户的占比较高,这部分用户可能在其他平台找到了更优惠或者产品体验感更好的替代产品,可以对这部分用户进行调研找到易流失的原因,并采取价格激励,优惠发放等方式召回用户;
发展用户的占比较低,可以对这部分用户定期推送新品和促销活动来进一步提高消费频率;
忠诚用户的占比最低,这部分用户属于高价值用户,可以针对这部分用户创建会员制度,定制专属的运营策略来保持用户粘性,如专属优惠,专属节日礼品,免费赠品,新品内测,积分兑换购买商品,专属客服等等。

五、结论与建议
本文从四个维度分析了淘宝用户行为数据近100万条,整体结论和建议如下:
5.1 用户行为转化漏斗分析
①平台的留存率和复购率较高,跳失率几乎为0,说明淘宝平台的商品对用户具有足够的吸引力,且其中大部分用户习惯在淘宝平台进行日常购物(对平台有依赖性),因此平台应重点维系老用户的忠诚度。
根据留存率、复购率和跳失率来看,淘宝平台的商品对用户具有足够的吸引力(复购率高,跳失率低),说明淘宝平台目前处于“忠诚度模式”中,重点为维系老用户的忠诚度。
②根据用户行为转化分析来看,从浏览商品详情页UV到有购买意向有68.84%的转化率,说明淘宝平台的商品能够满足大部分用户的需求(购买转化率较高),而从浏览商品详情页PV到有购买意向只有2.27%的转化率,说明用户在购买商品前会大量浏览商品详情页进行对比筛选。浏览商品详情页这一环节是指标提升的重点环节,可以从推荐机制入手,根据用户日常浏览行为,尽量做到精准推荐,减少用户寻找信息的时间成本。

针对上述环节改善转化率的建议:
①根据用户的搜索习惯、喜好等,优化平台的搜索匹配度和推荐策略,从而为用户推荐匹配度更高的商品,尽量做到精准推送。
②在商详页的展示上突出用户的重点关注信息,精简信息流的呈现方式,减少用户寻找信息的时间成本。

5.2 时间维度用户行为分析
①从日期维度来看,用户的各种行为数据指标在周末和工作日的差别不大,但是受双12等大型平台活动影响较大。可以进一步扩大分析范畴,比如:
以一年为单位进行环比分析,标注出各个比较大的购物节,重点关心购物节前后的用户行为数量变化,同时对每周末进行比较,分析购物节推广活动安排在周末/非周末对用户行为的影响;
在一年中对各个月进行同比分析,对比购买行为的趋势,找出整月中是否有购买行为上升的规律(结合用户年龄数据进行分析,购买行为上升可能与发工资的时段有关)。
②从时间维度来看,用户的各种行为活跃高峰期都在晚间的20-22点,可以根据这个规律制定更高效的运营策略,可以选择在用户最活跃的时间段20-22点间使用直播带货、优惠活动等营销手段。

5.3 商品维度分析用户行为
商品销量与商品浏览量的相关性较差,浏览量高的商品销量不一定高,销量高的商品浏览量不一定高,所以没有必要一味提高浏览量, 销量并不会随之增加。根据四象限划分图的分析,应重点提升第二、三、四象限内的商品:
①针对第二象限的商品(销量高,浏览量低)应分析用户画像,若存在,平台可以针对该类用户进行精准推送,同时还可以为该类商品的用户建立专属社群,为用户交流提供更便捷的平台,进一步增加用户粘性;若不存在,则可以为该象限内的商品增设引流入口,多渠道进行推广引流,设置高频率搜索关键词提高曝光率,浏览量上去,销量可能会随之提升。
②针对第三象限的商品(销量低,浏览量低)应先分析此类产品过往的流量趋势(是否具有季节性,需要在特定时间推广此类产品),根据流量趋势布局和增加引流入口的数量,看销量是否会随之提升,若提高曝光量后商品的销量还是比较低迷,说明用户对商品不感兴趣,就需要考虑商品是否是用户真正需要的,效果不好的商品可以考虑直接优化掉;
③针对第四象限的商品(销量低,浏览量高)应从目标人群、商品定价、商品详情页、客服及评价、购买流程、物流、售后保障这几个方面着手,根据可能的原因使用调研、A/B测试等方法查明原因、对症下药。

5.4 根据“长尾效应”对商品进行分析
通过分析发现,淘宝平台商品的销量主要是依靠“长尾效应”而非爆款商品的带动,但是繁多的种类对于商家来说其实是一种经营负担,成本也较高。其实一个平台可以根据不同目标(拉新、流水/爆款、利润)打造商品获利。
①用于拉新的商品一般具有商品的独特性,能够吸引人,建议重点加大宣传力度突出产品独特性,同时关注产品质量(退货率),做好品控。
②对于爆款商品,建议做出价格优势(VS竞品价格优势),同时在品控上提高产品质量,宣传上增大力度(在其他平台上引流),展现上突出产品优势(主图、详情页、评论)等。
③对于利润款商品,需要较精细化的运营策略,重点分析受众人群的喜好,做到精准推送,产品图片、详情页设计美观且突出产品优势(市场差异化,用户需求),提高产品质量和服务质量,提高产品好评率等。

5.5 RMF模型分析
通过RFM模型对用户进行分层,并对不同类型的用户采取不用的运营策略:
①挽留用户:这类用户的占比最高,这部分用户可待挖掘的潜在价值很大,可对这部分用户进行定时促活,如上新提醒、优惠发放、提供更精准的商品推荐等,留住用户并提高其消费频率;
②易流失用户:这类用户的占比较高,这部分用户可能在其他平台找到了更优惠或者产品体验感更好的替代产品,可以对这部分用户进行调研找到易流失的原因,并采取价格激励,优惠发放等方式召回用户;
③发展用户:这类用户的占比较低,可以对这部分用户定期推送新品和促销活动来进一步提高消费频率;
④忠诚用户:这类用户的占比最低,这部分用户属于高价值用户,可以针对这部分用户创建会员制度,定制专属的运营策略来保持用户粘性,如专属优惠,专属节日礼品,免费赠品,新品内测,积分兑换购买商品,专属客服等等。

猜你喜欢

转载自blog.csdn.net/YL0621/article/details/129826395