本数据集是阿里巴巴提供的一个淘宝用户行为数据集,本次分析数据提供了1万用户量级的完整行为数据。数据包含了抽样出来的1W用户在一个月时间(11.18~12.18)之内的移动端行为数据。
字段
字段说明
提取说明
user_id
用户标识
抽样&字段脱敏
item_id
商品标识
字段脱敏
behavior_type
用户对商品的行为类型
包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4
item_category
商品分类标识
字段脱敏
time
行为时间
精确到小时级别
使用工具:Mysql数据库,DataGrip,Excel,Tableau
根据数据集特点,本次数据分析将从两个维度对数据进行分析:
用户维度
1、PV(页面浏览量)、UV(独立访客)、PV/UV
2、用户活跃度分析:分析用户在不同时段的活跃度,探索哪些时间段用户更倾向于进行购买或其他行为,进而优化营销策略和系统推荐。
3、用户购买行为分析:
间隔时间,了解用户再次购买的平均时间间隔,可以帮助预测用户下次购买的时间,投放优惠券
漏斗分析:从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析,构建用户行为漏斗模型,分析用户从浏览到购买各个环节的转化情况,找出可能存在的流失点并提出改进建议。
产品维度
1、浏览量、成交量、加购量、成交率探索用户对商品的购买偏好,了解商品的销售规律
2、用户价值分群(RFM模型)
导入时发现time的格式并不是标准的时间格式,将其格式改成datetime:
导入数据如下:
为了能够进一步更好的分析时间数据,将添加time_date以及time_hour:
处理格式结果如下:
由数据集说明可知,behavior_type列的合法数据为1、2、3、4,将对数据进行检查:
结果显示并没有非法字段
接下来根据behavior_type列创建出列behavior解释行为,来增加数据的可读性:
处理格式结果如下:
由于数据集只给了一个月的数据,所以暂时不需要进行数据的筛选,接下来检查数据集中是否有缺失值。
检查数据结果如下:
共20335303条数据,无缺失字段、缺失值。
3.1.1 PV/UV(平均浏览量)
页面浏览量(pv_daily)、独立访客(uv_daily)以及PV/UV(平均浏览量):
结果如下:
数据应用到Tableau做仪表盘:
由图可知,日常访客和浏览量总体比较稳定,双十二活动拉动大量用户“围观”,相关数据也明显提高。
3.1.2用户活跃度分析
分析用户在不同时段的活跃度,探索哪些时间段用户更倾向于进行哪些行为,进而优化营销策略和系统推荐。对每日每时段的行为进行分类统计:
获得结果如下:
数据应用到Tableau做仪表盘:
分析活跃度高的时间段内用户行为特点:
- 用户在10点-15点以及20点-22点活跃度最高,凌晨活跃度最低。这可能是因为这些时间段是用户上班后和下班前的休息时间,或者是晚饭后的闲暇时间,用户更有可能浏览购物网站或进行线上购物。
- 凌晨活跃度较低,这可能是因为大多数用户此时处于睡眠状态。
针对不同时间段的用户行为特点制定营销策略:
- 在活跃度较高的时间段增加特价促销活动或推出限时折扣,吸引用户在这些时间段进行购物行为。
- 在凌晨活跃度较低的时间段可以发送睡前提醒或推送消息,提醒用户关注新品上线或活动预告,以唤起用户兴趣。
根据分析结果进行系统优化:
- 在活跃度高的时间段增加服务器资源以提高网站或应用的访问速度和稳定性,确保用户体验良好。
- 在凌晨活跃度较低的时间段进行系统维护或数据备份等操作,以减少对用户的影响
3.1.3用户购买行为分析
1、购买间隔时间
间隔时间,了解用户在每个类别商品再次购买的平均时间间隔,可以帮助预测用户下次购买的时间,投放优惠券:
得到结果如下:
数据应用到Tableau做仪表盘:
2、漏斗分析
从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析,分析用户从浏览到购买各个环节的转化情况,找出可能存在的流失点并提出改进建议。
获得的结果如下:
数据应用到Tableau做仪表盘:
其中左侧为相对于浏览的各行为的转化百分比,右侧是各个行为相对于上一个行为的转化百分比。
分析原因:
1、收藏加购转化率高但购买浏览量转化率低:可能是由于用户在加入购物车前收藏了很多商品,但最终购买转化率低下,可能是由于价格、运费或者支付方式等因素影响了用户最终的购买决策。
2、购买收藏转化率较高:这个指标比较好,表明用户在收藏后最终购买的意愿较高,可能是由于收藏的商品在后续推荐中有更多曝光,或者收藏的商品符合用户的购买偏好。
解决方案:
1、对于购买浏览量转化率低而收藏加购转化率高的问题,可以分析用户在购买前的犹豫点,针对性地优化购买流程或者提供更多的购买诱因。
2、对于购买收藏转化率较高的情况,可以进一步推广收藏功能,增加用户收藏行为,以提高最终购买转化率。
3.2.1商品的销售规律
探索用户对商品的购买偏好:浏览量、成交量、加购量、成交率等指标,了解商品的销售规律:
结果如下:
由于商品过多,选择浏览量前20的商品进行数据分析
如图分析:
- 浏览量较高成交率低:在浏览量较高的商品中,可能存在更多的竞争,因此成交率和加购率可能会受到影响。
- 浏览量较低但成交率较高:,能存在更强的购买意图。这些商品可能满足了某些特定需求,因此即使浏览量较低,但购买率较高。
- 购物车遗弃率高: 消费者可能会将商品添加到购物车中,然后继续在其他网站或商家处比较价格和优惠,最终选择了其他选项。
3.2.2用户价值分群(RFM模型)
RFM模型是一种常用的用户分析方法,用于将用户按照他们的消费行为进行分群,以识别高价值的用户群体。RFM代表了三个方面的指标:
- 最近一次购买时间(Recency):指用户最近一次购买商品或服务的时间间隔。通常情况下,距离上次购买时间越短的用户越有可能继续购买。
- 购买频率(Frequency):指用户在一段时间内购买商品或服务的次数。购买频率高的用户可能更加忠诚或活跃。
- 购买金额(Monetary):指用户在一段时间内的累计购买金额。购买金额高的用户可能是高价值客户。
R(时间间隔)
F(消费频率)
M(消费金额)
分层结果
高
高
高
重要价值用户
高
低
高
重要发展用户
低
高
高
重要保持用户
低
低
高
重要挽留用户
高
高
低
一般价值用户
高
低
低
一般发展用户
低
高
低
一般保持用户
低
低
低
一般挽留用户
因为数据源里没有金额相关的信息,所以只通过R和F来对客户价值进行评分。
R:用户最近一次的购买时间到12月18日的时间差表示用户最近一次消费间隔
F:用户购买的次数表示用户消费频率
M:本次数据集未包含相关字段,故不考虑
建立打分规则
按价值打分
消费间隔R
消费频率F
客户类型
1
13天以上
0-5次
一般价值客户:最近消费时间远,购买频率低
2
9-13天
6-11次
重要发展用户:最近消费时间远,购买频率高
3
5-9天
12-17次
重要保持用户:最近消费时间近,购买频率低
4
0-4天
17次以上
重要价值用户:最近消费时间近,购买频率高
计算R、F值
得到:
接下来用这两项的每一项平均值作为判断高于还是低于,比如重要价值用户,必须是两项的分值都比平均值要高,才能作为重要价值的用户。
进行计数: