实战 | 淘宝用户转化路径分析和用户价值分类(7000字-附电商分析资料)
关注微信公众号:木木自由,更多产品、运营与数据分析干货以及经验分享
作者:知乎—sunshine 转自来源:https://zhuanlan.zhihu.com/p/258064720全文共7000字左右,建议阅读15分钟
【资料图】
电商行业经过十几年的发展,已经步入成熟发展阶段。作为电商头部企业,淘宝、京东、拼多多3家企业已经呈现分庭抗礼的状态,现阶段的用户获客成本很高。实现用户增长,购买转化率提升已经不能再单纯依赖于电商行业红利,从粗狂化运营到精细化运营是必然趋势。从各个维度对用户数据进行细化分析,降低颗粒度,在业务中指导方向具有很大的意义。
本文将从淘宝用户行为数据着手分析,为精细化运营提出业务指导性意见。
02提出问题1. pv、uv随着时间的分布研究。 2. 淘宝各个环节的转化率研究。 3. 用户活跃天数与购买行为的相关性研究 4. 使用RFM分析方法对用户按价值分类 分析思路本数据集 (UserBehavior.csv) 包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成。
向右滑动查看更多
数据来源:阿里巴巴天池,公众号后台回复“淘宝” 可获取数据集。
04清洗数据4.1 导入数据
由于数据量较大,本次导入数据前30万条做分析研究。
源数据没有列名,在此先将第一行作为列名,再将目标字段修改为对应的列名。
此处全部先以varchar类型导入数据。
将用户id、商品id、时间戳3列设为联合主键。
导入后的数据如下:
4.2 查找缺失值
对数据进行一个整体的统计,每列的数据均为300000,无缺失值。4.3 删除重复值
用户可以对某个商品进行多次浏览、收藏、加购和购买,但对某个商品在特定时间点只能够有一种行为类型。在此针对用户id、商品id、时间戳作为一个整体来查重。
发现并无重复值。
4.4 一致化处理
时间戳这一列方便后续分析,从这一列中提取出常规形式的日期、时间。
/*添加日期列*/alter table userbehavior add 日期 varchar(255);update userbehavior set 日期=FROM_UNIXTIME(时间戳,"%Y-%m-%d");
格式如下:
/*添加时间列*/ALTER table userbehavior add 时间 varchar(255);update userbehavior set 时间=FROM_UNIXTIME(时间戳,"%H:%i:%s");
4.5 异常值处理
查找行为类型的值无异常。查找日期值,发现有研究目标日期2017/11/25-2017/12/3之外的数据。
在此做删除处理。
重新验证下删除后的数据,符合标准。
05数据分析先对数据进行一个整体了解,共有行为记录299862条,用户数量2953,商品数量162887,商品类目数量4512,行为类型数量为4。
商品类目、商品种类都非常齐全。
5.1 PV、UV随时间分布情况研究
5.1.1 以天为单位,PV、UV随日期分布情况
/*每日PV查询*/SELECT 日期,count(行为类型) as PV FROM userbehaviorWHERE 行为类型="pv"GROUP BY 日期
ORDER by 日期;
/*每日UV查询*/SELECT 日期,count(distinct 用户ID) as UVFROM userbehaviorWHERE 行为类型="pv"GROUP BY 日期ORDER by 日期;
从图中可以看出,pv、uv随着时间的整体走势是一致的,2017/12/2(周六)2017/12/3(周日)相较前面的日期,数量有大幅增长。
假设涨幅是因为周六、周日休息日,用户更多的空闲时间可以用于访问淘宝。
对此,我们往前对比上一个周末2017/11/25-2017/11/26的值,这两天的值相较于工作日2017/11/27-2017/12/1并没有明显涨幅。
假设不成立。
根据日常经验,考虑可能为双十二节日造势,提前的推广活动:如预付定金。查找资料证实猜测成立。
5.1.2 以24H为研究范围,PV、UV随着时间的变化情况
/*每小时pv查询*/SELECT hour(时间),count(行为类型) as PV FROM userbehaviorWHERE 行为类型="pv"GROUP BY hour(时间)ORDER by hour(时间);
/*每小时uv查询*/SELECT hour(时间), count(distinct 用户ID) as UVFROM userbehaviorWHERE 行为类型="pv"GROUP BY hour(时间)ORDER by hour(时间);
由图可以看出,24小时内,PV、UV随着时间的整体变化趋势是一致的。在0-4点访问量和访问人数逐渐下降,在4点逐渐回升,至10点逐步稳定,10-18点呈现稳定略微波动的状态,18点后逐渐升温,在21点达到峰值,之后逐渐回落。
整体走势与我们大多数人的作息习惯是吻合的
23点-7点为休息时间,期间访问人数和访问数量相对较低;
随着7点之后开始起床,逐渐进入活跃上升状态;
18点下班后,用户的空闲时间释放,访问量和人数又迎来一次上升。
可根据用户活跃时段来进行活动促销安排,促销时间安排在10点之后,以19-22点为最佳。
5.2 淘宝各个环节的转化率研究
从上图可以看出,点击浏览行为占比总行为量的89.77%,而购买仅占比2.11%,转化率非常低,仅为2.35%。我们对转化率低的原因做进一步探究,做假设分析。 5.2.1 各业务流程环节的转化率探究本节对假设2:某些环节的准化率影响了整体转化率进行探究 购买流程共存在以下4种情况: ① 浏览——收藏/加购——购买 ② 浏览——收藏/加购——流失 ③ 浏览——购买 ④ 浏览——流失 我们对各个环节的转化率及占比做进一步的计算。 ①浏览——收藏/加购——购买的转化率a.浏览——收藏/加购的转化率
该阶段转化率为9.04%
b.收藏/加购——购买的转化率 先将收藏、加购行为的用户创建一个视图计算收藏、加购的用户中购买的转化率,为23.96% 流程①各个环节转化率汇总如下: 这一流程的总转化率为9.04%*23.96%=2.17% 流程② :浏览——收藏/加购——流失整个环节占比:9.04%-2.17%=6.87% 流程③ :浏览——购买 的转化率该环节转化率为0.18% 流程④ 浏览——流失 占比该环节占比:流失率=100%-9.04%-0.18%=90.78% 各环节的占比情况汇总如下:
create view C_Fasselect distinct 用户idFROM userbehaviorwhere 行为类型 in("cart","fav");
可以看出,用户的购买转化率是非常低的,整体购买转化率为2.35%,流失率高达97%。而用户浏览、收藏加购后的购买转化率2.17%远远大于浏览直接购买的转化率0.18%。流程①浏览——收藏/加购——购买,前一阶段用户的转化率较低为9.04%,后一阶段的转化率为23.96%,相较还是比较可观的。 因此假设某些环节的准化率影响了整体转化率进行探究是成立的。对此,可通过抽奖或者发放优惠券等奖励的方式吸引用户收藏及加购,从而提高转化率。 浏览后流失的用户我们在下一环节继续研究。 收藏/加购后流失的用户需要结合更多的数据进一步分析: 是否为短期内有活动,用户要先收藏/加购等活动价格更优惠时购买,需要该时间之后,如双12活动期及之前的数据做分析; 研究之后一段时间内用户是否购买同种类商品,如未购买,表明物品非刚需,但还是能够吸引到用户,说明产品的运维做的很棒;如购买,需要做竞品分析,我们的产品有竞争力却不足以驱使用户购买,进一步优化产品运营。
5.2.2 平台推荐的产品不是用户喜欢的产品
本节针对假设1平台推荐的产品用户不喜欢做研究论证该问题需要拆解成两个部分: ①平台推荐的产品top10:即点击量top10 ②用户购买产品top10然后对两者做对比分析。
1.分别取证用户购买top10类目和平台推送top10类目
/*平台推荐商品类目top10*/SELECT 商品类目id,count(行为类型)as "pv"FROM userbehaviorWHERE 行为类型="pv"GROUP BY 商品类目idORDER BY count(行为类型)desclimit 10;
/*用户购买商品类目top10*/SELECT 商品类目id,count(行为类型)as "buy"FROM userbehaviorWHERE 行为类型="buy"GROUP BY 商品类目idORDER BY count(行为类型)desclimit 10;
发现销量TOP10和平台推送TOP10有4个产品类目是重叠的。
而平台推送TOP1类目【4756105】在用户购买排名中到了第7名,
平台推送TOP2类目【3607361】并未在用户购买排名中上榜,
平台推送TOP3类目【4145813】在用户购买排名中排名第二,
另外两个共同上榜类目是【9892926】、【4801426】
2.取证用户购买top10产品和平台推送top10产品
两部分数据做内联结,发现并无重叠。综上,平台推荐商品类目TOP10和用户购买商品类目TOP10只有4个是重叠的,
平台推荐商品id TOP10和用户购买商品id TOP10无重叠。 假设1平台推荐的产品用户不喜欢 成立。对此,建议平台方优化算法,精准推送。 如商品的分类是否可以更加精准细化,参考用户的购买偏好多方面获取计算等。5.3 用户活跃天数与购买行为的相关性研究
构建分组模型,利用群组分析方法进行研究。 将用户按照活跃天数进行分组,研究购买转化率。 我们上面在研究用户活跃度随时间分布情况时,2017/12/3和2017/12/4两天出现大幅增长可能存在营销活动,数据不具有代表性。在此我们只研究2017/11/25-2017/12/2之间的数据。1.计算每个用户的活跃天数
/*计算每个用户的活跃天数*/CREATE view 用户活跃天数asSELECT 用户id,count(distinct 日期)FROM userbehaviorWHERE 日期<’2017-12-03’GROUP BY 用户id;2.然后根据活跃天数对用户分组
SELECT 活跃天数,count( distinct X.用户id)as "活跃人数",count(distinct case when Y.行为类型="buy" then X.用户id else null end)as "购买人数",count(distinct case when 行为类型="buy" then X.用户id else null end)/count(distinct X.用户id) as "购买率"FROM 用户活跃天数 X inner join userbehavior Y on X.用户id=Y.用户idGROUP BY 活跃天数;由结果可知,7天内购买转化率随着活跃天数呈线性增长状态。连续7天购买的转化率已经达到了80%,一个非常可观的状态。 研究两者的相关性,相关系数为0.97,高度相关。 绘制购买转化率和活跃天数的曲线,得到回归方程,y=0.0772x+0.2957 y代表购买转化率,x表示活跃天数。 当X=9时,y=99% ;X=10时,y=106.8% 所以该相关分析由于时间维度较窄,并不适用于所有情况。当天数延长到一定区间后,该相关性是否成立还需要重新计算。估算长期增长呈现生长曲线模式。 该结果仅限于7天研究范围内。 平台方可采取鼓励每天打卡赢得奖励的方式,提高用户活跃度,增加用户粘性。进而提升转化率。 5.4 使用RFM分析方法对用户按价值分类
RFM分析模型
R: 用户最近一次消费日期距2017/12/3的天数
F: 用户在2017/11/25—2017/12/3之间的消费频次
M: 用户在2017/11/25—2017/12/3之间的消费总金额,源数据中无此值,在此不做研究
1. 针对R、F值建立评分体系
2. 计算每个用户的R值,F值
3. 给每个用户的R、F值评分
CREATE VIEW RFasSELECT 用户id, R, F, (case when R=0 then 5 when R between 1 and 2 then 4 when R between 3 and 4 then 3 when R between 5 and 6 then 2 else 1 end )as "R_score", (case when F>5 then 5 when F between 4 and 5 then 5 when F=3 then 3 when F=2 then 2 else 1 end )as "F_score"FROM (SELECT 用户id,timestampdiff(day,max(日期),"2017-12-03") as "R", count(行为类型)as "F" FROM userbehavior WHERE 行为类型="buy" GROUP BY 用户id order by 用户id )as X;4. 计算R分数的平均值,F分数的平均值
SELECT avg(R_score),avg(F_score) FROM RF;5. 得出每个用户R、F价值高低
6. 和用户分类规则比较,分类用户,统计数量
SELECT sum(case when R > 3.5343 and F > 2.6334 then 1 else 0 end)as "重要价值客户", sum(case when R > 3.5343 and F < 2.6334 then 1 else 0 end)as "重要发展客户", sum(case when R < 3.5343 and F > 2.6334 then 1 else 0 end)as "重要保持客户", sum(case when R < 3.5343 and F < 2.6334 then 1 else 0 end)as "重要挽留客户"FROM RF;发现平台的重要价值客户占比较低,主要集中于重要保持客户和重要挽留客户。 要对用户进行精细化运营,做好用户维护。 针对每类客户制定运营策略: 1)重要价值客户,RFM三个值都很高,要提供vip服务, 2)重要发展客户,消费频率低,但是其他两个值很高,就要想办法提高他的消费频率 3)重要保持客户,最近消费距离现在时间较远,也就是F值低,但是消费频次和消费金额高。这种客户,是一段时间没来的忠实客户。应该主动和他保持联系,提高复购率 4) 重要挽留客户,最近消费时间距离现在较远、消费频率低,但消费金额高。这种客户,即将流失,考虑是否为产品属性为耐用品;否则可通过主动联系客户,调查原因或者推送客户新品信息等方面召回客户。 06结论及建议1、在24小时维度内,PV、UV随着时间的整体变化趋势是一致的。 在0-4点访问量和访问人数逐渐下降,在4点逐渐回升,至10点逐步稳定, 10-18点呈现稳定略微波动的状态,18点后逐渐升温,在21点达到峰值,之后逐渐回落。 可根据用户活跃时段来进行活动促销安排,促销时间安排在10点之后,19-22点为最佳。 在此时间段内,做一些营销活动提高转化率、增加访客数,例如直播,准点秒杀等;并且可在下午的时间段开始预告晚上即将推销的商品,带动下午时间段的用户活跃度。 2. 对用户行为类型分析,发现用户的购买转化率是非常低的,整体购买转化率为2.83%,流失率高达97%。 用户浏览、收藏加购后的购买转化率2.65%远远大于浏览直接购买的转化率0.18%。 流程:浏览——收藏/加购——购买,前一阶段用户的转化率较低为11.06%,后一阶段的转化率为23.97%,相较还是比较可观的。 收藏/加购后流失的用户需要结合更多的数据进一步分析: 是否 为短期内 有活动,用户要先收藏/加购等活动价格更优惠时购买,需要该时 间之后,如 双12活动期及之前的数据做分析; 研究之后一段时间内用户是否购买同种类商品,如未购买,表明物品非刚需,但还是能够吸引到用户,说明产品的运维做的很棒;如购买,需要做竞品分析,我们的产品有竞争力却不足以驱使用户购买,进一步优化产品运营。
对此,可通过抽奖或者发放优惠券等奖励的方式吸引用户收藏及加购,从而提升进一步的转化率 3.平台推荐商品类目TOP10和用户购买商品类目TOP10只有4个是重叠的, 平台推荐商品id TOP10和用户购买商品id TOP10无重叠。 存在平台推荐商品与用户购买商品匹配度不高的情况。 对此,建议平台方优化算法,精准推送。 如商品的分类是否可以更加精准细化,减少用户搜索推荐的不匹配;参考用户的购买偏好在多方面完善构建用户画像,做到精准推送等。 4. 7天内购买转化率随着活跃天数呈线性增长状态。连续7天购买的转化率已经达到了80%。购买转化与活跃天数的相关系数为0.97,高度相关。 购买率与活跃天数的7天回归方程,y=0.0772x+0.2957 平台方可采取鼓励每天打卡,连续7天打卡赢得奖励的方式,提高用户活跃度,增加用户粘性。进而提升转化率。 5.对用户构建RFM模型,发现平台的重要价值客户占比较低,主要集中于重要保持客户和重要挽留客户。 要对用户进行精细化运营,做好用户维护。 针对每类客户制定运营策略: 重要价值客户,要提供vip服务, 重要发展客户,消费频率低,但是其他两个值很高,就要想办法提高他的消费频率,如提供优惠券 重要保持客户,最近消费距离现在时间较远,但是消费频次和消费金额高。是一段时间没来的忠实客户。应该主动和他保持联系,提高复购率 重要挽留客户,最近消费时间距离现在较远、消费频率低,但消费金额高。考虑是否为产品属性为耐用品;否则这种客户,即将流失,可通过主动联系客户,调查原因或者推送客户新品信息等方面召回客户。作者:sunshine 来源:https://zhuanlan.zhihu.com/p/258064720校对:木兮 参考资料:电商数据分析笔记总结
进星球获取更多~搜素关键词“电商数据分析”完整资料~
立即扫码 扫码加入星友群 即可各种数据分析思维、工具、课程、书籍、项目、运营、产品相关结构化体系资料~ 内容持续更新,期待你来在后续也会在【数据分析·领地】中,组织读书会,分享会等专项活动,读书会主要学习技术类的书籍领读,分享会主要以数据分析思维分享,案例复盘分享等~
部分图片来源于网络,使用图片、文字等均不作为商业用途使用,如有侵权,请联系删除~关键词:
下一篇:最后一页
精心推荐
- 上海发布进一步优化调整疫情防控的相关措施-天天快资讯
- 山西汾酒12月6日获沪股通净买入2.19亿-播报
- 去年京津冀工信部门推进签约570多项高端高新项目
- 京津冀区域协同创新指数增长迅速
- 1至2月河北省工业生产平稳开局 规模以上工业增加值同比增长6.0%
- 浙江绍兴15日0-21时新增41例确诊病例
- 沈阳大气优良天数达近5年来最好水平
- 辽宁实行市级政府集中监管 首站定点冷库加强疫情防控
- 辽宁省25个博士后团队冲刺全国博士后创新创业大赛
- 安徽省宿州市埇桥区大营镇大营新村调整为中风险地区
- 云南哀牢山4名地质调查人员因公殉职原因查明
- 全国首部涉及“非现场执法”的法规施行 浦东新区打造引领区数字化城市治理样板
- 杭州一封控小区完成第三轮核酸检测 前两轮检测均为阴性
- 集采未中选药品现在怎么样了?这组数据告诉你
-
(四川统战人说统战事)“海归”博士后王暾:专注灾害预警科技创新 打通灾害预警“最后一公里” 中新网成都12月15日电 (起钰婷)“国
-
中新网福建平和12月15日电 (周晓彬 马淑惠)12月15日,福建省平和县人民法院依法宣判蔡某金等10人涉恶犯罪案件。 法院审理查明,20
-
中新网郑州12月15日电 (记者 韩章云)针对近日网友实名举报中国农业发展银行太康县支行员工夏某华吃空饷一事,中国农业发展银行河南省
-
中新网宿迁12月15日电 (记者 刘林)“房子干净又敞亮,社区漂亮又整洁。”15日,家住江苏宿迁牛角淹社区的袁有亮谈起新家,兴奋的心情
-
中新网通辽12月15日电 (记者 张林虎)15日,记者从内蒙古自治区通辽市科左后旗公安局获悉,该局打掉一个帮助网络犯罪转账的“跑分团队
X 关闭
行业排行
- 1、深圳:积极推进旅游业恢复 扎实推动经济稳定增长
- 2、保定定州提出一系列发展措施 引领体品产业向智能化品牌化高端化迈进
- 3、河北省财政厅充分发挥财政职能作用 促进交通运输事业发展
- 4、太原阳曲人才公寓项目开启施工招标工作 共有1954套人才公寓满足人才居住需求
- 5、山西出口钢构件顺利发货 为企业加强科技创新开辟了更为广阔的发展空间
- 6、上半年泰州姜堰实现新签约亿元和1000万美元以上项目95个 计划总投资208.319亿元
- 7、清华博士非洲修电站 因为他,“内卷”成为网络热词
- 8、内蒙古新增本土确诊病例3例 均在呼伦贝尔满洲里市
- 9、31省份新增新冠肺炎确诊病例67例 其中本土50例
- 10、浙江新增本土确诊病例45例 其中宁波6例、绍兴39例
X 关闭
产业
-
不用跑北京 在家门口也能挂上顶...
日前,我省首个神经疾病会诊中心——首都医科大学宣武医院河北医院...
-
“十四五”期间 河北省将优化快...
从省邮政管理局获悉,十四五期间,我省将优化快递空间布局,着力构...
-
张家口市宣化区:光伏发电站赋能...
3月19日拍摄的张家口市宣化区春光乡曹庄子村光伏发电站。张家口市宣...
-
“张同学”商标被多方抢注 涉及...
“张同学”商标被多方抢注,官方曾点名批评恶意抢注“丁真” ...
-
山东济南“防诈奶奶团”花式反诈...
中新网济南12月15日电 (李明芮)“老有所为 无私奉献 志愿服...
-
广州新增1例境外输入关联无症状...
广州卫健委今日通报,2021年12月15日,在对入境转运专班工作人...
-
西安报告初筛阳性病例转为确诊病例
12月15日10:20,经陕西西安市级专家组会诊,西安市报告新冠病毒...
-
广东东莞新增本土确诊病例2例 ...
(抗击新冠肺炎)广东东莞新增本土确诊病例2例 全市全员核酸检测...
-
中缅边境临沧:民警深夜出击捣毁...
中新网临沧12月15日电 (胡波 邱珺珲)记者15日从云南临沧边境...
-
“土家鼓王”彭承金:致力传承土...
中新网恩施12月15日电 题:“土家鼓王”彭承金:致力传承土家...
