3大数据分析板块,6个数据分析模型,快速搞懂数据分析流程
本文则针对性地讲讲数据分析整个流程最关键的阶段: 数据处理与分析阶段 。该阶段我分成了三块:数据采集、数据处理、数据分析。
因为数据采集、处理、分析都围绕着"数据"进行,对海量或杂乱数据进行处理分析,从中找出痛点,洞察问题。 数据采集
该处的数据采集指的是获取分析所需要的数据,一般可以从内部数据、外部数据两个方向获取。
1. 内部数据 直接获取
直接获取的前提是,公司进行了数据仓库的建设,已为决策分析提供了所有类型数据支持。该部分内容在之前的文章中也提到过,但是在这里更加细化的做了点补充。
直接获取就是指数据库中有现成的表可以直接获取到所需的数据,不需要分析师再在sql上做复杂的处理。
公司一般会将数据分为ods、dwd、dwb/dws层数据。 ① ods层:明细数据。数仓不做任何数据处理,直接原封不动的将数据同步到该库上。为dw层的数据加工作准备。
②dwd层:明细数据。该层数据已在ods层上对数据做了清洗操作,比如去除空值、脏数据等。
③dwb/dws层:聚合数据。主要对ods/dwd层的数据做些轻度汇总,会涉及较多业务指标数据。如根据ods/dwd层的明细数据计算出七日复购率、周同期对比数据、毛利率等指标供分析师直接查询使用。
一般情况下,分析可以直接从dwb/dws层调取现成的指标数据进行分析,特殊情况下也可以从dwd层写复杂sql的方式计算成所需的数据。 重新落表获取
前提是dwb/dws层没有现成的数据可以直接获取,哪怕自己写代码可以从dwd层获取,也需要写很复杂的代码。此时,请数仓协助落成聚合表再去调取数据。
重新落表一般会涉及人力资源的协调,需求的沟通。分析师担当业务方和数仓之间的桥梁,将业务方的需求理清楚之后,自身又作为数仓的需求方对数仓提需求。
2. 外部数据
当分析的内容内部数据无法满足时,或者不够全面时,此时需要借助于外部数据来辅助分析。 行业报告数据
比如艾瑞网、极光大数据、阿里研究所、199IT互联网数据中心等都会时不时的发一些行业分析报告。整个行业的数据公司内部是无法获取的,所以可以从一些行业分析报告入手。 问卷采集
比如我们需要获取用户的一些①主观想法:喜欢我们产品的原因是?我们产品最吸引您的点是?您觉得我们产品最应该改进的点是?②对竞品的行为:您在xx场景下更愿意使用A产品、B产品还是C产品③用户习惯的场景:您在什么场景下更愿意使用xx产品?等
通过问卷数据获取一些产品中无法获得的数据,辅助分析。 宏观数据
有时候我们分析的某个指标有时候也会受到宏观政策的影响,比如宏观上某项指标上调了xx,对我们的业务会产生怎样的影响。 数据处理
对分析师而言,这步需要分析师将数据根据脑中的分析框架处理成所需要的数据。
1. 处理内容
会涉及数据异常值处理、缺失值处理、数据转换、数据聚合、数据分组归类以及数据准确性的校验,为下一步的数据分析奠定好基础。
井井有条的数据更有利于分析: 剔除无效数据,比如异常值、缺失值、重复值等。 考虑清楚数据聚合的维度,比如时间上、地域上、用户上、商品上等按照什么维度聚合。 做好数据聚合的处理,比如需要借助开窗函数,是否需要去重计数,是否需要累积计数等;
2. 数据验证
数据采集到之后,还要做好数据验证,目的是确保数据准确性,切忌拿到数据立马动手分析。
从验证人员来看: 自身多方验证。 初始先自身验证一番,与现有报表中已有数据进行对比,观察是否一致。 与需求方协同验证。 数据调取之后先出一份数据表,提供给需求方共同验证。不过分析师接了需求,保证数据准确性是基本要素,一般情况下需求方并不会协同验证。前提是,无现有数据可供对比查验,可将数据先提供给需求方过一眼,确保数据准确无误。
从验证方式来看: 定性验证 通过经验或逻辑推理,主观判断该数据是否符合经验或正常逻辑,比如你取到的某个商品的gmv比整个品类的gmv还要大,就不符合正常逻辑,肯定有误。 定量验证 依据统计方式,计算出具体的指标,多方交叉验证。 数据分析
数据分析方法很多,网上有很多资料,这里就讲一下其中比较常用的几种分析方法。
1. 漏斗分析
漏斗分析是数据分析中比较常见的分析模型。采取漏斗的方式直观的表示业务从起点到终点的各个环节的转化情况,以便找出有问题的环节,针对性的优化。
如下图,展示了用户支付场景的转化率:用户从打开app到完成支付的过程。分为进入首页→进入商详页→加入购物车→提交订单→支付完成,直观分析每个重要环节的转化率。以最直观最简单的方式反映出每个关键环节的转化率,洞察主要问题所在。
2. RFM模型
RFM模型主要用来衡量用户价值,做用户分群,比如区分出低价值用户、高价值用户、忠诚用户等用户群体。
R :用户最近一次消费距今时间( Recency )
F :用户在最近时间段内的消费频次( Frequency )
M :用户在最近时间段内的消费金额( Monetary )
这里用一个比较简单的例子讲下:
先对R、F、M三个值进行分层并赋予权重 (以下数据纯属虚构,分层时根据实际情况)。
比如用户最近一次消费距今时间7天以下的打为5分,8-14天的打为4分......以此类推。分数高的表示价值性比较高,分数低的表示价值性比较低。
然后调取出每个用户R、F、M值,填入"按照均值处理前"列中。
比如下图中,用户"111113"最近一次消费距今时间在7天以下,则R为5,在最近时间段内的消费频次在6-10之间,则F为2,在最近时间段内的消费金额在1001-2000之间,则M为2。
再将每个用户的R、F、M值与均值对比,大于均值填充1,小于均值填充0,填充于"按照均值处理后"列中。
最后将"按照均值处理后"的数据参照下图模型表 (下图不是计算出来的,是比较常用的标准) ,匹配出用户类型。
给用户匹配之后的用户价值类型如下
3.波士顿矩阵
波士顿矩阵不少人在大学期间学过,工作中也是比较实用的。可通过波士顿矩阵分析公司的产品结构,发现痛点,为是否需要及时调整战略目标,以及判断产品的资源分配是否合理提供了数据支持。
波士顿矩阵有以下4种结构类型: 明星产品: 成长期 。该产品在市场上占有比较大的份额,且处于高速增长阶段。未来发展为金牛产品的可能性比较大。此时抓住机会扩大投资,提升竞争优势。如图中的蜜桔、香蕉、苹果。 金牛产品: 成熟期 。产品已较为成熟,增长前景有限。稳定发展,尽量维持好当前市场份额。如图中的西瓜、樱桃。 问题产品: 导入期 。高速增长却市场份额并不高。说明此产品虽然高速增长,但并未及时开拓市场,营销存在问题。如图中的猕猴桃、荔枝。 瘦狗产品: 衰退期 。既市场份额不高,又增速缓慢,基本可以淘汰,将此资源转而投资给其他更有利的产品。如图中的草莓、杨桃、哈密瓜。
4.帕累托分析
帕累托分析就是"二八法则"。
"二八法则"认为80%的财富掌握在20%的人手里,应用到业务中就是,80%的营收在20%的产品里,同理,我们应该花80%的时间内在这20%的产品上。也就是说,宝贵的时间与资源应该用在刀刃上。
如下图:展示了每个品类的销售额,通过销售额计算出销售额累积值,进而算出累积百分比。
再通过销售额和累积百分比画出帕累托图,如下。
共15种品类,其中7个品类贡献了80%的销售额,占比46.67%,也就是说46.67%的商品为公司带来了80%的销售额,并不符合二八定律,该公司并没有强势产品。
5.AARRR模型
AARRR模型是探索用户增长的模型。分别对应用户生命周期的5个环节:用户获取、用户激活、用户留存、用户变现、推荐传播。
6.关联规则分析
关联规则分析其实就是购物篮分析,就是通过挖掘用户的消费行为数据,探索用户的消费习惯,从而合理搭配商品,提升收益。
举个简单的例子,近30天共产生了10笔订单 (方便计算只虚构了10笔) ,1代表订单中包含该商品,0代表订单中未包含商品,比如111112订单,用户没有买苹果,但买了香蕉 (是否买了其他商品不考虑) 。
其中购买了苹果的订单有6笔,购买了香蕉的有5笔,同时购买了苹果和香蕉的有3笔。
则:
① 苹果和香蕉组合的支持度
=同时购买了苹果和香蕉的订单数/总订单数*100%
=3/10*100%
=30%
含义:同时购买苹果和香蕉的概率有多大
② 苹果对香蕉的置信度
=同时购买了苹果和香蕉的订单数/购买了苹果的订单数*100%
=3/6*100%
=50%
含义:购买了苹果的用户有多大概率会再买香蕉
③ 苹果对香蕉的提升度
=苹果对香蕉的置信度 / 购买香蕉的概率
=50%/(5/10)
=1
含义:购买苹果对购买香蕉会产生正向影响还是负向影响还是无影响
此案例中计算的提升度是1,表示购买苹果并不会对购买香蕉产生任何影响。
详细解释下:
若提升度=1:表示购买苹果并不会对购买香蕉产生任何影响,因为在购买了苹果的条件下去买香蕉的概率和直接买香蕉的概率是一样的;
若提升度>1:表示购买苹果对购买香蕉产生了正向影响,即购买苹果很大可能也会买香蕉,因为在购买了苹果的条件下去买香蕉的概率大于直接买香蕉的概率;
若提升度<1:表示购买苹果对购买香蕉产生了负向影响,即购买苹果很大可能就不会买香蕉,因为在购买了苹果的条件下去买香蕉的概率小于直接买香蕉的概率;
这就是关联规则分析,一般用以研究探索商品捆绑销售,比如苹果是否需要和香蕉在一起捆绑销售,捆绑销售收益是否会更大。
转载/溜溜笔记说数据分析图谱分享
网恋对象结婚了,刷完朋友圈才知道,感觉挺突然的!哈哈哈1。网恋对象结婚了,刷完朋友圈才知道,感觉挺突然的!哈哈哈2。兄弟,你这都搜的啥啊?老婆把你的零花钱,控制得这么严格吗?简直太可怜了!哈哈哈3。体验了一把电竞酒店,但是为啥五黑房,
意难忘之后辈们的磋磨爱情(八)痛苦婚纱店里里面的白纱漂亮夺目,昂贵的钻石镶嵌在上边。此情此景,却让婷婷回想起那一天的大起大落。她是困惑的,怎么早晨时高高兴兴的新娘子,就在婚礼上出了那样的丑事。婚礼上来的宾客非富即贵
随着军事紧张局势的升温,中国可以采取四种方式收复台湾收复当中国决定以武力收复台湾时,目标是通过闪电般的48小时攻势来做到这一点,这样西方就没有时间做出反应。从俄乌战争中吸取教训从俄乌冲突中看到了西方的反应,中国军队应该吸取哪些教训。
香港财神爷娶小26岁跳水皇后伏明霞,与妻子闺蜜传绯闻2002年7月,伏明霞嫁给了大她26岁的梁锦松,引起一片哗然。奥运史上最年轻的冠军,被载吉尼斯世界纪录,首个登上时代周刊的中国运动员,靠一己之力修改奥运会规则的女人。缔造无数传奇的
爱国歌手黄安发文为何台湾艺人需要投名状?周杰伦也不例外爱国歌手黄安发文为何台湾艺人需要投名状?周杰伦也不例外。爱国歌手黄安来自宝岛台湾,著名代表作有新鸳鸯蝴蝶梦样样红和东西南北风等作品。他现已经定居内地,经常游历祖国的大好河山,享受各
1984年,台湾小三热水烫死原配,6孩流离失所,20年后丈夫也遇害01热水烫伤导致死亡啊啊啊,救命啊,快放开我啊咕噜咕噜,救命,疼这一声声凄惨的叫声传自于台湾台东地区的一处普通的住宅,这一声声的嘶吼飘荡在整个房间内,好像整个台东地区都可以听到。在
三味药煮水,一润肺,二滋肾,三排毒,横扫嗓子干,喉咙疼,咽炎大家好,我是沈医生,今天给大家介绍一个小方子,只用三味药煮水,就可以润肺利咽,滋阴补肾,排出肺中的热毒,治疗嗓子干,嗓子痛的情况,如果你有急慢性咽炎,经常嗓子不舒服,那这篇文章就千
聊下钱的事什么是钱?人民币,美元,欧元,日元等等,这些都叫钱。它们有什么不同?主要是货币单位代表的价值不同。也就是计量单位不用。举个不恰当的例子就是一个人民币单位代表一个鸡蛋,一个美元单位代
罗永浩怎么看?西门子回应洗衣机10年包修为保证能修真的是套路满满,大家觉得呢?近日,一网友反映称买的西门子洗衣机坏了,洗衣机上写着包修十年,但是去维修竟还需另付上门维修费以及配件费。十年包修被客服解释为十年保证能修,认为这是欺骗消
超地道!海南这座小城的宝藏攻略快收好大家对海南其实都不陌生了但是这座海南的宝藏小城文昌不是热门目的地却也值得打卡下面这份当地人推荐的打卡线路吃喝玩乐都齐全了,快收好下次去海南可以抽个时间去游玩路线推荐市区出发老爸茶店
笛安关于蜂蜜与熊的相遇成为母亲以后,我经常想一个问题,大人和小孩之间,抛开爱责任义务,有没有可能存在真正的友谊?虽然身为母亲,但我并不奢望成为孩子最好的朋友扪心自问,我也不想和我妈做朋友,母女之间总会有