开始学习数据分析,可能会一股脑沉迷于工具的学习使用,或是只有统计的数据分析,做了很多图表,却不能发现其中的业务问题;又或是没有数据分析意识,经常会说我觉得,我认为,得不出什么建设性的结论。
不知道你在进阶过程中是否也有这样的症状?为了解决这样的问题,我们就要去学习分析方法,结合业务更好地提出问题进行分析,而不是让数据分析只是提数。
一. 分析方法知多少
1.什么是分析方法?
分析方法就是将零散的想法整理成有条理的思路。好比盖房子需要事先有设计图,这里的分析方法就好比设计图作用,盖房子需要有挖土机等工具,数据分析中需要Excel,SQL,Python等工具,道理是一样的。
2.分析方法的作用?
分析方法帮助我们面对问题有分析的思路,面对一堆数据如何展开去分析以及面试中的业务问题如何去回答。
3.常用的分析方法?
根据场景和分析目的不同选择不同的分析方法:
帕累托分析
又称为二八法则,即百分之八十的问题是百分之二十的原因造成的。在项目管理中主要用于找出核心问题。核心问题发现、核心价值发现
举个栗子,根据帕累托分析找出轿车销量比较好的核心品牌。
从上面图表我们可以看出在这些轿车品牌中,排名前4的占据了50%左右的销售市场,排名前10的品牌占据了80%左右的销售市场,这也正是我们要找寻的轿车品牌的核心品牌。当然,对于这张图既然给出了梯度分级,其实可以进一步根据两个分界点对各品牌进行分层(运用RFM模型)。
那么如何绘制帕累托图呢?
首先,我们可以先观察一下上图表的一些主要特点:
柱形图的数据按数值的降序排列,折线图上的数 据有累积百分比数据,并在次坐标轴显示;
折线图的起点数值为0%,并且位于柱形图第一 个柱子的最左下角;
由于起点为0%,图表中百分比数据会比原始数据多一个,所以在准备数据时需要多准备一个0%
折线图的第二个点位于柱形图第一个柱子的最右上角 ;
折线图最后一个点数值为100%,位于整张图形 的最右上角。
我总结了在Excel中绘制帕累托图的方法:
1. 首先你得确保你的数据表中统计值是降序排列,添加累计值列(利用sum函数),累计占比列,另外折线图中点比柱状图多一个,所以要多准备一个点数据0%,放在累计占比列的最前面。我们需要用到的列为两列:统计列和累计占比列。
2. 选中表区域-选择图表类型-选择“组合”-对统计值选用柱状图,累计占比选用折线图-并将折线图类型勾选次坐标轴;
3. 对图表做初步调整:选中折线图-调整图表右侧纵坐标范围调整为到100%;选中柱子-将柱子间隙宽度设置为0,并选中柱子-添加边框(用于清晰区别显示,通常选择白色)
4. 初始累计占比需显示0,需进行以下调整:选中折线图-选择数据-去查看每个类别的表数据范围-进行修改系列名称(当前列名)和系列值(对应表数据)
5. 发现折线初始位置不在0处,需要前移半步,进行以下调整:选中图标-点击“+”-在坐标轴选项勾选次要横坐标
6. 选中次坐标轴-改坐标位置-选择在坐标轴上,再修改上方的标签位置为无;
7. 根据数据表中计算的累计值列的最大值,修改纵坐标范围(调整最大最小值)
8. 选中折线图-勾选数据标签-查找80%大致位置,记下位置-去除标签-单独点击刚刚记下的点-添加数据标签
9. 突出显示这80%的柱图区,填充其为别的颜色以示区别。
需要脱位
RFM模型
模型的名称定义可以根据具体的行业、场景进行命名。
RFM模型是衡量用户价值和用户创利能力的经典工具,依托于三个要素。分别如下所示:
R(Recency)最近一次消费时间:表示用户最近一次消费距离现在的时间。消费时间越近的客户价值越大。1年前消费过的用户肯定没有1周前消费过的用户价值大。
F(Frequency)消费频率:消费频率是指用户在统计周期内购买商品的次数,经常购买的用户也就是熟客,价值肯定比偶尔来一次的客户价值大。
M(Monetary)消费金额:消费金额是指用户在统计周期内消费的总金额,体现了消费者为企业创利的多少,自然是消费越多的用户价值越大。