『壹』 如何快速全面建立自己的大数据知识体系
所谓的大数据平台不是独立存在的,比如网络是依赖搜索引擎获得大数据并开展业务的,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有什么公司发布了什么项目解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社区,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为数据平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。
-
『贰』 如何构建大数据体系
一.数据搭建
建立自己的数据收集规范,形成一定的数据采集、筛选、分析等相应的制度
二.数据报表可视化
对数据进行标准化的配置,形成可视化的报表系统
三.产品与运营分析
对平台的各个角色建立全方位的用户画像,对行为进行数据跟踪,对数据挖掘分析,建立漏斗模型,流动模型,用户细分等模型。
四.精细化产品运营
对产品制定自动获取数据制度,用数据跟踪产品的生命周期,对数据进行细分,做到针对性运营
五.数据产品
借助第三方数据获取的渠道,形成数据化产品,提供数据化的依据
『叁』 如何做好数据分析
数据分析有:分类分析,矩阵分析,漏斗分析,相关分析,逻辑树分析,趋势分析,行为轨迹分析,等等。 我用HR的工作来举例,说明上面这些分析要怎么做,才能得出洞见。
01) 分类分析
比如分成不同部门、不同岗位层级、不同年龄段,来分析人才流失率。比如发现某个部门流失率特别高,那么就可以去分析。
02) 矩阵分析
比如公司有价值观和能力的考核,那么可以把考核结果做出矩阵图,能力强价值匹配的员工、能力强价值不匹配的员工、能力弱价值匹配的员工、能力弱价值不匹配的员工各占多少比例,从而发现公司的人才健康度。
03) 漏斗分析
比如记录招聘数据,投递简历、通过初筛、通过一面、通过二面、通过终面、接下Offer、成功入职、通过试用期,这就是一个完整的招聘漏斗,从数据中,可以看到哪个环节还可以优化。
04) 相关分析
比如公司各个分店的人才流失率差异较大,那么可以把各个分店的员工流失率,跟分店的一些特性(地理位置、薪酬水平、福利水平、员工年龄、管理人员年龄等)要素进行相关性分析,找到最能够挽留员工的关键因素。
05) 逻辑树分析
比如近期发现员工的满意度有所降低,那么就进行拆解,满意度跟薪酬、福利、职业发展、工作氛围有关,然后薪酬分为基本薪资和奖金,这样层层拆解,找出满意度各个影响因素里面的变化因素,从而得出洞见。
06) 趋势分析
比如人才流失率过去12个月的变化趋势。
07)行为轨迹分析
比如跟踪一个销售人员的行为轨迹,从入职、到开始产生业绩、到业绩快速增长、到疲惫期、到逐渐稳定。
『肆』 数据分析应该怎么做
1.明确目的和思路
首先明白本次的目的,梳理分析思路,并搭建整体分析框架,把分析目的分解,化为若干的点,清晰明了,即分析的目的,用户什么样的,如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。
2.数据收集
根据目的和需求,对数据分析的整体流程梳理,找到自己的数据源,进行数据分析,一般数据来源于四种方式:数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告(如艾瑞资讯)、市场调查。
3.数据处理
数据收集就会有各种各样的数据,有些是有效的有些是无用的,这时候我们就要根据目的,对数据进行处理,处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法,将各种原始数据加工成为产品经理需要的直观的可看数据。
4.数据分析
数据处理好之后,就要进行数据分析,数据分析是用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
5.数据展现
一般情况下,数据是通过表格和图形的方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。
6.报告撰写
撰写报告一定要图文结合,清晰明了,框架一定要清楚,能够让阅读者读懂才行。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
『伍』 如何建立业务数据分析指标体系教你完整的方法论
1. 一个比喻
为了便于理解,我们可以把指标体系的建立,比作穿衣服,刚开始没有衣服可穿的时候,可以先找人借一件,这件衣服或许不太合身,但能满足抵御寒冷等基本需求。
随着经济水平的提升,我们就可以去选择其他更加适合自己的衣服。
指标体系的建立也是一样,可以先从其他企业借鉴过来,刚开始未必很合适,但能让业务更快地走上正轨。
随着业务的发展,再根据实际情况,不断进行优化调整。
2. 用鱼骨图
利用鱼骨图,可以一层一层地进行分析,如同抽丝剥茧一般,从而找到影响业务的关键因素。
比如说,把一家企业的愿景与方向,先分成几个大的方面,再细分为一些具体的指标,然后从中找到对业务影响比较大的指标,也就是关键业绩指标(Key Performance Indicator),简称 KPI。
更进一步,找到唯一关键指标(One Metric That Matters),简称 OMTM,也称为 北极星指标 ,因为这个指标要像北极星一样,指引企业前进的方向。
用鱼骨图寻找 KPI 和北极星指标的过程,就好比给企业量身定制衣服。选择战略,就像选择衣服的类型,因为太极服与西装的用途不同,所以同一个部位的尺寸往往不一样。同理,企业的发展战略和阶段不同,KPI 和北极星指标也会不一样。
3. 业务逻辑
建立一套行之有效的指标体系,应该从业务逻辑出发,一点一点地进行展开。
业绩层的指标体系,是由战略层的目标决定的,而指标体系又要进一步分解到组织当中,这样才能起到战略方向的牵引作用,其中 KPI 指标体系是核心。
举一个例子,一家零售企业,目标是获得更丰厚的经营利润,这来源于一个又一个的订单,而订单包括人、货、场三个要素,每个要素下面又有若干个指标,以此类推。
随着业务的发展,你可能会发现,指标越来越多,如果这些指标没有很好地组织起来,那么就像一团乱麻,让人抓不住重点。
所以,有必要建立一个框架体系,分门别类地对指标进行梳理,按照一定的业务逻辑,把指标关联起来,从而形成业务分析的场景。
4. 二八法则
指标体系是管理水平的体现,选择合适的指标,可以运用「二八法则」。因为 80% 的业绩,通常是由 20% 的关键因素决定的。所以,要抓好这 20% 的关键因素,对其进行分析拆解、指标设定、考核评价、激励控制,这样才能抓住主要矛盾,就如同牵牛要牵牛鼻子。
没有健全的指标体系,做数据分析就没有抓手,很多东西没法量化,做业务就没有方向,团队产生不了合力,就很难取得好成绩。
总之,建立指标体系,要按照业务的逻辑和流程,细分为可以量化的指标,经过分门别类地梳理,并把关键指标按照「二八法则」提炼出来,这样一套指标体系就基本建立好了。
5. 一个例子
以零售行业为例,按照人、货、场的业务逻辑,我整理了一份指标体系,其中假设经营利润是北极星指标,所以在该指标前面加了一颗星星图标。
对于人力驱动型的传统零售行业,员工在商场卖货给客户,人、货、场其实是融为一体的,所以指标之间也有密切的联系,比如销售额,分别可以从客户、员工、货物、商场等维度进行统计和分析。
上面这个零售行业指标体系,仅供参考,你应该根据自身业务的实际情况,增加或删减相关指标,建立最适合自己的指标体系。
在企业发展的不同阶段,商业目标不一样,北极星指标可能会有所不同。比如说,面对突如其来的疫情,很多企业的目标是「活下来」,所以要控制成本,减少广告投入。疫情之后,有些企业想要扩大品牌影响力,所以增加广告投入。
小结
本文介绍了建立指标体系的方法,利用鱼骨图,按照业务逻辑,遵循二八法则,并以零售行业为例,建立了一套指标体系。
特别提醒一下,指标体系的建立并不是一蹴而就的,通常包括创建、运行和修正三个阶段。
创建阶段包括确定目标、分配权重等工作;运行阶段包括制定标准、考核评判等工作;修正阶段包括复盘总结、修订调整等工作。
『陆』 如何搭建大数据分析平台
1、 搭建大数据分析平台的背景
在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。
2、 大数据分析平台的特点
数据摄取、数据管理、ETL和数据仓库:提供有效的数据入库与管理数据用于管理作为一种宝贵的资源。
Hadoop系统功能:提供海量存储的任何类型的数据,大量处理功率和处理能力几乎是无限并行工作或任务
流计算在拉动特征:用于流的数据、处理数据并将这些流作为单个流。
内容管理特征:综合生命周期管理和文档内容。
数据治理综合:安全、治理和合规解决方案来保护数据。
3、 怎样去搭建大数据分析平台
大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作。我们可以利用亿信一站式数据分析平台(ABI),可以快速构建大数据分析平台,该平台集合了从数据源接入到ETL和数据仓库进行数据整合,再到数据分析,全部在一个平台上完成。
亿信一站式数据分析平台(ABI)囊括了企业全部所需的大数据分析工具。ABI可以对各类业务进行前瞻性预测分析,并为企业各层次用户提供统一的决策分析支持,提升数据共享与流转能力。
『柒』 怎样对数据进行分析—数据分析的六大步骤
时下的大数据时代与人工智能热潮,相信很多人都会对数据分析产生很多的兴趣,其实数据分析师是Datician的一种,指的是不同行业中,专门从事行业数据收集,整理,分析,并依据数据做出行业研究、评估和预测的专业人员。
很多人学习过数据分析的知识,但是当真正接触到项目的时候却不知道怎样去分析了,导致这样的原因主要是没有属于自己的分析框架,没有一个合理的分析步骤。那么数据分析的步骤是什么呢?比较让大众认可的数据分析步骤分为
六大步骤。只有我们有合理的分析框架时,面对一个数据分析的项目就不会无从下手了。
无论做什么事情,首先我们做的时明确目的,数据分析也不例外。在我们进行一个数据分析的项目时,首先我们要思考一下为什么要进展这个项目,进行数据分析要解决什么问题,只有明确数据分析的目的,才不会走错方向,否则得到的数据就没有什么指导意义。
明确好数据分析目的,梳理分析思路,并搭建分析框架,把分析目的分解成若干不同的分析要点,即如何具体开展数据分析,需要从那几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑化,确定分析对象、分析方法、分析周期及预算,保证数据分析的结果符合此次分析的目的。
数据收集的按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。常见的数据收集方式主要有以下几种
一般地我们收集过来的数据都是杂乱无章的,没有什么规律可言的,所以就需要对采集到的数据进行加工处理,形成合适的数据样式,保证数据的一致性和有效性。一般在工作中数据处理会占用我们大部分的时间
数据处理的基本目的是从大量的,杂乱无章的数据中抽取到对接下来数据分析有用的数据形式。常见的数据处理方式有 数据清洗、数据分组、数据检索、数据抽取 等,使用的工具有 Excel、SQL、Python、R 语言等。
对数据整理完毕之后,就需要对数据进行综合的分析。数据分析方式主要是使用适当的分析方法和工具,对收集来的数据进行分析,提取有价值的信息,形成有效结论的过程。
在确定数据分析思路的阶段,就需要对公司业务、产品和分析工具、模型等都有一定的了解,这样才能更好地驾驭数据,从容地进行分析和研究,常见的分析工具有 SPSS、SAS、Python、R语言 等,分析模型有 回归、分类、聚类、关联、预测 等。其实数据分析的重点不是采用什么分析工具和模型而是找到合适的分析工具和模型,从中发现数据中含有的规律。
通过对数据的收集、整理、分析之后,隐藏的数据内部的关系和规律就会逐渐浮现出来,那么通过什么方式展现出这些关系和规律,才能让别人一目了然。一般情况下,是通过表格和图形的方式来呈现出来。多数情况下,人们通常愿意接受图形这样数据展现方式,因为它能更加有效、直观地传递出数据所要表达的观点。
常用数据图表 有饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图、矩阵图 等图形,在使用图形展现的情况下需要注意一下几点:
当分析出来最终的结果之后,我们是知道这部分数据展现出来的意义,适用的场景。但是如果想让更多人了解你分析出来的东西,让你的分析成果为众人所熟知,这时就需要一份完美的PPT报告,一个逻辑合理的故事。这样的分析结果才是最完美的。
一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次清晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象,直观地看清楚问题和结论,从而产生思考。
数据分析的四大误区
1、分析目的不明确,不能为了分析而分析 。只有明确目的才能更好的分析
2、缺乏对行业、公司业务的认知,分析结果偏离实际 。数据必须和业务结合才有意义,清楚所在行业的整体结构,对行业的上游和下游的经营情况有大致的了解,在根据业务当前的需要,制定发展计划,归类出需要整理的数据,同时,熟悉业务才能看到数据背后隐藏的信息。
3、为了方法而方法,为了工具而工具 。只要能解决问题的方法和工具就是好的方法和工具
4、数据本身是客观的,但被解读出来的数据是主观的 。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析