大数据组建团队_企业如何建立大数据部门

『壹』大数据的生命周期的九个阶段

大数据的生命周期的九个阶段
企业建立大数据的生命周期应该包括这些部分：大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进。

一、大数据的组织
没有人，一切都是妄谈。大数据生命周期的第一步应该是建立一个专门预算和独立KPI的“大数据规划、建设和运营组织”。包括高层的首席数据官，作为sponsor，然后是公司数据管理委员会或大数据执行筹划指导委员会，再往下就是大数据的项目组或大数据项目组的前身：大数据项目预研究团队或大数据项目筹备组。这个团队是今后大数据战略的制定和实施者的中坚力量。由于人数众多，建议引入RACI模型来明确所有人的角色和职责。
二、大数据的现状评估和差距分析
定战略之前，先要做现状评估，评估前的调研包括三个方面：一是对外调研：了解业界大数据有哪些最新的发展，行业顶尖企业的大数据应用水平如何？行业的平均尤其是主要竞争对手的大数据应用水准如何？二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户，对我们的大数据业务有何期望？三是自身状况摸底，了解自己的技术、人员储备情况。最后对标，作差距分析，找出gap。
找出gap后，要给出成熟度现状评估。一般而言，一个公司的大数据应用成熟度可以划分为四个阶段：初始期（仅有概念，没有实践）；探索期（已经了解基本概念，也有专人进行了探索和探讨，有了基本的大数据技术储备）；发展期（已经拥有或正在建设明确的战略、团队、工具、流程，交付了初步的成果）；成熟期（有了稳定且不断成熟的战略、团队、工具、流程，不断交付高质量成果）。
三、大数据的战略
有了大数据组织、知道了本公司大数据现状、差距和需求，我们就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心，它将成为整个组织大数据发展的指引。
大数据战略的内容，没有统一的模板，但有一些基本的要求：
1. 要简洁，又要能涵盖公司内外干系人的需求。
2. 要明确，以便清晰地告诉所有人我们的目标和愿景是什么。
3. 要现实，这个目标经过努力是能达成的。
四、大数据的定义
我认为：“数据不去定义它，你就无法采集它；无法采集它，你就无法分析它；无法分析它，你就无法衡量它；无法衡量它，你就无法控制它；无法控制它，你就无法管理它；无法管理它，你就无法利用它”。所以“在需求和战略明确之后，数据定义就是一切数据管理的前提”。
五、数据采集
1. 大数据时代的数据源很广泛，它们可能来自于三个主要方面：现有公司内部网各应用系统产生的数据（比如办公、经营生产数据），也有来自公司外互联网的数据（比如社交网络数据）和物联网等。
2.大数据种类很多，总的来讲可以分为：传统的结构化数据，大量的非结构化数据（比如音视频等）。
3. 数据采集、挖掘工具很多。可以基于或集成hadoop的ETL平台、以交互式探索及数据挖掘为代表的数据价值发掘类工具渐成趋势。
4. 数据采集的原则：在数据源广泛、数据量巨大、采集挖掘工具众多的背景下，大数据决策者必须清楚地确定数据采集的原则：“能够采集到的数据，并不意味着值得或需要去采集它。需要采集的数据和能够采集到的数据的"交集"，才是我们确定要去采集的数据。”
六、数据处理和分析
业界有很多工具能帮助企业构建一个集成的“数据处理和分析平台”。对企业大数据管理者、规划者来讲，关键是“工具要满足平台要求，平台要满足业务需求，而不是业务要去适应平台要求，平台要去适应厂商的工具要求”。那么这个集成的平台应该有怎样的能力构成呢？它应该能检索、分类、关联、推送和方便地实施元数据管理等。见下图：
七、数据呈现
大数据管理的价值，最终要通过多种形式的数据呈现，来帮助管理层和业务部门进行商业决策。大数据的决策者需要将大数据的系统与BI（商业智能）系统和KM（知识管理）系统集成。下图就是大数据的各种呈现形式。
八、审计、治理与控制
1.大数据的审计、治理和控制指的是大数据管理层，组建专门的治理控制团队，制定一系列策略、流程、制度和考核指标体系，来监督、检查、协调多个相关职能部门的目标，从而优化、保护和利用大数据，保障其作为一项企业战略资产真正发挥价值。
2.大数据的治理是IT治理的组成部分，大数据的审计是IT审计的组成部分，这个体系要统筹规划和实施，而不是割裂的规划和实施。
3.大数据的审计、治理与控制的核心是数据安全、数据质量和数据效率。
九、持续改进
基于不断变化的业务需求和审计与治理中发现的大数据整个生命周期中暴露的问题，引入PDCA等方法论，去不断优化策略、方法、流程、工具，不断提升相关人员的技能，从而确保大数据战略的持续成功！

『贰』如何搭建优秀的大数据团队

这个首先需要专业的人才，可以找一些学习大数据这方面的学生，然后找一些学徒，当然最好是对统计、数据分析和对数字敏感的人
做为管理者要学会管理，定下目标和方向，然后不断进行测试研发，分析。

『叁』传统企业是否需要搭建大数据团队

是否需要搭建大数据团队要看这几个问题了：
1、业务部门有无大数据诉求？这里并不是说业务部门希望使用什么大数据技术，而是说业务部门希望某个模块希望更“智能”，例如有商品推荐、有实时告警、有更快即时的生产经营分析报表……，种种诉求都是业务诉求，但是既有的技术无法支撑，这时候就需要引入大数据技术；通常，业务诉求是大数据的出发点，也是最终目标，也是让老板看到“价值”的地方，如果搭建了大数据团队，研究了大数据技术，却没有解决业务问题，老板会觉得这是成本的浪费。
2、业务部门的诉求细化：业务需求决定技术架构，搭建大数据团队之前，需要先了解业务部门的规划和诉求，基于这个诉求再来设计技术架构，技术架构的设计可以与团队搭建并行，二者相辅相成，大数据的技术框架非常多，没有什么人是精通所有框架的，一般只能精通其中的一两门就不错了。
3、在技术架构设计之前：是否采用独立搭建大数据平台？是否可以采用公有云平台？独立搭建的特点是数据自有，且可以深入研究大数据技术，比较适合规模较大，技术能力强的企业；采用公有云平台，特点是大数据利用的门槛大大降低，已经有封装好的，比较成熟稳定的大数据平台，比如阿里云的数加平台，腾讯云的数智方略等，其中阿里云的技术相对成熟度高一些；
4、技术架构的设计：如果确定不采用公有云的话，就是自己搭建大数据平台，那么就需要理清楚以下几个问题：数据在哪里？需要支撑多大量的数据计算？需要做哪些数据应用？支撑这些数据应用看需要如何做数据治理和分析挖掘？……这里是技术架构了，这并不矛盾，就像刚才说的，技术架构与人才团队建设需要并行。
5、已有团队的人员组成情况：笔者参与的多个项目中都会遇到，对接的客户都是传统企业，对ERP技术挺了解的，写SQL也还行，对传统数仓有一定了解，但是对于最新的大数据技术栈就很不了解了，解决办法有2种，第一是招人，从外面招聘大数据开发或架构师，第二是直接采购商用的易用的大数据平台。
对第一种方法有好处也有坏处：好处是招来的人是自有人员，相当于企业自己掌握了这门技术，这种比较适合金融、运营商或财力雄厚、IT基础设施比较好的大型企业；弊端是招聘可能并不容易，大数据的优秀人才一般集中在互联网领域，跳槽到传统企业的可能并不多。
第二种方法是采购已有的商用平台。市面上有很多成熟的商用大数据平台，Cloudera、星环、华为、袋鼠云、亚信等等，都有对应的产品线，均适用于传统企业。
以袋鼠云大数据平台产品数栈为例说明下商用大数据平台特点：
1、兼容性强：基于开源Spark（离线）、Flink（实时）计算引擎，绑定性不强，很多企业担心被某一家供应商绑定，但数栈完全基于开源，不存在这个问题；
2、简单易用：数栈包含数据开发套件、数据计算引擎（Spark、Flink）、数据治理套件（数据地图、数据质量、数据模型）、数据应用引擎（数据API），覆盖了企业内的数据采集、数据统计分析与挖掘、数据治理、数据开放的全链路，并同时覆盖离线分析与实时分析，满足企业内的各种数据处理需求。
3、性价比高：很多传统企业的数据量其实并不是特别大，例如几百GB、1,2TB，数栈最小支持3台虚拟机部署，与其他厂商动辄几十、上百个节点相比，成本可以降低很多；数栈与搭建大数据团队的关系又是怎样的呢？——数栈是开发团队的生产力工具，有了它可以让开发团队用大数据平台用的更爽，更好，解决需求的速度更快，同时基于开源的技术，开发人员编写MapRece代码进行运行，可以在数栈上面配置任务调度、依赖关系，查看运行日志，也加快了团队的成长速度，因此数栈的引入，其实是开发团队的一个好帮手，让团队更有效率。

『肆』做一个大数据项目一个团队一般如何分工的

今年我们项目组刚好入手一个教育大数据的项目，我们是研究一些教育大数据，从中挖掘出一些跟教育相关的因果关系一达到对这些数据进分析、处理,并从中挖掘出有价值的信息进行改善教育模式、提升教育质量的目的。我们项目组当时分组情况如下：信息采集组、数据清洗组、数据融合组、数据挖掘组、数据可视化组。

根据每组的名称很好理解，信息采集组主要是通过网络爬虫来采集数据，当然还可以根据业务需求，通过不同的方式来采集数据；数据清洗组主要就是把一些无效的脏数据找出来剔除或者替换，任务量其实很大，因为爬来的数据脏数据量很大，这个组的工作周期一般很长，任务也很重；数据融合组主要就是把爬来的课程信息把相似的归类，有上下级关系的就按照子类父类的关系列好，这一组的工作非常不好完成，目前我们做的融合效果不算好，想融合好算是一个难点。数据挖掘组就是拿到可用的数据之后通过数据挖掘算法，去研究之前设定好的影响因子之间的因果关系，主要的分类算法有决策树、贝叶斯分类、基于规则的分类、神经网络、持向量机、懒惰学习算法中的K-最近邻分类和基于案例的推理等算法；数据可视化组顾名思义就是把数据挖掘组的成果可视化展示，这样可以直观的看到数据之间的关系，并利用数据分析和开发工具发现其中未知信息的处理过程。

『伍』企业如何建立大数据部门

企业如何建立大数据部门

企业如何建立大数据部门，很多公司老板想组建一个大数据团队，我们需要对于未来数据中心的人员安排如何，怎么样工资体系比较合适的？”反过来，有很多刚毕业的大学同学也在问我，“我这个专业需要撑握那些技术才能被企业看上。”当然也有，工作三年以上的小伙伴问我，未来自己的职业规化是怎么样的，这个我以后再跟大家一起来探讨。
现在大数据很热，很多大型互联网公司对于数据部门配制都可以跟财务系统的人员相当了，也有很多初创企业拿到融资的移动互联网企业，在运营稳定的情况下，已经开始对于大数据分析团队开始进行配置，市场上能称的上数据分析师的人才差不多在10万左右，未来预计在1000万左右规模会跟数据分析相关人员需求，而大学对于大数据分析这块专业的缺失，根本来说没有办法能承担一个数据分析师的角色，所以这块数据分析师的需求会强烈，待遇会高。有同学担心数据分析师是否未来人工智能的发展起来，会出现失业的情况，这个相信担心是多的，因为商业的决策，从来都是人的事，即使未来技术的进步，也不可能会让机器来代替人的决定。
数据分析师是企业不仅是数据分析工人其实也是数据分析体系的设计师，开始时企业会有很多一些临时的需求，比如市场部需要数据分析提一些数据做一些表格，这样很容易会产生很多的表哥表妹的问题，觉得自已的意义不是很大,但是在我看来一个好的数据分析师，他应该是半个市场运行人员有着很好的沟通能力，80%的工作量是业务与市场部门提出的需求，在精通企业业务逻辑运作前提下再结合数据中出现的问题给于业务提出合理的建议，当然现在可能更多的是事后评估与监控的作用。
对于初级数据分析师，如果这个小伙子对于基本的统计模型与数据提供，特别SQL与EXCEL能过关，这个人差不多能用了，但是关键点就是这个侯选人是否有着很好的逻辑能力与沟通能力，如果是内向型的，其实未来做起来会很难，因为数据分析师的技术的门槛不高，但是否能对于业务敏感，对于数据敏感，及是否能把分析出来的东西在业务方进行落地，这就是数据分析师的价值。中级数据分析师需要三年以上，就需要他能对于业务进行建模那么就需要他对于一些基本模型熟悉及对于统计软件熟悉，当然如果能走的更远的小伙伴需要能对于自已设计模型能力，怎么进入数据指导业务的阶段。
对于数据部门人员的设计时，最好是把数据分析人员分别跟各个业务线进行对接，最忌讳数据仓库人员与业务部门对接，这样很容易使数据部门流于形式，主要的原因数据仓库人员没有对于业务方提供需求进行分析，因为有时业务部门在需要数据分析都不知道自已要什么，所以很容易对于数据团队产生很负面的影响。因为数据中心说开了，毕竟是一个服务部门很难直接产生价值，所以需要跟业务与市场人员进行密切的协作才能产生价值，最怕就是数据中心自已在做产品，结果很辛苦却没有产出。那么数据中心的团队的负责人，是数据分析人员还是数据仓库人员出身的，从我这边长期的观察来看，如果是中小型的企业，最好是商务智能出身的比较好一些，主要的原因能满足初级对于数据分析系统，未来也会对于数据分析有一个不错的了解，如果企业技术开发能力不错，最好是数据分析出身，对于实现数据产生价值，有着很深远的影响。

『陆』大数据时代，一个理想的数据团队到底应该是怎样的

大数据复（big data），是指无法在可承受制的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
根据维基网络的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。
-

『柒』如何建立以人工智能和大数据为支撑的技术运营团队

人工智能需要有大数据支撑
人工智能主要有三个分支：
1.基于规则的人工智能；
2.无规则，计算机读取大量数据，根据数据的统计、概率分析等方法，进行智能处理的人工智能；
3.基于神经元网络的一种深度学习。
基于规则的人工智能，在计算机内根据规定的语法结构录入规则，用这些规则进行智能处理，缺乏灵活性，不适合实用化。因此，人工智能实际上的主流分支是后两者。
而后两者都是通过“计算机读取大量数据，提升人工智能本身的能力/精准度”。如今，大量数据产生之后，有低成本的存储器将其存储，有高速的CPU对其进行处理，所以才有了人工智能后两个分支的理论得以实践。由此，人工智能就能做出接近人类的处理或者判断，提升精准度。同时，采用人工智能的服务作为高附加值服务，成为了获取更多用户的主要因素，而不断增加的用户，产生更多的数据，使得人工智能进一步优化。
大数据挖掘少不了人工智能技术
大数据分为“结构化数据”与“非结构化数据”。
“结构化数据”是指企业的客户信息、经营数据、销售数据、库存数据等，存储于普通的数据库之中，专指可作为数据库进行管理的数据。相反，“非结构化数据”是指不存储于数据库之中的，包括电子邮件、文本文件、图像、视频等数据。
目前，非结构化数据激增，企业数据的80％左右都是非结构化数据。随着社交媒体的兴起，非结构化数据更是迎来了爆发式增长。复杂、海量的数据通常被称为大数据。
但是，这些大数据的分析并不简单。文本挖掘需要“自然语言处理”技术，图像与视频解析需要“图像解析技术”。如今，“语音识别技术”也不可或缺。这些都是传统意义上人工智能领域所研究的技术。

导航:首页 > 网络数据 > 大数据组建团队

大数据组建团队

与大数据组建团队相关的资料

友情链接