浙江省促进大数据发展_当下大数据发展的 8 个要点

『壹』大数据时代三个“关键词”

“十三五”时期，实施国家大数据战略，就是把大数据作为基础性战略资源，全面实施促进大数据发展行动，加快推动数据资源共享开放和开发应用，助力产业转型升级和社会治理创新。落实这一决策部署，要做的工作很多，其中，面向全社会普及大数据常识，既是打基础的工作，也是必不可少的环节。本文将围绕大数据时代三个“关键词”，做些必要阐释。

关键词1

数据化：信息社会的重要标志

数据化有狭义和广义之分。从狭义看，数据化是指将事物及其运动转化为可识别信息的过程。从广义看，数据化是指利用基础数据全面认知并优化改造客观世界的过程。数据是一种客观存在，把这些客观存在的数据找出来，就是数据化的过程。如何有效获取数据？其重要手段就是利用大数据，这本身也是数据化的集中体现。

大数据不同于小数据。相对于大数据而言，过去我们熟悉的标准化统计数据就是小数据。大数据之所以在网络时代快速发展，是因为有一系列幕后的推动力量，包括摩尔定律的作用、互联网与移动互联网的发展，以及社交网络、传感设备、智能终端、智能制造的出现等，正是这些力量促使了大数据爆发性增长。从种类上看，大数据不仅包括传统的统计数据，还包括实时、连续发生的交易数据、行为数据、传感数据，等等。其基本特点是多杂碎快。

大数据之所以重要，是因为它能做很多过去的小数据做不了的事情。大数据的作用可以简单归纳为5个效应：一是识别效应，它可以识别身份、位置、状态、真假；二是重现效应，它可以再现过去的场景，实现过程的追溯；三是关联效应，通过对数据的相关分析、联想分析、聚类分析，可以找出事物之间的联系；四是溢价效应，大数据的应用可以产生新的数据，有利于发现事物变化的内在规律；五是预测效应，利用大数据可以对经济、天气、灾害、疾病以及人类的行为进行预测分析。

数据化是信息社会的重要标志。人类经过农业社会、工业社会，现在已经进入了信息社会。信息社会一定是高度信息化的社会，也一定是高度数据化的社会。尤其是大数据技术的出现，使过去不可计量、存储、分析和共享的很多东西都被数据化了，这标志人类在寻求量化世界的道路上前进了一大步，人们认识世界的能念胡力有了空前提高。就像我们现已熟知的定式、公理、公式，客观上早就存在，一经被人发现就变得非常有价值，成为我们行动的利器。数据也是这样，过去我们没有技术和手段，不能大量发现和捕捉到它。现在我们有了大数据技术，就离发现事物的本质及其变化规律更近了。所以说，有了大数据，所有可以数据化的信息都被数据化了，人类认识和改变世界的能力也就大大提升了。

关键词2

升维：数据化能力决定竞争能力

“升维”一词来自于科幻作家刘慈欣的小说《三体》。在这里借用这个词汇想表达的是，人类从农业社会、工业社会到信息社会，就是一个不断升维的过程。对于农业社会而言，工业社会就是升维。对于工业社会来讲，信息社会就是升维。信息社会与工业社会之间的竞争，不是在一个维度，更不在一个层次。

信息革命已经将人类带进了信息社会。所谓信息社会，就是建立在工业社会之上，全面实现信息化，并体现出以人为本、可持续和包容发展理念的新型社会。今天的中国，正处在重要转型期。虽然我们面临许多困难和挑战，但在创新、协调、绿色、开放、共享的新发展理念引领下，新型工业化、信息化、城镇化、农业现代化和绿色化进程势必持续向前。因此，当工业社会升维到信息社会时，我们的城镇和乡村也会随之加快信息化进程。

仅以城市为例，工业化城市升维到信息化城市，而信息化城市的重要标志之一，就是高度数据化。城市的基础设施、经济、社会、政务、生活等都将在“升维”的过程中实现高度的数据化。概括地讲，就是一切都将“用数据说话，靠数据决策仔没拦，依数据行动”。信息革命是推动城市数据化的主要动力。我认为，未来的推动力将会来自以下几个方面：一是信息化，全球经济发展的推动力；二是网络化，连接一切；三是宽带化，“极速”宽带不是梦；四是智能化，智能产品、智能工厂大量涌现；五是服务化，服务环节创造的价值可以占到90%以上；六是社会化，管理运营的社会化；七是生态化，从价值链向生态圈转型；八是平台化，企业运营、政府治理都将平台化。围绕上述发展趋势，决定城市竞争力的核心要素，将包括：数据采集能力、数据处理能力、数据传播能力、数据利用能力、数据安全能力等。未来城市之间的竞争将体现为数据化能力之间的竞争。

关键词3

数据开放：大数据察竖战略的突破口

实施国家大数据战略，关键在于推进数据资源开放共享。推进大数据战略，并不需要政府花钱大量补贴和建立这一领域的新兴产业，只需加快政府数据开放共享，就能催生一个重要的新增长点——新型的服务业。建立大数据的基础设施，可以让经济增长潜力迅速迸发出来，这是因为公司可以用这些数据创造价值，进而可能创造新的服务行业。数据已经在那儿了，开放没有什么成本，赢得的却是新的发展机会。

需要说明的是，大数据战略中的数据开放，与我们常说的信息公开有所不同。以往的信息公开往往是政府将加工好的信息放到网上去，而数据开放则强调开放更多的基础数据，比如，交通大数据、通信大数据等。让基础数据流动起来，才能够真正释放其应有的价值，才能够通过这些数据去整合资源，创造出新的商业模式和新的业态。近年来，霍营北大青鸟发现国内已有不少城市和企业开展了类似的数据开放应用活动，通过数据开放产生经济和社会价值的实践，让人们逐渐认识到数据的价值和数据开放的重要性。总之，信息社会已经来临，现在的行动，决定未来。

『贰』当下大数据发展的 8 个要点

作者 | 章剑锋

笔者从 2008 年开始工作到现在也有 11 个年头了，一路走来都在和数据打交道，做过大数据底层框架内核的开发（Hadoop，Pig，Tez，Spark，Livy），也做过上层大数据应用开发（写 MapRece Job 做 ETL ，用 Hive 做 Ad hocquery，用 Tableau 做数据可视化，用 R 做数据分析）。今天我想借此机会和大家聊聊我所理解的大数据现状和未来。

首先让我们来聊聊什么是大数据。大数据这个概念已经出来很多年了（超过10年），但一直没有一个准确的定义（也许也并不需要）。数据工程师（DataEngineer）对大数据的理解会更多从技术和系统的角度去理解，而数据分析人员（Data Analyst）对大数据理解会从产品的角度去理解，所以数据工程师（Data Engineer) 和数据分析人员（Data Analyst）所理解的大数据肯定是有差异的。我所理解的大数据是这样的，大数据不是单一的一种技术或者产品，它是所有与数据相关的综合学科。看大数据我会从 2 个维度来看，一个是数据流的维度（下图的水平轴），另外一个是技术栈的维度（下图的纵轴）。

其实我一直不太喜欢张口闭口讲“大数据”，我更喜欢说“数据”。因为大数据的本质在于“数据”，而不是“大”。由于媒体一直重点宣扬大数据的“大”，所以有时候我们往往会忽然大数据的本质在“数据”，而不是“大”，“大”只是你看到的表相，本质还是数据自身。

在我们讲清楚大数据的含义之后，我们来聊聊大数据目前到底处在一个什么样的位置。从历史发展的角度来看，每一项新技术都会经历下面这样一个技术成熟度曲线。

当一项新技术刚出来的时候人们会非常乐观，常常以为这项技术会给人类带来巨大的变革，对此持有过高的期望，所以这项技术一开始会以非常快的速度受到大家追捧，然后到达一个顶峰，之后人们开始认识到这项新技术并没有当初预想的那么具有革命性，然后会过于悲观，之后就会经历泡沫阶段。等沉寂一定阶段之后，人们开始回归理性，正视这项技术的价值，然后开始正确的应用这项技术，从此这项技术开始走向稳步向前发展的道路。（题外话，笔者在看这幅图的时候也联想到了一个男人对婚姻看法的曲线图，大家自己脑补）。

1、从大数据的历史来看，大数据已经经历了 2 个重要阶段

两个重要阶段是指过高期望的峰值和泡沫化的底谷期。现在正处于稳步向前发展的阶段。我们可以从 googletrend 上 big data 的曲线就能印证。大数据大约从 2009 年开始走向人们的视野，在 2015 年左右走向了顶峰，然后慢慢走向下降通道（当然这张曲线并不会和上面这张技术成熟度曲线完全拟合，比如技术曲线处在下降通道有可能会使讨论这项技术的搜索量增加）。

接下来我想讲一下我对大数据领域未来趋势的几个判断。

2、数据规模会继续扩大，大数据将继续发扬光

前面已经提到过，大数据已经度过了过高期望的峰值和泡沫化的底谷期，现在正在稳步向前发展。做这样判断主要有以下 2 个原因：

上游数据规模会继续增长，特别是由于 IOT 技术的发展和成熟，以及未来 5G 技术的铺开。在可预测的未来，数据规模仍将继续快速增长，这是能够带动大数据持续稳定向前发展的基本动力。下游数据产业还有很多发展的空间，还有很多数据的价值我们没有挖掘出来。

虽然现在人工智能，区块链抢去了大数据的风口位置，也许大数据成不了未来的主角，但大数据也绝对不是跑龙套的，大数据仍将扮演一个重要而基础的角色。可以这么说，只要有数据在，大数据就永远不会过时。我想在大部分人的有生之年，我们都会见证大数据的持续向上发展。

3、数据的实时性需求将更加突出

之前大数据遇到的最大挑战在于数据规模大（所以大家会称之为“大数据”），经过工业界多年的努力和实践，规模大这个问题基本已经解决了。接下来几年，更大的挑战在于速度，也就是实时性。而大数据的实时性并不是指简单的传输数据或者处理数据的实时性，而是从端到端的实时，任何一个步骤速度慢了，就影响整个大数据系统的实时性。所以大数据的实时性，包括以下几个方面：

快速获取和传输数据快速计算处理数据实时可视化数据在线机器学习，实时更新机器学习模型

目前以 Kafka，Flink 为代表的流处理计算引擎已经为实时计算提供了坚实的底层技术支持，相信未来在实时可视化数据以及在线机器学习方面会有更多优秀的产品涌现出来。当大数据的实时性增强之后，在数据消费端会产生更多有价值的数据，从而形成一个更高效的数据闭环，促进整个数据流的良性发展。

4、大数据基础设施往云上迁移势不可挡

目前IT基础设施往云上迁移不再是一个大家还需要争论的问题，这是大势所趋。当然我这边说的云并不单单指公有云，也包括私有云，混合云。因为由于每个企业的业务属性不同，对数据安全性的要求不同，不可能把所有的大数据设施都部署在公有云上，但向云上迁移这是一个未来注定的选择。目前各大云厂商都提供了各种各样的大数据产品以满足各种用户需求，包括平台型（PAAS) 的 EMR ，服务型 (SAAS) 的数据可视化产品等等。大数据基础设施的云化对大数据技术和产品产生也有相应的影响。大数据领域的框架和产品将更加 Cloud Native 。

计算和存储的分离。我们知道每个公有云都有自己对应的分布式存储，比如 AWS 的 S3 。 S3 在一些场合可以替换我们所熟知的 HDFS ，而且成本更低。而 S3 的物理存储并不是在 EC2 上面，对 EC2 来说， S3 是 remote storage 。所以如果你要是 AWS 上面做大数据开发和应用，而且你的数据是在 S3 上，那么你就自然而然用到了计算和存储的分离。拥抱容器，与 Kubernate 的整合大势所趋，我们知道在云环境中 Kuberneate 基本上已经是容器资源调度的标准。更具有弹性（Elastic）。与云上其他产品和服务整合更加紧密。

5、大数据产品全链路化

全链路化是指提供端到端的全链路解决方案，而不是简单的堆积一些大数据产品组件。以 Hadoop 为代表的大数据产品一直被人诟病的主要问题就是用户使用门槛过高，二次开发成本太高。全链路化就是为了解决这一问题，用户需要的并不是 Hadoop，Spark，Flink 等这些技术，而是要以这些技术为基础的能解决业务问题的产品。 Cloudera 的从 Edge 到 AI 是我比较认同的方案。大数据的价值并不是数据本身，而是数据背后所隐藏的对业务有影响的信息和知识。下面是一张摘自 wikipedia 的经典数据金字塔的图。

大数据技术就是对最原始的数据进行不断处理加工提炼，金字塔每上去一层，对应的数据量会越小，同时对业务的影响价值会更大更快。而要从数据（Data) 最终提炼出智慧（Wisdom），数据要经过一条很长的数据流链路，没有一套完整的系统保证整条链路的高效运转是很难保证最终从数据中提炼出来有价值的东西的，所以大数据未来产品全链路化是另外一个大的趋势。

6、大数据技术往下游数据消费和应用端转移

上面讲到了大数据的全链路发展趋势，那么这条长长的数据链路目前的状况是如何，未来又会有什么样的趋势呢？

我的判断是未来大数据技术的创新和发力会更多的转移到下游数据消费和应用端。之前十多年大数据的发展主要集中在底层的框架，比如最开始引领大数据风潮的 Hadoop ，后来的计算引擎佼佼者 Spark，Flink 以及消息中间件 Kafka ，资源调度器 Kubernetes 等等，每个细分领域都涌现出了一系列优秀的产品。总的来说，在底层技术框架这块，大数据领域已经基本打好了基础，接下来要做的是如何利用这些技术为企业提供最佳用户体验的产品，以解决用户的实际业务问题，或者说未来大数据的侧重点将从底层走向上层。之前的大数据创新更偏向于 IAAS 和 PAAS ，未来你将看到更多 SAAS 类型的大数据产品和创新。从近期一些国外厂商的收购案例，我们可以略微看出一些端倪。1、2019 年 6 月 7 日，谷歌宣布以 26 亿美元收购了数据分析公司 Looker，并将该公司并入 Google Cloud。2、2019 年 6 月 10 日，Salesforce 宣布以 157 亿美元的全股票交易收购 Tableau ，旨在夯实在数据可视化以及帮助企业解读所使用和所积累的海量数据的其他工具方面的工作。3、2019 年 9 月初，Cloudera 宣布收购 Arcadia Data 。 Arcadia Data 是一家云原生 AI 驱动的商业智能实时分析厂商。面对最终用户的大数据产品将是未来大数据竞争的重点，我相信会未来大数据领域的创新也将来源于此，未来 5 年内大概率至少还会再出一个类似 Looker 这样的公司，但是很难再出一个类似 Spark 的计算引擎。

7、底层技术的集中化和上层应用的全面开花

学习过大数据的人都会感叹大数据领域的东西真是多，特别是底层技术，感觉学都学不来。经过多年的厮杀和竞争，很多优秀的产品已经脱颖而出，也有很多产品慢慢走向消亡。比如批处理领域的 Spark 引擎基本上已经成为批处理领域的佼佼者，传统的 MapRece 除了一些旧有的系统，基本不太可能会开发新的 MapRece 应用。 Flink 也基本上成为低延迟流处理领域的不二选择，原有的 Storm 系统也开始慢慢退出历史舞台。同样 Kafka 也在消息中间件领域基本上占据了垄断地位。未来的底层大数据生态圈中将不再有那么多的新的技术和框架，每个细分领域都将优胜劣汰，走向成熟，更加集中化。未来更大的创新将更多来来自上层应用或者全链路的整合方面。在大数据的上层应用方面未来将会迎来有更多的创新和发展，比如基于大数据上的BI产品， AI 产品等等，某个垂直领域的大数据应用等等，我相信未来我们会看到更多这方面的创新和发展。

8、开源闭源并驾齐驱

大数据领域并不是只有 Hadoop，Spark，Flink 等这类大家耳熟能详的开源产品，还有很多优秀的闭源产品，比如 AWS 上的 Redshift ，阿里的 MaxCompute 等等。这些产品虽然没有开源产品那么受开发者欢迎，但是他们对于很多非互联网企业来说是非常受欢迎的。因为对于一个企业来说，采用哪种大数据产品有很多因素需要考虑，否开源并不是唯一标准。产品是否稳定，是否有商业公司支持，是否足够安全，是否能和现有系统整合等等往往是某些企业更需要考虑的东西，而闭源产品往往在这类企业级产品特性上具有优势。

最近几年开源产品受公有云的影响非常大，公有云可以无偿享受开源的成果，抢走了开源产品背后的商业公司很多市场份额，所以最近很多开源产品背后的商业公司开始改变策略，有些甚至修改了 Licence 。不过我觉得公有云厂商不会杀死那些开源产品背后的商业公司，否则就是杀鸡取卵，杀死开源产品背后的商业公司，其实就是杀死开源产品的最大技术创新者，也就是杀死开源产品本身。我相信开源界和公有云厂商最终会取得一个平衡，开源仍然会是一个主流，仍然会是创新的主力，一些优秀的闭源产品同样也会占据一定的市场空间。

最后我想再次总结下本文的几个要点：

1、目前大数据已经度过了最火的峰值期和泡沫化的底谷期，现在正处于稳步向前发展的阶段。2、数据规模会继续扩大，大数据将继续发扬光大3、数据的实时性需求将更加突出4、大数据基础设施往云上迁移势不可挡5、大数据产品全链路化6、大数据技术往下游数据消费和应用端转移7、底层技术的集中化和上层应用的全面开花8、开源闭源并驾齐驱

『叁』大数据未来的发展前景怎么样

2015年左右，大数据相关政策规划密集出台，同期为大数据企业新增数量顶峰时期。近年来，我国大数据产业迎来新的发展机遇期，产业规模日趋成熟。大数据产业主体从“硬”设施向“软”服务转变的态势将更加明显，面向金融、政务、电信、医疗等领域的大数据服务将实现倍增创新。

大数据企业数量持续增长，增速与政策出台密切相关

根据IT桔子统计，大数据企业的快速增长阶段出现在2013-2015年，增长速度在2015年达到最高峰。2015年后，市场日趋成熟，企业新增开始趋于放缓，大数据产业逐渐走向成熟。

—— 更多数据及分析请参考前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》。

『肆』大数据的发展趋势是怎样的

2018年中国大数据产业规模分析预测

据前瞻产业研究院发布的《大数据产业发展前景与投资战略规划分析报告》统计数据显示，截止到2017年中国大数据产业规模为3820.4亿元。预计2018年中国大数据产业规模将达4974.2亿元。随着智慧城市、数字经济、新旧动能转换、转型升级等概念持续引领产业增长，预计到了2020年中国大数据产业规模将超8000亿元，达到了8354.7亿元。

2015-2020年中国大数据产业规模统计情况及预测

数据来源：前瞻产业研究院整理

我国大数据产业发展展望分析

1、大数据政策体系持续完善。从2014年至今我国涉及到大数据发展与应用的国家政策规定已多达63个，其中国家大数据发展顶层设计1个，国家层面顶层规划4个，重点行业领域发展应用31个，重点工作推进25个，重点区域发展2个。大数据战略已上升为国家战略高度，各部委从战略规划、技术能力提升、应用与管理三个层面积极落实推进大数据发展政策。

2、大数据产业生态正在形成。大量的异质性企业，借助大数据互相依存，形成了共生、再生、乃至互生的价值循环体系。不同的行业，形成业务交叉、数据通联、运营协同的产业融合机制。不同的经济主体，借助大数据，形成跨地域、跨行业、跨系统的社会协同平台。

具备新型的“价值循环体系”、“产业融合机制”、“社会协同平台”属性的业态，称之为产业生态。产业生态在数字经济中，是一个基础的经济单元。无数个经济单元叠加、化合，构成数字经济。

大数据驱动的产业生态，与以往不同，离散的“生产单元”之间的数据融合，成为产业生态的核心，是和过去以“消费”为主导的互联网经济发展模式，形成鲜明的对比。这是数字重组产业的开端。

3、大数据技术体系多元发展。大数据产业是一个典型的技术密集型产业，随着数据资源量的不断增加，大数据技术也呈现着多元发展的势头。但是大数据带来的技术方面的挑战，远远不止于处理工具，事实上对传统的网络结构、计算模型、安全体系，提出了全方位的课题。

主要包括以下几个方面：一是数据处理能力不断提升，网络承载能力要满足“数据摩尔定律”的需要(数据摩尔定律，指数据在未来18个月内，数据量将增加一倍)。二是安全可控体系不断完善，需要建立自主可控的安全防护体系、身份识别体系。必须在网络空间实现4W的机制，在网络空间中，安全能力必须能够对任何一个单体，掌握“在任何时间、任何地点的状态”的数据。三是跨领域的建模技术发展迅速，需要参考仿生学、脑科学，建立起“社会计算”的模型，构建“智能大脑”，应对日益增长的海量数据和多方面、多层次应用需求。

4、创新型的大数据公司茁壮成长。在政策、技术和产业生态等多方面利好的推动下，近几年来，大数据创业公司不断涌现，得到不少风投机构的追逐。2010年以来，大数据领域成功融资的企业数量逐年增加，2014年进入爆发期，环比上升193.55%，2015年以来持续稳步增长，2016年获得融资的企业数量达到400多家。2017年大数据产业资本依旧疯狂，经过前瞻产业研究院初步统计，2017年前三个月便有150多家企业获得融资，大数据领域持续获得资本市场的高度青睐，其中数据挖掘与分析、行业化应用(如医疗、金融、旅游等)和垂直化应用(如智能营销、业务管理、移动开发服务等)三个方向最受资本关注。大数据领域的创新、创业欣欣向荣，给国家大数据战略顺利实施，奠定了人才基础、技术基础。

『伍』大数据未来的发展前景怎么样呢

从我国数据产量和存量来看，广东、北京、浙江、江苏、上海、等地区数据资源较为丰富，东部地区数据产量和存量均高于西部地区。从省际数据流量来看，东部地区月均互联网省际出口总流量占全国比重超过一半。

在以北上广为代表的东部地区数据资源丰富的背景下，其大数据产业发展水平快于其他地区省份。其中，北上广大数据企业数量占全国比重近70%，广东和北京大数据发展水平较高。

东部地区数据产量整体高于西部，省际数据流量远高于其他地区

2019年，我国数据产量总规模为3.9ZB。从数据产量的地区分布看，2019年全国数据产量排名前十位的省份为广东、北京、浙江、江苏、上海、山东、四川、河南、河北和湖南。

从人均数据产量来看，2019年人均数据产量排名前十位的省份分别是北京、上海、浙江、天津、广东、内蒙古、西藏、海南、江苏和辽宁。整体来看，东部地区数据产量和人均数据产量均高于西部地区。

—— 更多数据来请参考前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》

『陆』我国的大数据发展现状如何

我国大数据产业开始已进入深化阶段

中国大数据产业从萌芽到如今渐成体系，已走过将近10个年头。“十四五”开局之年，大数据产业也进入了集成创新、深度应用的新阶段。大数据在医疗、工业、交通等领域的融合应用技术加快创新突破，大数据融合应用重点从虚拟经济转变为实体经济;大数据底层技术方面，信息安全、模式识别、语言工程、计算机辅助设计、高性能计算等加快突破，大数据技术领域逐渐补齐短板，并进一步强化长板。

—— 更多本行业研究分析详见前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》

『柒』大数据科学新发展展望四大趋势不可阻挡

大数据科学新发展展望：四大趋势不可阻挡但无论技术热点如何变换，我们能看到的是，随着行业沉下心来进行实质的落地，大数据生态也越来越细分。今天就我和大家来谈谈大数据领域的一些新变化、新趋势。就发展趋势而言，这个可以放在第一位来讲讲。多年来，数据已经在企业中不断快速积累。物联网(IoT) 更是不断加速数据的生成。对于许多企业来说，大数据的解决方案就是利用类似于开源的Apache Hadoop等技术作为基础支持，创建数据湖(DataLake)，即创建整个企业的数据管理平台，用于以本机格式存储企业的所有数据。数据湖将通过提供一个单一的数据存储库来消除信息孤岛，整个组织都可以使用该存储库来进行业务分析、数据挖掘等各种应用。当有了数据湖之后，大家会倾向于认为这东西将会成为一个全方位和万能的大数据集，例如点击流数据、物联网数据、日志数据等都会被要求进入这个湖中，而这些数据很难处理的问题却会被忽略。但是，除非你知道数据湖里具体有什么，并且能够访问到合适的数据进行分析，否则数据湖再大也没有意义。因此，最后大家都会意识到许多数据湖是表现不佳的资源，人们不知道其中存储着什么内容，如何进行访问，或者如何从这些数据中获取洞察力。但是，方便地找到想要的东西、同时管理好权限并不容易。除了数据湖以外，治理的另一个主题是以安全的、可审计的方式为任何人提供对可靠数据的便捷访问。所以，站在管理并使用好公司数据资产的角度而言，数据治理犹如公司的顶层制度和宣言一样需要被重视，并且用相应的策略、流程等来进行落实。最终目的是通过实现数据治理，来提升数据管理、确保数据质量、形成开放共享的新局面等。此外，数据治理也是决策、职能以及操作流程有机组合的系统，并且人们对这些数据资产承担责任。在大多数大型企业里，大数据的采用是从少数独立项目开始的，个推也是如此：譬如这里做一点Hadoop集群，那里用一用分析工具，跑一个简单业务模型，以及意识到需要设立一些新的职位（数据科学家、首席数据官）等等。现在，业务场景越来越丰富，异质性也越来越突出，各种各样的工具在整个企业范围内得到了使用。在公司的组织范围内，集中化的“数据科学部门”正在逐渐让位于更加去中心化的组织，原因在于集中化的部门越来越走向瓶颈，也更容易造成资源的流失。这个由数据科学家、数据工程师以及数据分析师组成的群体，正日益嵌入到不同的业务部门里。因此，对于平台来说需求已经很明显了，那就是要让一切都能协作到一起来，因为大数据的成功正是建立在设立一条由技术、人以及流程组成的装配线基础之上的。因此，一些全新的协作平台类型（譬如Jupyter等）正在加快出现，引领着所谓的DataOps（与DevOps对应）领域的发展。数据科学家(DataScientist)依然是市场上炙手可热的争夺对象。但是我们在周围却很少见到这类人，哪怕是财富前1000强的公司也为无法招到更多“数据科学家”而感到困扰。而在一些组织里，数据科学部门正在从使能者演变为瓶颈。与此同时，AI的大众化以及自服务工具的蔓延使得数据科学技能有限的数据工程师，甚至是数据分析师在执行一些基本操作时变得更加容易了，而这些操作直到最近仍然是数据科学家的领地。在自动化工具的帮助下，企业大量的大数据工作，尤其是那些简单枯燥的工作，将由数据工程师和数据分析师进行处理，而不必麻烦有着深厚技术技能的数据科学家。当然，即便如此，数据科学家目前还不需要太过“恐惧”。在可预见的未来里，自服务工具和自动化模型将会“增强”数据科学家而不是消灭他们，会解放他们，让他们把焦点放在需要判断、创造力、社会化技能或者需要垂直行业知识的任务上，那样才能更加体现科学家的名号。大数据管理员(BDA)也对标于数据库管理员(DBA)，虽然两个英文字母只是变换了一下顺序，但是其内涵相差甚远。一个非常明显的趋势是，企业将对一个新岗位角色产生需求，即大数据管理员。DBA大家已经非常熟悉，但它与大数据时代下的数据管理员，有非常大的差别。数据管理员处于数据使用者和数据工程师之间。为了取得成功，数据管理员在进行大数据系统的维护工作之外，还必须了解数据的含义以及掌握应用于数据中的一些技术。数据管理员需要清楚整个组织内需要执行的数据分析类型，哪些数据集非常适用于这项工作，以及如何将数据从原始状态转换为数据使用者执行这项工作所需的形态和形式。数据管理员应使用像自助服务数据平台这样的系统来加快数据使用者访问基本数据集的端到端流程，而无需制作无数的数据副本。以上四个方面是数据科学在实践发展中提出的新需求，谁能在这些方面得到好的成绩，谁便会在这个大数据时代取得领先的位置。从2012年开始，几乎人人（至少是互联网界）言必称大数据，似乎不和大数据沾点边都不好意思和别人聊天。从2016年开始，大数据系统逐步开始在企业中进入部署阶段，大数据的炒作逐渐散去，随之而来的是应用的蓬勃发展期，一些代表成熟技术的标志性IPO在国内外资本市场也不断出现。转眼间，大数据几年前经历的泡沫正在无可争议地转移到人工智能身上。可以说，在过去的一年，AI所经历的共同意识“大爆炸”与当年的大数据相比，有过之而无不及。最近风口又转移到区块链上了，某种程度上也成为业内人士焦虑的一种诱因了。

导航:首页 > 网络数据 > 浙江省促进大数据发展

浙江省促进大数据发展

与浙江省促进大数据发展相关的资料

友情链接