A. 当下大数据发展的 8 个要点
作者 | 章剑锋
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapRece Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做数据可视化,用 R 做数据分析)。今天我想借此机会和大家聊聊我所理解的大数据现状和未来。
首先让我们来聊聊什么是大数据。大数据这个概念已经出来很多年了(超过10年),但一直没有一个准确的定义(也许也并不需要)。数据工程师(DataEngineer)对大数据的理解会更多从技术和系统的角度去理解,而数据分析人员(Data Analyst)对大数据理解会从产品的角度去理解,所以数据工程师(Data Engineer) 和数据分析人员(Data Analyst)所理解的大数据肯定是有差异的。我所理解的大数据是这样的,大数据不是单一的一种技术或者产品,它是所有与数据相关的综合学科。看大数据我会从 2 个维度来看,一个是数据流的维度(下图的水平轴),另外一个是技术栈的维度(下图的纵轴)。
其实我一直不太喜欢张口闭口讲“大数据”,我更喜欢说“数据”。因为大数据的本质在于“数据”,而不是“大”。由于媒体一直重点宣扬大数据的“大”,所以有时候我们往往会忽然大数据的本质在“数据”,而不是“大”,“大”只是你看到的表相,本质还是数据自身。
在我们讲清楚大数据的含义之后,我们来聊聊大数据目前到底处在一个什么样的位置。从历史发展的角度来看,每一项新技术都会经历下面这样一个技术成熟度曲线。
当一项新技术刚出来的时候人们会非常乐观,常常以为这项技术会给人类带来巨大的变革,对此持有过高的期望,所以这项技术一开始会以非常快的速度受到大家追捧,然后到达一个顶峰,之后人们开始认识到这项新技术并没有当初预想的那么具有革命性,然后会过于悲观,之后就会经历泡沫阶段。等沉寂一定阶段之后,人们开始回归理性,正视这项技术的价值,然后开始正确的应用这项技术,从此这项技术开始走向稳步向前发展的道路。(题外话,笔者在看这幅图的时候也联想到了一个男人对婚姻看法的曲线图,大家自己脑补)。
1、从大数据的历史来看,大数据已经经历了 2 个重要阶段
两个重要阶段是指过高期望的峰值和泡沫化的底谷期 。现在正处于稳步向前发展的阶段。我们可以从 googletrend 上 big data 的曲线就能印证。大数据大约从 2009 年开始走向人们的视野,在 2015 年左右走向了顶峰,然后慢慢走向下降通道(当然这张曲线并不会和上面这张技术成熟度曲线完全拟合,比如技术曲线处在下降通道有可能会使讨论这项技术的搜索量增加)。
接下来我想讲一下我对大数据领域未来趋势的几个判断。
2、数据规模会继续扩大,大数据将继续发扬光
前面已经提到过,大数据已经度过了过高期望的峰值和泡沫化的底谷期,现在正在稳步向前发展。做这样判断主要有以下 2 个原因:
上游数据规模会继续增长,特别是由于 IOT 技术的发展和成熟,以及未来 5G 技术的铺开。在可预测的未来,数据规模仍将继续快速增长,这是能够带动大数据持续稳定向前发展的基本动力。 下游数据产业还有很多发展的空间,还有很多数据的价值我们没有挖掘出来。虽然现在人工智能,区块链抢去了大数据的风口位置,也许大数据成不了未来的主角,但大数据也绝对不是跑龙套的,大数据仍将扮演一个重要而基础的角色。可以这么说,只要有数据在,大数据就永远不会过时。我想在大部分人的有生之年,我们都会见证大数据的持续向上发展。
3、数据的实时性需求将更加突出
之前大数据遇到的最大挑战在于数据规模大(所以大家会称之为“大数据”),经过工业界多年的努力和实践,规模大这个问题基本已经解决了。接下来几年,更大的挑战在于速度,也就是实时性。而大数据的实时性并不是指简单的传输数据或者处理数据的实时性,而是从端到端的实时,任何一个步骤速度慢了,就影响整个大数据系统的实时性。所以大数据的实时性,包括以下几个方面:
快速获取和传输数据 快速计算处理数据 实时可视化数据 在线机器学习,实时更新机器学习模型目前以 Kafka,Flink 为代表的流处理计算引擎已经为实时计算提供了坚实的底层技术支持,相信未来在实时可视化数据以及在线机器学习方面会有更多优秀的产品涌现出来。当大数据的实时性增强之后,在数据消费端会产生更多有价值的数据,从而形成一个更高效的数据闭环,促进整个数据流的良性发展。
4、大数据基础设施往云上迁移势不可挡
目前IT基础设施往云上迁移不再是一个大家还需要争论的问题,这是大势所趋。当然我这边说的云并不单单指公有云,也包括私有云,混合云。因为由于每个企业的业务属性不同,对数据安全性的要求不同,不可能把所有的大数据设施都部署在公有云上,但向云上迁移这是一个未来注定的选择。目前各大云厂商都提供了各种各样的大数据产品以满足各种用户需求,包括平台型(PAAS) 的 EMR ,服务型 (SAAS) 的数据可视化产品等等。大数据基础设施的云化对大数据技术和产品产生也有相应的影响。大数据领域的框架和产品将更加 Cloud Native 。
计算和存储的分离。我们知道每个公有云都有自己对应的分布式存储,比如 AWS 的 S3 。 S3 在一些场合可以替换我们所熟知的 HDFS ,而且成本更低。而 S3 的物理存储并不是在 EC2 上面,对 EC2 来说, S3 是 remote storage 。所以如果你要是 AWS 上面做大数据开发和应用,而且你的数据是在 S3 上,那么你就自然而然用到了计算和存储的分离。 拥抱容器,与 Kubernate 的整合大势所趋,我们知道在云环境中 Kuberneate 基本上已经是容器资源调度的标准。 更具有弹性(Elastic)。 与云上其他产品和服务整合更加紧密。5、大数据产品全链路化
全链路化是指提供端到端的全链路解决方案,而不是简单的堆积一些大数据产品组件。以 Hadoop 为代表的大数据产品一直被人诟病的主要问题就是用户使用门槛过高,二次开发成本太高。全链路化就是为了解决这一问题,用户需要的并不是 Hadoop,Spark,Flink 等这些技术,而是要以这些技术为基础的能解决业务问题的产品。 Cloudera 的从 Edge 到 AI 是我比较认同的方案。大数据的价值并不是数据本身,而是数据背后所隐藏的对业务有影响的信息和知识。下面是一张摘自 wikipedia 的经典数据金字塔的图。
大数据技术就是对最原始的数据进行不断处理加工提炼,金字塔每上去一层,对应的数据量会越小,同时对业务的影响价值会更大更快。而要从数据(Data) 最终提炼出智慧(Wisdom),数据要经过一条很长的数据流链路,没有一套完整的系统保证整条链路的高效运转是很难保证最终从数据中提炼出来有价值的东西的,所以大数据未来产品全链路化是另外一个大的趋势。
6、大数据技术往下游数据消费和应用端转移
上面讲到了大数据的全链路发展趋势,那么这条长长的数据链路目前的状况是如何,未来又会有什么样的趋势呢?
我的判断是未来大数据技术的创新和发力会更多的转移到下游数据消费和应用端。之前十多年大数据的发展主要集中在底层的框架,比如最开始引领大数据风潮的 Hadoop ,后来的计算引擎佼佼者 Spark,Flink 以及消息中间件 Kafka ,资源调度器 Kubernetes 等等,每个细分领域都涌现出了一系列优秀的产品。总的来说,在底层技术框架这块,大数据领域已经基本打好了基础,接下来要做的是如何利用这些技术为企业提供最佳用户体验的产品,以解决用户的实际业务问题,或者说未来大数据的侧重点将从底层走向上层。之前的大数据创新更偏向于 IAAS 和 PAAS ,未来你将看到更多 SAAS 类型的大数据产品和创新。从近期一些国外厂商的收购案例,我们可以略微看出一些端倪。1、2019 年 6 月 7 日,谷歌宣布以 26 亿美元收购了数据分析公司 Looker,并将该公司并入 Google Cloud。2、2019 年 6 月 10 日,Salesforce 宣布以 157 亿美元的全股票交易收购 Tableau ,旨在夯实在数据可视化以及帮助企业解读所使用和所积累的海量数据的其他工具方面的工作。3、2019 年 9 月初,Cloudera 宣布收购 Arcadia Data 。 Arcadia Data 是一家云原生 AI 驱动的商业智能实时分析厂商。面对最终用户的大数据产品将是未来大数据竞争的重点,我相信会未来大数据领域的创新也将来源于此,未来 5 年内大概率至少还会再出一个类似 Looker 这样的公司,但是很难再出一个类似 Spark 的计算引擎。
7、底层技术的集中化和上层应用的全面开花
学习过大数据的人都会感叹大数据领域的东西真是多,特别是底层技术,感觉学都学不来。经过多年的厮杀和竞争,很多优秀的产品已经脱颖而出,也有很多产品慢慢走向消亡。比如批处理领域的 Spark 引擎基本上已经成为批处理领域的佼佼者,传统的 MapRece 除了一些旧有的系统,基本不太可能会开发新的 MapRece 应用。 Flink 也基本上成为低延迟流处理领域的不二选择,原有的 Storm 系统也开始慢慢退出历史舞台。同样 Kafka 也在消息中间件领域基本上占据了垄断地位。未来的底层大数据生态圈中将不再有那么多的新的技术和框架,每个细分领域都将优胜劣汰,走向成熟,更加集中化。未来更大的创新将更多来来自上层应用或者全链路的整合方面。在大数据的上层应用方面未来将会迎来有更多的创新和发展,比如基于大数据上的BI产品, AI 产品等等,某个垂直领域的大数据应用等等,我相信未来我们会看到更多这方面的创新和发展。
8、开源闭源并驾齐驱
大数据领域并不是只有 Hadoop,Spark,Flink 等这类大家耳熟能详的开源产品,还有很多优秀的闭源产品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。这些产品虽然没有开源产品那么受开发者欢迎,但是他们对于很多非互联网企业来说是非常受欢迎的。因为对于一个企业来说,采用哪种大数据产品有很多因素需要考虑,否开源并不是唯一标准。产品是否稳定,是否有商业公司支持,是否足够安全,是否能和现有系统整合等等往往是某些企业更需要考虑的东西,而闭源产品往往在这类企业级产品特性上具有优势。
最近几年开源产品受公有云的影响非常大,公有云可以无偿享受开源的成果,抢走了开源产品背后的商业公司很多市场份额,所以最近很多开源产品背后的商业公司开始改变策略,有些甚至修改了 Licence 。不过我觉得公有云厂商不会杀死那些开源产品背后的商业公司,否则就是杀鸡取卵,杀死开源产品背后的商业公司,其实就是杀死开源产品的最大技术创新者,也就是杀死开源产品本身。我相信开源界和公有云厂商最终会取得一个平衡,开源仍然会是一个主流,仍然会是创新的主力,一些优秀的闭源产品同样也会占据一定的市场空间。
最后我想再次总结下本文的几个要点:
1、目前大数据已经度过了最火的峰值期和泡沫化的底谷期,现在正处于稳步向前发展的阶段。2、数据规模会继续扩大,大数据将继续发扬光大3、 数据的实时性需求将更加突出4、大数据基础设施往云上迁移势不可挡5、大数据产品全链路化6、大数据技术往下游数据消费和应用端转移7、底层技术的集中化和上层应用的全面开花8、开源闭源并驾齐驱
B. 未来大数据的主要应用领域包括哪些
大数据不仅意味着海量、多样、迅捷的数据处理,更是一种颠覆的思维方式、一项智能的基础设施、一场创新的技术变革。
大数据不仅意味着海量、多样、物联网、智慧城市、增强现实(AR)与虚拟现实(VR)、区块链技术、语音识别、人工智能、数字汇流是大数据未来应用的七大发展方向。
趋势一:物联网
物联网:把所有物品通过信息传感设备与互联网连接起来,进行信息交换,即物物相息,以实现智能化识别和管理。
物联网是新一代信息技术的重要组成部分,也是“信息化”时代的重要发展阶段。
物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;
其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,也就是物物相息。
趋势二:智慧城市
智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息;对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。这项趋势的成败取决于数据量跟数据是否足够,这有赖于政府部门与民营企业的合作;此外,发展中的5G网络是全世界通用的规格,如果产品被一个智慧城市采用,将可以应用在全世界的智慧城市。
趋势三:增强现实(AR)与虚拟现实(VR)
拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境;是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。这两个技术最近开始降价跟提升质量,走向大众市场。VR应用一开始以电玩为主,现在的应用却超越电玩,可以用来教学,靠着VR设备,把家里的插头电线完成配线,就像有水电技师在教学一样。
趋势四:区块链技术
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。 区块链技术是指一种全民参与记账的方式。所有的系统背后都有一个数据库,你可以把数据库看成是就是一个大账本。区块链有很多不同应用方式,美国几乎所有科技公司都在尝试如何应用,最常见的应用是比特币跟其他加密货币的交易。
趋势五:语音识别技术
人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为语音识别技术是2000年至2010年间,信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。这项产业有个很大优点,就是发展技术的公司都打算把这项技术商品化。像是google、Amazon跟苹果的语音识别技术都可透过授权,使用在其他业者的硬件服务上。
趋势六:人工智能(AI)
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能需要被教育,汇入很多信息才能进化,进而产生一些意想不到的结果。AI影响幅度很大,例如媒体业,现在计算机跟机器人可以写出很好的文章,而且1小时产出好几百篇,成本也低。
AI对经济发展会产生剧烈影响,很多知识产业跟白领工作也可能被机器人取代。但他对于AI的态度很正面,这会让生活更好,例如自驾车绝对比人驾车更安全。
趋势七:数字汇流
大约从1995年左右,就陆续有人在讨论所谓“数位汇流”,在不同的使用情境之下,我们还是会需要很不一样的数位装置—光是萤幕大小就有好多种选项,音响效果、摄影机,都需要不同的配套。
所以数位比较像是“iCloud”,也就是说所有的装置会存取同一个远端资料库,让你的数位生活可以完全同步,随时、无缝的切换使用情境。
但除了“载具”的汇流,我们更应关心的是另一个数位汇流,一个网路商业模式的汇流,或者更明确的说,数字汇流就是“内容”与“电子商务”的汇流。
C. 数据驱动全链路啥意思
数据驱动业务增长”是以企业产品业务线海量数据的收集、存储、可视化、分析、挖掘作为核心支撑的,全体业务线人员参与的,以精准、细分和精细化为特点的运营战略。
即针对运营、产品、市场、客服等部门的运营数据,通过可视化、可量化、可细化、可预测等一系列数据分析方法论以及理论、经验等来进行业务分析,挖掘业务增长点。
具体的主要以“产品以及官网流量数据分析、目标用户行为数据分析、目标用户群转化分析、活动营销策划推广数据分析、用户画像数据分析、产品功能优化迭代、竞争调研以及监控数据分析、渠道效果分析等”。
而面对海量的数据,还是有很多人不知道从如何着手、如何开展,如何得出结论。
下面梳理探讨一下“数据驱动业务增长”的底层逻辑思维,希望在数据驱动业务增长的实际应用中能给大家扩展一下思路。
01
那么,首先来看一下何为“底层逻辑”呢?
底层逻辑,广义上关于某种事物的认知,狭义上对于具体到某个产品的规则。在《底层逻辑》这本书里如是写道:所谓底层逻辑,就是从事物的底层、本质出发,寻找解决问题路径的思维方法。底层逻辑越坚固,解决问题的能力也就越强。
其实当我们在思考问题时,首先的核心切入点,从这个点开始思考所作出之后的决定,当围绕着底层逻辑思考时,做出的决定才是和初心一致,最贴合内心的,也是真实的人性反馈。
而在商业系统里的定位就是从底层逻辑为思考核心。比如腾讯,在早期,它的底层逻辑就是创造一个可以让人与人交流的软件。从这个逻辑上确定的定位就是“连接”。连接人与人,连接人与物,连接物与物,连接世界就是从这个底层逻辑上生发出来的商业路径。
也可以说,底层逻辑是事物基本的驱动力(在这里不做详情探讨,只要了解底层逻辑的概念)。
02
接下来,我们来看一下以数据驱动业务增长的3个底层逻辑。
1. 数据分析基本步骤
所有数据分析都应该以业务场景为起始思考点,以业务决策作为终点。都绕不开是多少、是什么、为什么、会怎样、又如何。
基于此,数据分析的五个基本步骤:
第一步,首先挖掘业务含义,理解数据分析的背景、前提以及想要关联的业务场景结果是什么。
第二步,需要收集整理数据,梳理用户行为路径。
第三步,从业务场景中拆分出需要的数据,将数据可视化,落地分析原因。
第四步,从数据结果中,判断提炼出业务洞察,预测可能会发生的结果。
第五步,根据数据结果洞察分析,最终产出业务决策。
例如,互联网HR考勤类网站,渠道运营在网络和 360搜索上都有持续的广告投放,为官网引流。
最近领导建议尝试投放神马搜索渠道获取流量,另外也需要评估是否加入知乎、今日头条进行深度广告投放。
在这种多渠道的投放场景下,如何进行深度决策?我们按照上面数据分析流程的五个基本步骤来拆解一下这个问题。
第一步:挖掘业务含义
首先要了解渠道人员想优化什么,并以此为北极星指标去衡量。
对于渠道效果评估,重要的是业务转化:对hr考勤类网站来说,是否“创建企业”要远重要于 “访问用户数量” 。所以无论是神马移动搜索还是知乎、今日头条渠道,重点在于如何通过数据手段衡量转化效果;也可以进一步根据转化效果,优化不同渠道的运营策略。
D. 大数据未来的发展前景怎么样
就现如今的发展趋势而言,大数据技术的发展如火如荼。在各个领域都得到了广泛的应用,而且就其目前的发展情况来看,大数据技术具有十分良好的发展前景。
现在社会的大数据公司主要可以分为三大类,分别是技术型、创新型、数据型这三种,不论是哪一种类型的大数据公司,都是现代社会不可获缺的。人们熟悉的技术型的大数据公司通常是IT公司,这些公司十分看重数据的处理这一模块。创新型的大数据公司需要一些非常有想象力的人,对于相同的数据,他们往往有不同的见解,并发现其中的不同。而数据型的大数据公司,人们了解的比较多,如新浪、网络、网易、搜狐、淘宝等等,这些也是与人们的日常生活密切相关的,或者是一些零售的连锁企业、市政公司、金融服务公司等等,这些公司自身拥有较多的数据,也正是因为涵盖的数据较多,因而容易导致有价值的信息被忽略。在这三种不同的大数据公司中,技术型的大数据公司未来的发展将会使得技术趋向于多元化,制造出越来越多样的技术。不论是从哪个方面来说,大数据技术今后的发展都会越来越好。以下就主要分析几点发展趋势。
1、数据分析成为大数据技术的核心
数据分析在数据处理过程中占据十分重要的位置,随着时代的发展,数据分析也会逐渐成为大数据技术的核心。大数据的价值体现在对大规模数据集合的智能处理方面,进而在大规模的数据中获取有用的信息。要想逐步实现这个功能,就必须对数据进行分析和挖掘。而数据的采集、存储、和管理都是数据分析步骤的基础,通过进行数据分析得到的结果,将应用于大数据相关的各个领域。
2、广泛采用实时性的数据处理方式
为了更好地满足人们的需求,大数据处理系统的处理方式也需要不断地与时俱进。目前大数据的处理系统采用的主要是批量化的处理方式,这种数据处理方式有一定的局限性,主要是用于数据报告的频率不需要达到分钟级别的场合,而对于要求比较高的场合,这种数据处理方式就达不到要求。传统的数据仓库系统、链路挖掘等应用对数据处理的时间往往以小时或者天为单位。这与大数据自身的发展有点不相适应。大数据突出强调数据的实时性,因而对数据处理也要体现出实时性。如在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒极。要求极高。在一些大数据的应用场合,人们需要及时对获取的信息进行处理并进行适当的舍弃,否则很容易造成空间的不足。
3、基于云的数据分析平台将更加完善
近几年来,云计算技术发展的越来越快,与此相应的应用范围也越来越宽。云计算的发展为大数据技术的发展提供了一定的数据处理平台和技术支持。云计算为大数据提供了分布式的计算方法、可以弹性扩展、相对便宜的存储空间和计算资源,这些都是大数据技术发展中十分重要的组成部分。此外,云计算具有十分丰富的IT资源、分布较为广泛,为大数据技术的发展提供了技术支持。随着云计算技术的不断发展和完善,发展平台的日趋成熟,大数据技术自身将会得到快速提升,数据处理水平也会得到显著提升。
4、开源软件的发展将会成为推动大数据技术发展的新动力
开源软件是在大数据技术发展的过程中不断研发出来的。这些开源软件对各个领域的发展、人们的日常生活具有十分重要的作用。开源软件的发展可以适当的促进商业软件的发展,以此作为推动力,从而更好地服务于应用程序开发工具、应用、服务等各个不同的领域。虽然现如今商业化的软件也是发展十分迅速,但是二者之间并不会产生矛盾,可以优势互补,从而共同进步。开源软件自身在发展的同时,为大数据技术的发展贡献力量。
E. 运用大数据驱动创新发展
运用大数据驱动创新发展
大数据时代,如何利用数据资源转变经济增长方式、助推创新驱动发展,使其服务于个人生活、企业决策和国家治理,是值得深思的重要战略课题。大数据不仅意味着海量、多样、迅捷的数据处理,更是一种颠覆的思维方式、一项智能的基础设施、一场创新的技术变革。我们在拥抱大数据的同时,可以“云—链—端”的构架开发利用好“云”计算、“链”建设和“端”创新,让大数据真正带来大产业、大机遇和大红利。
“云”计算。云是大数据的处理中心,云计算能有效融合信息化与工业化,使生产效率得到大幅提升。正是有了云,工业时代的“大”数据变成为互联网时代的大数据。云计算和大数据犹如车之两轮,鸟之双翼——云计算是大数据成长的驱动力,大数据需要云计算实现解决方案。摩尔定律揭示了硬件的飞速发展,存储和运算能力已经不是信息技术进步的主要制约因素,新的瓶颈正在向数据转移。数据不仅反映了事物的客观状态,还蕴藏着事物的发展规律。这种规律支配着整个社会的发展,一旦掌握,就可以把握社会的脉搏甚至预测未来。越来越多的自然数据和社会数据,都可以通过定量方法的计算来分析解决。从全球视野来看,“量化决策”和“数据治国”已成为大势所趋。当前,我们在实现中国梦的征途上应学会从“定性”走向“定性定量相结合”,树立基于数据、事实和理性分析的管理理念。从战略角度来看,应将云计算聚焦于3D打印、人工智能等新兴领域,让大数据辅助科学研究,把握好新一轮科技革命和产业变革的发展机遇。
“链”建设。链是大数据的基础设施,应构建链路打造云到云、云到端、端到端的互联互通,实现不同层次不同应用领域的数据共享和高效利用。大数据的链路如同具备交互感应、中继传递的智能网络,可以整合“信息孤岛”和“应用孤岛”,让每个联网的终端化身数据战场的指挥官。现今,数据已成为像能源、矿产一样的战略性资源,接踵而来的便是数据安全和隐私问题,尤需重视“云—链—端”的联合防御。为回避数据泄露风险,应立足于国产的大数据技术与平台,积极支持和引导企业加大研发力度,努力突破核心技术,逐步提高关键设施的自主可控水平。同时,要就“数据所有权”和“数据隐私权”制定法规或标准,通过法律来保护公民和国家的数据安全。随着大数据的发展,数据传输将朝着高速率、大容量、集成化和体系化方向演进。在建设过程中,既要制定好互通标准,实现多种设施的协同发展,又要前瞻性地预留接口,以便未来的升级换代和拓展扩容。
“端”创新。端是大数据的创新方向,既要创新终端的数据采集方法,去伪存真、多角度验证数据的可信性;又要尽可能将数据开放给终端,推动终端的创新应用。从市场来看,应发展智能终端,探索新的商业模式;就政府而言,应建设智慧城市,推进国家治理现代化。目前,企业无法深入应用大数据的主要原因在于,没有激发数据与商业场景的良性互动。应让需求和技术实时、动态、经济的对接,使用户成为大数据的提供者和受益者,实现运营和使用的迭代闭环运行。与企业相比,政府在数据方面具有天然优势,不能只充当数据的“账房先生”。应唤醒沉睡在档案袋、存储器中的有效数据,为科学制定政策和合理配置资源提供可靠依据。党的十八届三中全会提出推进国家治理体系和治理能力现代化,这就要求政府部门改变传统思维方式,激活那些束之高阁的闲置数据,将其运用到经济社会的各个方面,带动政府公共服务的技术创新、管理创新和服务创新。应打破部门数据的分割状态,整合数据资源形成合力,以多种形式向公众实时开放各类数据,实现大数据从群众中来,到群众中去。
以上是小编为大家分享的关于运用大数据驱动创新发展的相关内容,更多信息可以关注环球青藤分享更多干货