A. BAT三巨头开始挖掘大数据
BAT三巨头开始挖掘大数据
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。
实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。
概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。
BAT都是大矿主,但矿山性质不同
数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
网络拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
下面,就将三家公司的情况一一扫描与分析。
一、网络:含着数据出生且拥有挖掘技术,研究和实用结合
搜索巨头网络围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。
除了网页外,网络还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管网络拥有核心技术和数据矿山,却还没有发挥出最大潜力。网络指数、网络统计等产品算是对数据挖掘的一些初级应用,与Google相比,网络在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。
2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。 搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。
接下来,网络会向企业提供更多的数据和数据服务。前期网络与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。
网络还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管网络已经出发,其在大数据上可做的事情还有很多。
在数据收集方面,网络需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。
在数据处理技术上,网络成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,网络等探索者还有很多待解问题,如:无监督式学习、立体图像识别。
在数据变现方面,网络需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品,进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。
网络的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面网络是聚集国内最多大数据相关领域顶尖人才的公司。听说网络前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛,包括一些学者和教授。例如Facebook科学家徐伟。
在挖人上,舍得花钱不够,还得用心。对于真正的大牛来说,钱只是一个影响因素。能否实现自己的梦想,公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见,得到答案是积极的,最终促成他作出决定。
总体来看,网络拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。
二、腾讯:数据为产品所用,自产自销
微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久,天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现,“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。
腾讯拥有社交大数据,在企鹅帝国完成数据的制造、流通、消费和挖掘。 腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报,增值服务占总收入的78.7%;电子商务业务占14.1%;网络广告收入占6.3%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。
在笔者看来,腾讯的思路主要是补齐产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。 那么如果腾讯要深入大数据挖掘缺少什么呢?笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了,就差模式,也就是找到需求或者能更深层次驱动大数据利用的产品,而不是用大数据改进自己的产品。腾讯还在观望,等其他人去试错验证出一套模式或者产品后,自己可以“站在巨人肩上”。这是腾讯的典型思维。
在人才方面,腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后,Google图片搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者,《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱,但被认定为一款无法承载腾讯重托的产品,最后这些大牛都走了。大都回Google了。
腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告,更不会向网络、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步,在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮,发现没数据挖掘能力呢?不会,腾讯搞不定数据挖掘,到时候依然可以挖到大牛,甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上网络,就难了。除非将网络的数据和众大牛一起倒腾过来。
总体来看,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。
三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市
阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是“最值钱”的金数据。
数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。“大数据”浪潮袭来,阿里提出“数据、金融和平台”战略。前所未有地重视起对数据的收集、挖掘和共享。马云在“退居”前动不动都对外提“数据”。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的“数据委员会”。
阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。
就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。
计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是“建立市场”,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。 有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。
阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。
总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的“交易”生意扩展到数据。让天下没有难做的“数据生意”。
总结一下
移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。
B. 专访腾讯苏奎峰:从数据要素到三大平台,自动驾驶落地提速
数据是自动驾驶的「燃料」已成为业界共识。
4月9日,中央决策层下发的一个重要文件,让“数据要素”的重要性盖上了官方盖章,成为生产要素之一,数据资源成为了亟待挖掘的黄金宝矿。
事实上,数据要素的重要性和想象力不仅局限于此。未来 汽车 将不再是信息孤岛,是一个移动的感知终端,将与路、云端互联,通过大数据、人工智能等技术实现智慧出行,数据是链接这一切的核心因素。
在众多的自动驾驶玩家当中,构建「数据闭环」是腾讯助力产业发展,实现突围的关键路径。
数据要素高效利用背后更深层次的逻辑在于产业理解和基础架构支撑,腾讯云提供强大的云服务能力,并基于此构建高效的自动驾驶数据服务体系。因此,在关于数据要素如何驱动自动驾驶的问题上,腾讯有着自己的一番理解。
基于此,腾讯在自动驾驶业务上摆出了三个具有杀伤力的产品:大数据云平台、仿真测试平台和高精度地图。
雷锋网新智驾将对话腾讯自动驾驶业务中心总经理苏奎峰,试图了解腾讯如何用数据要素驱动自动驾驶,三大业务之间高效联动的逻辑。
在浩瀚的赛博空间里,数据是建成海量虚拟建筑的一块块砖瓦。
于自动驾驶而言, 数据以各种形式贯穿研发、生产、测试、运营等生命周期。 与此同时,数据的爆发也呈指数级增长,可以想象,玩家们面临的是如海啸一般涌来的数据。
因此在数据要素使用上,玩家们在两个维度上的能力就显得十分重要:一是数据闭环,没有闭环,数据的有效性就无法验证;二是在数据闭环的基础之上如何实现数据高效运转。
苏奎峰向新智驾表示:自动驾驶的核心竞争力在于数据要素和计算资源的低成本获取和高效利用。对数据要素进行高效收集和利用,提高数据循环链路的速度,是整个自动驾驶技术迭代的关键点。
为此,腾讯在自动驾驶业务上推出了大数据云平台和仿真测试平台、高精度地图三大业务。要理解这三大业务平台对数据闭环的高效驱动,需要追溯自动驾驶数据产生的链条。苏奎峰给新智驾举了一个例子:
由此可见,一个围绕数据采集、场景构建、测试验证、运营更新的数据流通链条得以形成。
苏奎峰也认为,数据要素利用效率的提升是全链条事情,并非一个单点就能解决。
比如从数据采集角度看,知道采集何种数据就十分重要。在了解白天黑夜、拥堵与非拥堵路段等数据需求之后,可以将动态场景进行自动或手动标定触发,从而提升数据获取效率,避免重复。
而在车辆真正在路上运行之后,也可以根据相应的触发条件,自动筛选一些有用的数据回传到云端;此外,腾讯还会提供数据管理系统,将采集回来的数据进行标签化,快速清洗、筛选、查找需要的数据,进行高效流转。
工具链涵盖从数据采集、数据训练、到算法模块评测(包括模型在环、软件在环、车辆在环、硬件在环),再到实际路测的整个自动驾驶链路。
“这个闭环体系的每个工具的每一个环节,都在提高数据要素的流转和利用效率,以便快速解决问题或加速研发。”苏奎峰如此表示。
比如遇到一个Corner case,腾讯能够从数据库里找到相关案例来标注算法训练,或快速采集相应的数据,以保证数据闭环的稳定有效。
目前,针对L2.5级以上的自动驾驶系统,腾讯都能提供云端工具链包括场景分类器等生产工具,同时提供车端与云端的一些标准,用户可以根据自己的算法需求进行选取。
基于对数据闭环和高效运作的理解,腾讯在自动驾驶的目的也呼之欲出:为行业客户提供,能够对数据要素进行高效收集和利用,提高数据循环链路速度的软件与服务,助力产业技术的演进,加速产品落地。
换言之,为行业客户提供自动驾驶云开发的工具链,集数据采集、训练、评测、更新等环节于一身。这也是苏奎峰一直在强调的腾讯在自动驾驶上的工具属性。
腾讯的大数据云平台、仿真测试平台、高精度地图三大业务,构成了这些工具链的产品形态。
以仿真测试平台为例,可以理解为,腾讯的仿真平台TAD Sim就是一部大型的、针对自动驾驶车辆的角色扮演 游戏 ,结合了专业的 游戏 引擎、工业级车辆动力学模型、虚实一体交通流等技术。
苏奎峰告诉新智驾,仿真测试非常核心的一个功能就是,能够将采集到的数据转换成有用的测试场景。
他强调道:“工具本身要求我们会使用数据,我们也有数据要素储备。但对仿真来讲,核心功能在于工具而非数据本身。有了这个工具,车辆采集的数据就可以生产大量的测试场景。”
腾讯的TAD Sim仿真平台也能够提供单机版本和云端版本。
单机版能够进行场景编辑,做各种测试验证。而云端版本则是提供云端高并发的测试能力,包括场景云仿真和虚拟城市型云仿真。
场景云仿真通过大量数据生成几十万甚至上百万的测试场景,在云端大规模并行加速,实现自动驾驶算法的高效验证。
虚拟城市云仿真,则是能够加载一个真实或编辑的城市级高精度地图,实现上百万辆交通流车辆和上千台自动驾驶主车的并行加速,进行7×24小时的不间断测试。
通过不断寻找Corner case、或是将算法处理不好的场景积累下来,丰富自动驾驶测试的场景库。
当然,这背后可以很明显地看到腾讯强大的 游戏 技术支撑的痕迹。
“仿真系统可以把数据链条打碎,然后分阶段验证,同时也会将这个链条集成验证。这从一定意义上来说更接近于实际的道路测试。但是还是要强调,实车测试永远是需要的,仿真永远代替不了实车测试。”苏奎峰说。
此前,腾讯和国家智能网联 汽车 (长沙)试验区合作了智能网联 汽车 仿真实验室。
利用高精度地图和模拟仿真技术对试验区的地理全貌进行数字化建模,实现在仿真环境下进行安全、高效的智能 汽车 实验。
除此之外,仿真测试平台的还离不开大数据云平台和高精度地图的组合。
苏奎峰表示,云化是未来的一大趋势,不光是数据存放在云端,目前在客户端的很多服务和终端决策也会随着云端趋势的加强而发生改变。
“未来随着5G通讯链路的增强、软件架构和硬件架构升级、以及云端能力的增强,自动驾驶一定会从端的分布逐渐向云端迁移。”这也是腾讯构建大数据平台的原因。
此外,腾讯表示,TAD Sim提供地图编辑器,可以直接编辑高精度地图,也可以直接导入生产的实际高精度地图, TAD Sim提供通用的高精度地图接口,能够加载地图中的道路要素信息,也可以导入建筑物、树木等等三维环境信息。
“总体来说,无论车端还是云端,这个闭环是互相嵌套的体系。最终的呈现形式可以是单独模块,但如果想提高数据的流转效率和开发效率,就需要把这个体系紧密地耦合在一起,才能发挥最大效率。”苏奎峰说。
而闭环体系中算法、数据流转的效率越高,自动驾驶的成本也越低,核心竞争力也会更强。
在工具链上有一个完整的闭环,但在商业策略上,腾讯的商业模式是灵活的。
现阶段,“全家桶”式的打包显然不能满足当下主机厂们对产品定制化的需求。
既可单兵作战,也能齐同上阵。也就是说,三大业务既可以模块化输出,也能集大成者,进行团战。总而言之,根据行业需求灵活组配甚至一定程度的定制。
与此同时,在三大核心业务能力的加持下,腾讯也一直打磨自己的自动驾驶解决方案。
相比其他玩家,腾讯并不以自动驾驶分级来划分解决方案,而是从用户高频的需求出发,提供场景化的自动驾驶解决方案,分场景、分需求逐步实现自动驾驶落地。
从2019年开始,腾讯就瞄准了高速及泊车两大用户刚需场景,并将针对这两大场景推出自动驾驶量产解决方案。
苏奎峰告诉新智驾,目前,腾讯高精度地图团队已经完成了全国高速及快速路的高精度地图数据采集及绘制工作,为实现高速场景的自动驾驶打好了基础。
至于在商业落地上,苏奎峰表示,由于互联网公司的介入,传统主机厂的固有合作模式会发生变化,尤其是软硬件分离的趋势越来越明显。“合作的模式和机制都在改变,目前腾讯与主机厂也在通过一些合作来推动模式的升级。”
比如在车端的解决方案上,腾讯既可以提供地图定位的算法模块,也可以提供感知、融合算法模块。但是不同的车厂、不同的传感器配置,仍然需要进行定制化,通用模块很难适配所有车型。
而大数据云平台方面,腾讯和宝马中国联合开发的自动驾驶高性能数据开发平台已经交付使用。
就像 游戏 中辅助角色一样,在“辅助输出”的理念下,腾讯正在用非常灵活的姿态融进主机厂、业内玩家们的自动驾驶生态之中。
正如腾讯CEO马化腾在朋友圈写道:“助力车企开发自己的自动驾驶AI算法和大数据平台”。腾讯凭借自己对数据闭环高效运作的理解与实践,有望助力车企们早日抵达自动驾驶的未来。
(雷锋网) 雷锋网
C. 阿里,腾讯和百度的互联网大数据应用有何不同
网络、阿里巴巴和腾讯三大互联网企业都拥有大数据,三大互联网巨头的数据都用来优化自己业务的运营效果,从这个层面看,其数据价值应用场景比较类似。但由于其业务和商业模式的不同决定了三者数据资产的不同,也决定了三者未来大数据策略的不同,尤其是基于大数据的开放和合作角度看,网络和阿里巴巴相对更加开放。对于重视大数据开放和合作的互联网企业,他们最为期待的是借着大数据开放的策略,与更多的传统行业交换更多的数据,从而更好的丰富其在线下数据,形成线上和线下数据的协同,从中拓展新的商业模式,如智能硬件和大数据健康。
从数据类型看,腾讯数据最为全面,这与其互联网业务全面相关,其最为突出的是社交数据和游戏数据,其中:社交数据最为核心的是关系链数据、用户间的互动数据、用户产生的文字、图片和视频内容;游戏数据主要包括大型网游数据、网页游戏数据和手机游戏数据,游戏数据中最为核心的是游戏的活跃行为数据和付费行为数据,腾讯的数据最大的特点是基于社交的各种用户行为和娱乐数据。阿里最为突出的是电商数据,尤其是用户在淘宝和天猫上的商品浏览、搜索、点击、收藏和购买等数据,其数据最大特点是从浏览到支付形成的用户漏斗式转化数据。网络的数据以用户搜索的关键词、爬虫抓取的网页、图片和视频数据为主,网络的数据特点是通过搜索关键词更直接反映用户兴趣和需求,网络的数据以非结构化数据更多。
网络、阿里巴巴和腾讯的数据应用场景
网络、阿里巴巴和腾讯的数据应用场景都有共同的体系,该体系一共分为七层,代表了企业不同层面的数据价值应用场景,形成了企业运营的数据价值金字塔:
(1)数据基础平台层。金字塔的最底层也是整个金字塔的基础层,如果基础层搭建不好,上面的应用层也很难在企业运营中发挥效果,这一层的技术目标是实现数据的有效存储、计算和质量管理;业务目标是把企业的所有用户(客户)数据用唯一的ID串起来,包括用户(客户)的画像(如性别、年龄等)、行为以及兴趣爱好等,以达到全面的了解用户(客户)的目的;
(2)业务运营监控层。这一层首要的是搭建业务运营的关键数据体系,在此基础上通过智能化模型开发出来的数据产品,监控关键数据的异动,通过各种分析模型等可以快速定位数据异动的原因,辅助运营决策;
(3)用户/客户体验优化层。这一层主要是通过数据来监控和优化用户/客户的体验问题。这里面既运用了结构化的数据来监控,也运用非结构化的数据(如文本)来监控体验的问题。前者更多的是应用各种用户(客户)体验监测的模型或者工具来实现,后者更多的是通过监测微博、论坛和企业内部的客户反馈系统的文本来发现负面的口碑,以及时的优化产品或服务;
(4)精细化运营和营销层。这一层主要通过数据驱动业务精细化运营和营销。主要可以分为四方面:第一,构建基于用户的数据提取和运营工具,以方便运营和营销人员通过人群定向把客户提取出来,从而对客户进行营销或运营活动;第二方面,通过数据挖掘的手段提升客户对活动的响应;第三,通过数据挖掘的手段进行客户生命周期管理;第四,主要是用个性化推荐算法基于用户不同的兴趣和需求推荐不同的商品或者产品,以实现推广资源效率和效果最大化,如淘宝商品的个性化推荐;
(5)数据对外服务和市场传播层面。数据对外服务一般为服务该互联网企业的客户或用户,如网络通过提供网络舆情、网络代言人、网络指数等服务其广告主客户;淘宝通过数据魔方、淘宝情报和在云端等产品服务其客户;腾讯通过腾讯分析和腾讯云分析等服务其开放商客户。在市场传播层面,主要通过有趣的数据信息图谱和数据可视化产品来实现(如淘宝指数、网络指数、网络春节迁徙地图)。
(6)经营分析层面。主要通过分析师对大数据进行统计,形成经验分析周报、月报和季度报告等,对用户经营情况和收入完成等情况进行分析,发现问题,优化经营策略。
(7)战略分析层面。这方面既要结合内部的大数据形成决策层的数据视图,也要结合外部数据尤其是各种竞争情报监控数据、国外趋势研究数据来辅助决策层进行战略分析。
虽然网络、阿里巴巴和腾讯在企业运营的数据价值的应用体系上有共同的特点,但由于企业的商业模式以及数据资产不同,他们在整体的大数据发展策略也有显著的不同。
网络大数据策略
网络大数据最重要的是来源是通过爬虫搜集的100多个国家的近万亿网页数据,数据量是在EB级的规模。网络的数据非常多样化,其收集的数据既有为非结构化的或者半结构化的数据,包括网页数据、视频和图片等数据,也有结构化的数据,如用户的点击行为数据,广告客户的付费行为数据等。
网络大数据主要服务三类人群:一类是互联网网民,通过大数据和自然语言处理技术让网民的搜索更加准确;第二类是广告主,通过大数据让广告主的广告和搜索关键词的匹配度更高,或者和网民正在看的网页内容匹配度更高;第三类是,也是在重点推进的网络大数据引擎,重点是服务传统行业拥有一定规模数据的企业。
网络大数据引擎代表了互联网企业数据服务能力开放和合作的趋势,网络大数据引擎由以下三方面构成:
开放云:网络的大规模分布式计算和超大规模存储云,开放云大数据开放的是基础设施和硬件能力。过去的网络云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。据网络相关人员称,网络开放云还拥有CPU利用率高、弹性高、成本低等特点。网络是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时网络还是首家将GPU(图形处理器)应用在机器学习领域的公司,实现了能耗节省的目的。
数据工厂:数据工厂为网络将海量数据组织起来的软件能力,与数据库软件的作用类似,不同的是数据工厂是被用作处理TB级甚至更大的数据。网络数据工厂支持超大规模异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时网络数据工厂还将承载对于TB级别大表的并发查询和扫描,大查询、低并发时每秒可达百GB。
网络大脑:网络大脑将网络此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们被应用在语音、图像、文本识别,以及自然语言和语义理解方面,并通过网络Inside等平台开放给了智能硬件。现在这些能力将被用来对大数据进行智能化的分析、学习、处理、利用,并对外开放。
网络将基础设施能力、软件系统能力以及智能算法技术打包在一起,通过大数据引擎开放出来之后,拥有大数据的行业可以将自己的数据接入到这个引擎进行处理。从架构来看,企业或组织也可以只选择三件套中的一种来使用,例如数据存放在自己的云,但要运用网络大脑的一些智能算法或者数据存放在网络云,自己写算法。
网络大数据引擎的作用
我们可以从两方面来具体看网络大数据引擎的作用:
(1)对于 *** 机构:如交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,如果这些数据与网络的搜索记录、全网数据、LBS数据结合,在利用网络大数据引擎的大数据能力,则可以实现智能路径规划和运力管理;卫生部门拥有流感法定报告数据、全国流感样病例哨点监测和病原学监测数据,如果和网络的搜索记录及全网数据结合,便可进行流感预测、疫苗接种指导。
(2)对于企业:很多企业也拥有海量大数据,不过很多企业的大数据处理和挖掘能力比较弱,如果应用网络大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。如在2014年4月的网络技术开放日上,中国平安便介绍了如何利用网络的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。
阿里巴巴大数据策略
阿里巴巴大数据整体发展方向是以激活生产力为目的的DT(data technology,数据技术驱动)数据时代发展。阿里巴巴大数据未来将由“基于云计算的数据开放+大数据工具化应用”组成:
(1)基于云计算的数据开放。云计算使中小企业可以在阿里云上获得数据存储、数据处理服务,也可以构建自己的数据应用。云计算是数据开放的基础,云计算可以为全球的数据开发者提供数据工作平台,阿里分布式的存储平台和在这个平台上的算法工具,可以更好的为数据开发者所用;同时,阿里巴巴还需要做好数据的脱敏,把数据的商业定义,每个标签打得足够清晰,能够让全球的数据开发者在阿里巴巴平台展开数据思维,让数据为 *** 所用、消费者所用以及行业所用。阿里的大数据开放之后,线上线下的数据能够串联起来,所有人都是数据提供方,也是数据的使用者。
(2)在大数据应用上,马云已经在整个数据应用上确定了两个方针:
第一个方针:从IT到DT(数据技术),DT就是点燃整个数据和激发整个数据的力量,被管理所用,被社会所用,被销售所用,为制造业所用,为消费者信用所用。前文已经分析道,阿里巴巴的数据资产是以电商为主,其中,淘宝和天猫每天会产生丰富多样的数据,阿里巴巴已经沉淀了包括交易、金融、生活服务等多种类型的数据。这些数据能够帮助阿里巴巴进行数据化运营(如下图)。
另外一个其最为重要的应用是金融领域——小微金融。在小微金融企业融资领域。由于银行无法掌握小微企业真实的经营数据,不仅导致很多企业无法拿到贷款,还因为数据类型的不足导致整个判断流程过长,阿里已经通过其电商数据中的交易、信用、SNS等多种数据来决定是否可以发放贷款以及放贷的额度。
第二个方针:让阿里巴巴的数据、让阿里巴巴的工具能够成为中国商业的基础设施。阿里巴巴已经开始在转型,阿里将由自己直接面对消费者变成支持网商面对消费者,阿里会根据其已有的运营和数据经验,开发更多的工具,帮助网商成长,让网商们更懂得用最好的工具、服务去服务好消费者。正如马云所言“我相信没有一个网商不希望拥有自己的客户,没有一个网商不希望知道客户对自己的体验到底好还是坏,如何持久的拥有这些客户,我们觉得一个国家的经济,应该让给企业家群体去做,我们觉得淘宝网商未来的经济,是应该留给网商们去决定,而不是我们去做决定”。
腾讯大数据策略
腾讯的大数据目前更多的是为腾讯企业内部运营服务,相对于阿里和网络,数据开放程度并不高。因此,对于腾讯我们主要重点介绍腾讯大数据在服务企业内部的应用场景和服务。
腾讯90%以上的数据已经实现集中化管理,数据集中在数据平台部,有超过100多个产品的数据已经集中管理起来,而且是集中存储在腾讯自研数据仓库(TDW)。腾讯大数据从数据应用的不同环节可以分为四个层面,包括数据分析、数据挖掘、数据管理和数据可视化:
(1)数据分析层有四个产品:自助分析、用户画像、实时多维度分析和异动智能定位工具。自助分析可以帮助非技术人员通过简单的条件配置实现数据的统计和展示功能;用户画像则是对某一群用户或者某一业务的用户实现自动化的人群画像;实时多维度分析工具则是可以对某一指标可以实现实时的多个维度的切分,方便分析人员从不同角度对某一指标进行多维度分析;异动智能定位工具则实现数据异动问题的智能化定位。
(2)数据挖掘层面的产品应用有:精准广告系统、用户个性化推荐引擎和客户生命周期管理。精准广告系统如广点通,是基于腾讯大社交平台的海量数据为基础,通过精准推荐算法,以智能定向推广位导向实现广告精准投放;用户个性化推荐引擎根据每位用户的兴趣和喜好,通过个性化推荐算法(协同过滤、基于内容推荐、图算法、贝叶斯等),实现产品的个性化推荐需求;客户生命周期管理系统,则是基于大数据,根据用户/客户的所处的不同生命周期进行数据挖掘,建立预测、预警和用户特征模型,以根据用户/客户所处的不同生命周期特点进行精细化运营和营销。
(3)在数据管理层面则有:TDW(腾讯数据仓库)、TDBank(数据银行)、元数据管理平台和任务调度系统和数据监控。这一层面主要是实现数据的高效集中存储、数据的业务指标定义管理、数据质量管理、计算任务的及时调度和计算以及数据问题的监控和告警。
(4)在数据可视化层面有:自助报表工具、腾讯罗盘、腾讯分析和腾讯云分析等工具。自助报表工具可以自助化的实现结构相对简单和逻辑相对简单的报表。腾讯罗盘分为内部版和外部版,内部版则是服务于腾讯内部用户(产品经理、运营人员和技术人员等)的高效报表工具,外部版则是服务于腾讯合作伙伴如开发商的报表工具。腾讯分析是网站分析工具,帮助网站主进行网站的全方位分析。腾讯云分析则是帮助应用开发商决策和运营优化的分析工具。
总的来看,网络、阿里巴巴和腾讯三大互联网企业都拥有大数据,三大互联网巨头的数据都用来优化自己业务的运营效果,从这个层面看,其数据价值应用场景比较类似。但由于其业务和商业模式的不同决定了三者数据资产的不同,也决定了三者未来大数据策略的不同,尤其是基于大数据的开放和合作角度看,网络和阿里巴巴相对更加开放。对于重视大数据开放和合作的互联网企业,他们最为期待的是借着大数据开放的策略,与更多的传统行业交换更多的数据,从而更好的丰富其在线下数据,形成线上和线下数据的协同,从中拓展新的商业模式,如智能硬件和大数据健康。
这个得从BAT各自的基因来分析。网络主要是以搜索产品,所以大数据对于网络来说主要用于搜索方面,使搜索更加的精准和匹配;阿里巴巴以电子商务为主,所以大数据对于阿里巴巴来说会主要用户商品方面;腾讯主要是社交,所以大数据对于腾讯来说可能更多的应用于社会网络分析。大数据的主要用途为预测,所以BAT对于大数据的共同点都是为了通过对用户的分析,进行更加准确的服务和营销。
阿里有数据魔方,为卖家提供收费服务。
“互联网”
和
“所有空间”
互联网 就是指Inter上所有的信息
对网络来说
主要就是中文信息
所有空间
就是指网络中的所有用户
建了网络空间
(博客+相册+留言板)
显然搜索后者
是不包括网络空间 以外的博客的
大数据是大量、高速、多变的信息,它需要新型的处理方式去促成更强的决策能力、洞察力与最佳化处理。大数据为企业获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
借助大数据及相关技术,我们可针对不同行为特征的客户进行针对性营销,甚至能从“将一个产品推荐给一些合适的客户”到“将一些合适的产品推荐给一个客户”,得以更聚焦客户,进行个性化精准营销。
大数据时代下的精准营销是指通过大数据获取对象的喜好,行为偏好,对不同对象进行不同营销。大数据精准营销的核心可以概括为几大关键词:用户、需求、识别、体验。
亿美软通推出数据云服务,延续亿美的客户服务、客户营销、客户管理的公司经营理念,通过庞大的消费数据资源,为客户提供数据验证,精准营销等数据级服务。简单说就是为企业提供数据验证和数据筛选业务。
-
不用担心,学好了就会有好的前景。{变量9}
1.大数据重预测,小数据重解释;2.大数据重发现,而小数据重实证;3.大数据重相关,小数据重因果;4.大数据重全体,小数据重抽样;5.大数据重感知,小数据重精确。
DCCI互联网数据中心(DCCI DATA CENTER OF CHINA INTERNET,简称DCCI),互联网监测研究权威机构&数据平台,互动营销之测量、分析、优化服务提供者。以Panel软件、代码嵌入、海量数据挖掘、语义信息处理等多种领先技术手段为基础,进行网站、用...
互联网数据中心:是idc 他是主要存放网络数据的(网站+数据+下载站点等)囊括比较广泛,任何的正规企业或者是中小型站长都是可以进行选择的。
企业数据中心:它的更加具有针对性,它可以隶属于互联网数据中心的一部分的。
D. 区块链上腾讯做了什么
马化腾:区块链,行;ICO,不行
在两会上,马化腾表示区块链话题最近非常热,甚至有人调侃区块链之前的互联网都是“古典互联网”。虽然区块链技术是创新的,但是怎么用好这种技术是另一方面的问题。
在马化腾看来,区块链技术可以应用在很多领域,尤其是在数字化认证实物的唯一性方面。就像现实中的一个文件、一个票据等等,可以用区块链技术来保证它们不可被复制、不可被篡改。相比过去的传统IT 技术,区块链在真正模拟现实社会中的单据、收据的唯一性上,是有划时代意义的。
关于做数字货币ICO,马化腾认为还是有很多风险。他说:“如果大家都可以用区块链技术随便发行数字货币,那会引发很多监管方面的问题。”
比如2017 年春节内测的黄金红包项目,就是腾讯用区块链技术来记录用户数字资产的一次尝试。还有在公益寻人方面,腾讯也利用了区块链技术来减少信息不对称的问题。
在金融和公益之外, 腾讯还在2017 年9 月和英特尔达成合作,宣布双方将共同开发区块链技术,用来提高物联网场景中的安全防护能力。
E. 大数据对游戏精细化运营的意义
大数据对游戏精细化运营的意义
在大数据时代来临之际,移动互联网面临的挑战有哪些?如何在大数据的背景下做到精细化运营?移动游戏又如何和大数据相结合,在未来找准自己的等位?带着这一系列问题,今天来看看腾讯数据平台部王滔是如何理解的。
王滔(taowang):腾讯数据平台部高级产品经理,曾任职网络数据部门,对基于大数据的移动分析架构设计、移动APP运营以及移动信息推送有丰富的经验,腾讯云分析、腾讯移动推送信鸽项目负责人。
以下是采访实录:
在大数据下的背景下,移动游戏面临的挑战有哪些?王滔:移动游戏和端游页游最大的区别就是有了渠道的整合。在端游时代,并没有专门的渠道把游戏放在一起,玩家可能只知道CF或者是DNF,但是却很难知道这些游戏的竞品有哪些,在哪里。但是到了移动游戏或者说移动互联网时代,由于有了像APP Store,GooglePlay和国内众多渠道,游戏或者应用就会被放在一起比较。这样就导致了两个结果,第一,用户很清楚自己有多少个选择,并且会知道每一款游戏或者应用的评分是怎么样的。第二,用户的切换成本会降低了许多。举个例子,在PC时代,大家看新闻都会惯性地上同一个门户网站,并没有人会告诉你各个门户的排名和得分之类的信息,在同一个垂直领域并没有知道他们的排名是怎么样的。但在移动互联网时代,这个格局已经明显的改变了,你的游戏或者应用是和很多开发者一起去竞争。特别是在APPStore上,你是和全球的开发者竞争。
腾讯数据平台部王滔:大数据对游戏精细化运营的意义
其次,随着信息的扁平化,全球信息的交流已经越来越快,时间差也渐渐减少,可能大城市发生的事情一分钟之后整个小山村里面的人都知道了。如果说10年前还是赚的是信息不对称的钱的话,随着大数据、信息化的时代到来,你的游戏或者应用要脱颖而出,就变得非常困难。
一款移动游戏怎么样才能留住更多的用户?王滔:现在我发现很多用户都有一个特征,就是喜欢把Top5的游戏都下载下来再进行帅选。所以如何做到差异化,我认为要抓住玩家的最重要一点还是是画面,其实每个人都是外面协会,这个是不可否认的。所以说怎么用画面在游戏的前五分钟抓住玩家是最最重要的。因为那时候玩家还没有接触到你游戏的核心玩法。
留住用户第二步,可以在三十分钟内制造一个小高潮。可以设置一些很绚丽的战斗,或者让用户去战胜一些有挑战性的副本,千万不能在让游戏一开始非常平缓。第一天开始之后就可以让用户接触游戏的核心玩法,告诉自己和别人有什么不同,自己的创新之处在哪。用户在一关关地过关的同时,开发者其实也是在过关,五分钟、三十分钟、一天,如何让用户留下来,才去考虑如何让用户去付费。
通过你们对大数据的分析,导致玩家离开游戏的最重要原因有哪些?
王滔:我们在微信和其他的游戏做了非常大量的统计,设定了几百个变量,通过腾讯对每天过亿的用户计算,最后发现了影响玩家去留的最大因素就是两点。
腾讯数据平台部王滔:大数据对游戏精细化运营的意义
1.挫败感
挫败感是影响用户留存的最重要因素。我们通过对“失败数”、“连续失败数”、“任务完成情况”等这些数据,我们可以看到,一旦这些数值超过一定的量,玩家离开游戏的流失率就会大大增加。通过对数据的研究,发现用户通过率比游戏设定的时候低的时候,这个时候就可以通过降低游戏的难度来提升用户留存。
对于那些因为挫败感离开了游戏的用户,我们可以同对消息的推送或者运营的活动把他们拉回到游戏里面来。对于那些摇摇欲坠的用户,我们可以送他一些道具或者礼包,帮助他通过面对的困难。所以这个就需要数据的支付,针对每一个用户,选择适合他们的运营,做精细化运营。
2.孤独感
现在的移动游戏总有一种孤独感。同样是网游,在端游时代,类似公会、国战、帮派这些玩法,大家用Q群或者YY在相互联系,大家的联系非常非常高。但是现在的移动游戏都在各大孤独的感觉,所谓的网游都像是单机游戏一样。每一款游戏到中后期最重要的一定是社交因素。到目前为止,移动游戏在社交这方面还没有突破性的进展,现在的社交元素只是浅层次的社交。在端游时代,有很多中重度玩家,每天都和另外的玩家一起去打副本、PvP,这样才是最有效的留住玩家的方法。
社交感差导致玩家的孤独感,才是移动游戏平均寿命比较短的原因。一些好的端游和页游寿命长达10年,而在移动游戏时代,游戏寿命能有半年有已经非常不错了,很多开发商把游戏做出来捞一笔就走了。那些寿命比较长的游戏,玩家都是有感情在里面的,主要是里面有一群好的兄弟,这些才是大家留在一款游戏里面的最重要因素。现在的手游也是比较欠缺的。通过我们的数据统计,玩家的好友数量和在游戏上的时常是成正比的,好友数量越多,玩家在游戏里面的时间是越长的。
产品push的意义在哪里,对于移动游戏又有何作用?
王滔:玩过类似COC游戏的玩家,这些游戏有一个特点,就是以时间或者体力作为付费点。而很多不愿意付费的玩家,在建筑正在修建或者体力回复的时候都会其做其他事情。但是大家去做其他事情的时候就很容易把游戏忘记掉,所以这个适合推送就起到了一个十分重要的作用了。如果在建筑修建完成或者是体力恢复的时候有本地消息的同时,玩家会很快地回到游戏里面吗,继续战斗。我们做过统计,一款游戏在有推送的情况下同时在线率会比没有推送的时候提高50%,这些都是有真实数据支撑的。
而且通过我们的信鸽Pro,还能精准地知道每一个用户、每一个玩家的付费风格,游戏时长等等,再来做一个精准的推送,提供成功率。
以上是小编为大家分享的关于大数据对游戏精细化运营的意义的相关内容,更多信息可以关注环球青藤分享更多干货
F. 腾讯有自己的大数据中心吗
腾讯有自己的大数据中心。
腾讯大数据中心在西安_灞分析包含巨大的潜力但如果分析的不准确它就会转变成阻碍由于技术限制和其他商业因素的考虑,数据分析公司解析数据得出的结果可能并不能反映实际情况如果企业想要确保通过大数据分析得出的结论是他们想要的结果,他们就需要提高大数据分析的准确性。
企业文化
开始设计品牌Logo之后从公司美工设计的鸽子、企鹅等几种小动物的形象中选定了企鹅这个形象。第一次设计的企鹅是黑白写实的腾讯参加中国国际高新技术成果交易会,将QQ做成了稍微有点胖的样子,还增加了一条围巾。
之后腾讯找来专业设计公司在基础上再设计,脖子上围的黑围巾改成了一条鲜艳的红围巾,一只眼睛圆圆的,另一只眼睛眨巴着。而Q妹妹之后也正式亮相腾讯更换了新的品牌标识,由绿、黄、红三色轨迹线环绕的小企鹅标识构成了品牌标识的主体。
也是品牌标识中最为醒目的部分,将腾讯网以用户价值和需求为核心的品牌内涵体现无余球形标识以QQ为中心,向外扩散成不断运转的世界,喻示腾讯从最大的即时通讯社区起步,随着用户需求和互联网应用的发展,业务范围和运营领域不断拓展。
G. 阿里的总监将大数据、数字化的经验,总结成资料干货,可以收藏
阿里把企业的数字化转型划分为“数字化重构”和“数字化增长”两大类别,这个概念是不是听着很难懂?
重构,就是转型嘛;增长,就是更进一步嘛,说白了还是原来的老样子,换了个解释而已。
说到数字化转型,我觉得这是一个非常好的话题,甚至能衍生出很多干货,无论是传统企业,还是顶尖的互联网大公司,如阿里腾讯,老板都在朝这个方向努力。
所以和大数据有关的知识,还是很有必要学习的。
我给大家整理了很多干货,我从一个10年从业者和管理者的角度,这份干货,无论是底层干活的,中层管控的,上层布局的,都能够很清楚的学习到。
涉及到的方面还是很广的:大数据、数仓、中台、AI、IT规划、大数据平台、BI工具。
我是怎么总结的?
从架构入手,到每个模块的分解,再到每个地方的注意点,基本上就行了,太细的也不是通过文字去说清楚的。
只要能做到,看了干货资料,能对实际工作产生指导,就可以了。
这只是一部分,还有更多,自己来看就好。
H. 大数据如何帮助政府实现“精准治理”
大数据如何帮助政府实现“精准治理”
大数据缘何受到如此重视?业内专家曾以“大、智、移、云”形容当前国内快速进入的技术变革期。大数据、智能化、移动互联、云计算成为驱动中国经济社会转型进步的重要力量。而大数据这一几乎横跨所有社会经济领域的技术变革,无疑会给中国带来更多的改变。
大数据如何支撑政府服务能力提升?走在互联网技术创新前沿的BAT(网络、阿里巴巴、腾讯)等大型互联网企业正立足既有资源再创新,推动政务服务便利化。如腾讯与广东省政府达成基于大数据的政务服务体系建设目标。腾讯支持广东省网上办事大厅和政务云平台建设,在广东各地市全面部署微信“城市服务”网络,为交通、公安、民政、住房城乡建设等政府部门提供业务整合、在线办理云平台、大数据支撑等服务。
这仅仅是大数据支撑政府治理能力提升的第一步,更多的对政策走向、决策支撑、精准治理和多方协作的大数据创新仍需持续发力。
大数据撬动社会治理、市场监管创新
“当数据的价值被发现之后,可以提升国家和政府治理能力现代化,深刻影响每个人的生活形态。”龙信数据(北京)有限公司董事长李钰说。
商事制度改革正在为经济社会带来活力。然而,政府管理需要关注的不仅是注册企业数量的增长,民营企业生存状态、活跃度、就业拉动、税收贡献度等情况也应受到关注。
为此,龙信数据与相关部门联合,将企业注册等关键数据分析处理。相关方与龙信组成“企业发展与宏观经济发展关系分析”课题组,汇总政府数据,加之数据挖掘、电话抽样、焦点组访谈等多种方法结合,取得一般量化统计难以完成的数据结论——国内商事制度改革不仅让市场主体数量增加,更让产业结构持续优化,企业社会总成本持续下降等等,其中仅人员成本就下降近40%。
“大数据应用也将社会治理、市场监管转变为实时监测。”李钰举例,工商部门治理“非法集资”一直是高成本任务。一方面,违法企业以各种名目遮掩违法行为;另一方面,注册企业数目快速攀升,数量巨大。大数据破解了这一难题。
“我们汇总分析大量数据,通过指标计算比对、模型筛选,可以在数以百万的企业中让‘高度疑似’的企业呈现。我们最后筛选出1000多户企业,供政府部门进一步检查。”李钰说,这个复杂过程在以往难以想象。
大数据不仅为政府部门的治理节约时间、人力成本,也更新了治理思路和模式。“以前很多违法行为的治理可以说是事后去追究,现在一些监测治理可以让很多行为提前发现、及早治理。”李钰说。
开放、标准、产业、安全:大数据发展关键词
目前,推动政府运用大数据创新支撑治理能力提升,包括数据资源开放、人才培养、数据立法、接口标准、安全机制等问题仍然有待突破。
实际上,《纲要》已明确提出弥补这些“短板”,即“三项主要任务”:首先要加快政府数据开放共享,推动资源整合,提升治理能力;同时要推动产业创新发展,培育新兴业态,助力经济转型;还要强化安全保障,提高管理水平,促进健康发展。开放、标准、产业、安全成为关键词。
多位业内人士接受采访时表示,当前首要工作是推动政府部门数据加速开放共享。
事实上,此前包括北京等地的政府部门数据陆续开放共享,为数据创新迎来利好。北京市科学技术委员会牵头打造“首都科技大数据平台”,整合长期分散于各个政府部门、科研院所、行业部门的科技数据资源,并逐步向社会数据需求方开放,提升科技资源的公共服务能力。
“北京每年有大量的医疗科研、临床数据、交通运转数据、金融行业数据产生,科研院所也有不少技术成果、技术交易数据、新技术新产品等数据。”北京市科学技术委员会主任闫傲霜说,然而,这些政府科技数据资源大多存于不同平台,分割严重,大多处于沉睡状态,缺乏整合开发。
“有些政府部门把数据资源守得紧紧的,舍不得共享。共享机制不顺畅将制约产业发展、数据应用、服务国家战略等。”李钰说,国家需要进一步让政府部门数据开放,让产业与政府数据充分融合。
产业离不了人才,人才是大数据发展的重要支撑。北京大学校长林建华表示,数据科学人才培养成为亟须加强的方面。“大数据能否做成,关键在能不能聚焦人才培养。”
然而,高校和产业界人士普遍认为,当前大数据人才的培养相对滞后。北京航空航天大学软件学院院长孙伟认为,传统IT教育很难将前沿技术和课堂传授知识结合起来,培养出的人才难以与产业接轨。人才培养应更加面向市场需求、技术前沿。
与此同时,大数据产业发展的理念、标准、安全等也应当得到重视。李钰等产业界人士说,当前国内要实现“数数相连”,相关部门仍需要推动标准制定,将数据产业与数据资源有效打通。
法制的跟进也需要得到重视。当前,国内关于政府信息数据的加工、应用、推广等仍处于相对松散、自发状态。业内人士建议,国家需要有明确的法律条文规范大数据的发展,特别需要以法律法规划定大数据开发利用的边界。
以上是小编为大家分享的关于大数据如何帮助政府实现“精准治理”的相关内容,更多信息可以关注环球青藤分享更多干货
I. 大数据背景管理信息系统有哪些
大数据背景管理信息系统有腾讯纯孝分析、阿里云大数据、国家电网智能化管理信息系统。
1、腾讯分析:腾讯分析是腾讯公司推出的一款大数据分析工具,主要用于对社交媒体、电子商务、游戏等业务数据进行分析和挖掘,以帮助企业做出更好的决策。
2、阿里云大数据:阿里云大数据是阿里云推出的一整套大数据解决方案,包括数据存储、计算、分析和可视化等各个环节,能够满足企业在大数据管理和应用方面的需求。
3、国家电网智能化管理信息系统:国家电网智能化管理信息系统是丛裤液中国国家电网公司推出的一款大渗物数据管理和决策支持系统,主要用于电力系统的数据采集、存储、分析和决策支持。