① 为什么阿里云肖力:“云计算大数据”应该反过来叫“云数据大计算”
人类的认知总是被碾压,而且猝不及防。没办法,名为“科技”的火车正开得越来越快 —— 中国引入互联网才23年,中国首笔互联网交易发生在9年前,智能手机也兴起才几年,这些却都已成了生活中不可或缺的一部分。如今这列火车驶向一条名为”智能“的轨道,在可预见的未来又将开始新一轮加速。
5月23日上午,在云栖大会·成都峰会上,阿里云资深总监肖力用一场名为《通往智能之路》的演讲,和在场的人聊了聊他的看法。
② BAT三巨头开始挖掘大数据
BAT三巨头开始挖掘大数据
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。
实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。
概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。
BAT都是大矿主,但矿山性质不同
数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
网络拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
下面,就将三家公司的情况一一扫描与分析。
一、网络:含着数据出生且拥有挖掘技术,研究和实用结合
搜索巨头网络围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。
除了网页外,网络还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管网络拥有核心技术和数据矿山,却还没有发挥出最大潜力。网络指数、网络统计等产品算是对数据挖掘的一些初级应用,与Google相比,网络在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。
2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。 搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。
接下来,网络会向企业提供更多的数据和数据服务。前期网络与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。
网络还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管网络已经出发,其在大数据上可做的事情还有很多。
在数据收集方面,网络需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。
在数据处理技术上,网络成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,网络等探索者还有很多待解问题,如:无监督式学习、立体图像识别。
在数据变现方面,网络需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品,进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。
网络的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面网络是聚集国内最多大数据相关领域顶尖人才的公司。听说网络前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛,包括一些学者和教授。例如Facebook科学家徐伟。
在挖人上,舍得花钱不够,还得用心。对于真正的大牛来说,钱只是一个影响因素。能否实现自己的梦想,公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见,得到答案是积极的,最终促成他作出决定。
总体来看,网络拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。
二、腾讯:数据为产品所用,自产自销
微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久,天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现,“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。
腾讯拥有社交大数据,在企鹅帝国完成数据的制造、流通、消费和挖掘。 腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报,增值服务占总收入的78.7%;电子商务业务占14.1%;网络广告收入占6.3%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。
在笔者看来,腾讯的思路主要是补齐产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。 那么如果腾讯要深入大数据挖掘缺少什么呢?笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了,就差模式,也就是找到需求或者能更深层次驱动大数据利用的产品,而不是用大数据改进自己的产品。腾讯还在观望,等其他人去试错验证出一套模式或者产品后,自己可以“站在巨人肩上”。这是腾讯的典型思维。
在人才方面,腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后,Google图片搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者,《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱,但被认定为一款无法承载腾讯重托的产品,最后这些大牛都走了。大都回Google了。
腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告,更不会向网络、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步,在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮,发现没数据挖掘能力呢?不会,腾讯搞不定数据挖掘,到时候依然可以挖到大牛,甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上网络,就难了。除非将网络的数据和众大牛一起倒腾过来。
总体来看,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。
三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市
阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是“最值钱”的金数据。
数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。“大数据”浪潮袭来,阿里提出“数据、金融和平台”战略。前所未有地重视起对数据的收集、挖掘和共享。马云在“退居”前动不动都对外提“数据”。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的“数据委员会”。
阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。
就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。
计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是“建立市场”,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。 有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。
阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。
总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的“交易”生意扩展到数据。让天下没有难做的“数据生意”。
总结一下
移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。
③ 一场替换传统数据库的行动正在全球范围悄然进行
随着全球各大 科技 巨头的竞相加入,开源软件技术已经活跃在各个信息技术领域当中。其中,大数据生态成为开源技术的直接受益者。开源技术适用于庞杂的数据管理系统,带来敏捷、高效、可扩展以及可自控的管理能力,并帮助企业降低IT建设及维护成本。2018年双11当天,阿里云原生数据库PolarDB轻松应对了0点0分0秒瞬时提升122倍的数据洪峰。Netflix也采用自研开源架构Metacat将海量数据集合成一个“单一”的数据仓库,大幅提升管理能效。
当前,我国有越来越多的企业、人才加入到开源社区,贡献力也“后来居上”,共同推进开源项目、开源生态的繁荣和可持续发展。
大数据生态成为开源技术重大“受益者”
近年来,在互联网服务、多媒体以及科学研究等多个领域,都可见到大数据的身影。在大数据时代,不断增长的数据量、快速处理数据的需求以及数据类型、结构和来源的多样性给数据库敏捷、高效、可扩展性以及个性化管理带来了全新挑战。
开源技术赋能了大数据生态的高质量发展。赛迪智库信息化和软件服务业所博士蒲松涛表示,经过了数十年的发展,开源软件和开源工具已经应用到了大数据产业发展的各个环节,基于开源软件,企业可以快速构建大数据应用平台,提供丰富的大数据开发和应用工具。
当前,几乎各种规模的企业都在使用开源软件和工具做大数据处理和基于数据的预测分析。开源界也涌现出了Hadoop、OpenStack、OpenShift、Maprece、docker等引领行业技术创新方向的重量级开源项目。
华泰人寿基于OpenShift架构打造易于管理的新IT系统,以提升企业竞争力,实现业务数字化转型。在基础设施上,引入红帽OpenShift容器云解决方案和红帽Ceph分布式存储。通过将保险业务上docker云,实现华泰人寿业务的弹性伸缩和快速上线,加速其互联网保险项目快速落地。
美国知名在线影片租赁提供商Netflix也采用了大数据发现服务的开源框架Metacat。由于Netflix的数据仓库由许多大型的数据集组成,为了确保数据平台能够基腊横跨这些数据集成为一个“单一”的数据仓库,Netflix开发的元数据服务Metacat,能让数据的发生、发现、处理和管理变得更加快捷高效、处理搏逗滑精度大幅提升;同时还可兼容Spark、Presto、Pig和Hive架构。Netflix软件架构师Ajoy Majumdar指出,开放开源是身为技术公司的竞争战略,既能够将自己的解决方案建立为行业标准和最佳实践,又能建立Netflix的技术品牌,还能从共享生态中获得反馈输入并受益。
事实上,推动大数据应用高质量发展的主流开源平台还有很多,例如Spark、Shark、Bagel等。蒲松涛表示,这些开源平台大幅降低应用门槛,有效帮助企业实现工业级应用,进而带动各行业大规模部署。此外,大数据还涌现出了一批开源支线平台。其中,Storm完全摆脱了经典的MapRece架构,重新设计了一个适用于流式计算的架构,以数据流为驱动触发计算,计算时效性高,适应有向无环图计算拓扑的设计,计算方式较为灵活,在业界得到了一定的部署应用。
开源社区供需“双赢”中国力量已崛起
开源社区的建立为推动开源软件发展、构建行业竞争优势做出突出贡献,队伍的壮大需要每一位使用者持续不断的贡献智慧,以实现真正的“共赢”。开源的发展历程中,极客、大公司、商业颠覆者轮番登场,开源技术的诉求也从商业驱动向生态驱动发展。中国工程院院士廖湘科指出,开源是软件创新技术的主要来源,是生态抓手,而非赢利的切入点。
开源软件的“共享和贡献”机制吸引了众多开发者的参与,给了每一位开发者“颠覆 游戏 规则”的权利。有了这种生态的加持,信息技术将被快速推进,各个参与者将持续获利。对此,李飞飞表示,开源生态的受益者是开源技术的需求侧和供给侧双方。从供给侧角度来看,参与的人越多,思维碰撞而引发的迭代演进就会越快;从需求侧角度来看,各个企业不仅可以免除被闭源系统“技术指携绑定”,还可以在开源社区实现数据库技术迁移,企业还可针对企业技术特征进行数据库的个性定制化,实现大量的应用和代码的改造且系统间互相兼容。
中国开源软件推进联盟副 主席 兼秘书长刘澎在PostgreSQL .CN 2019上表示,当前国内越来越多的企业为开源做出重要贡献,我国的开源实力已经崛起。以华为、阿里等为代表的开源软件开发者已经逐渐与亚马逊、微软站到了同一高度,实现了从“使用者”到“引领者”的身份转变。
目前,中国企业在Linux基金会中有1个白金会员(华为),1个金牌会员(阿里云)和数十家银牌会员(包括腾讯、中国移动、联想等)。华为在多个开源社区贡献排名前列。中国工程院院士倪光南认为,华为是开源软件的优秀开发代表,通过引进、消化,实现创新发展,进而贡献给整个开源社区。
阿里云也成为 游戏 规则的重要改变者和全球云数据库领跑者之一。2018年,阿里云数据库成功进入Gartner数据库魔力象限,这是该榜单首次出现中国公司。近日,Gartner发布的全球云数据库市场份额榜单中,阿里云位居第三,超越了Oracle、IBM和谷歌。5月21日,阿里云提供传统数据库一键迁移上云能力,可以帮助企业将线下的MySQL、PostgreSQL和Oracle等数据库轻松上云,最快数小时内迁移完成。李飞飞表示,阿里云自研的PolarDB云原生数据库的分布式存储架构具有一写多度、计算与存储分离等优势,帮助淘宝交易平台应对了双11当天瞬时提升122倍的数据洪峰。
此外,国内还有包括网络、浪潮、瀚高等在内的众多企业积极参与并贡献到开源社区当中。人工智能、自动驾驶等新兴信息技术也成为开源项目的重要应用领域。
④ 如何看待阿里云大数据专业认证,值得报名吗
物联网的正常运行和发展离不开大数据研究大数据绝对离不开计算机的云计算技术计算机云技术时代的到来将大数据处理变为了现实没有计算机的云计算技术,就不会有大数据的被分析和利用。大数据技术跟计算机云计算技术的关系就像是一只手的手心和手背,是绝对的密不可分,因为分析和处理大数据是无法用某一台计算机来完成的,它必须需要采用计算机的分布式架构,处理大数据的特色就是在于对那些海量性的数据进行分布老搜式的数据挖掘,但这种分布式的大数据挖掘,还必须依托计算机的分布式处理,因为计算机的分布式数据库或是云存储以及计算机中的虚拟化技术,可以局早支撑起对大数据相关技术处理的能力。大桐含雀数据的分析必须要跟计算机的云计算技术紧密连在一起,只有这样,才能将大数据的价值变成资产性的价值,并将大数据处理真正变成一种现实。
⑤ 有哪些适合研究生阶段参加的算法/计算机比赛
适合研究生阶段参加的算法/计算机比赛有天池大数据竞赛与全国人工智能大赛。
天池大数据竞赛
2015年3月23日,阿里云计算宣布启动新一赛季的天池大数据竞赛。大赛将吸引全球新生代数据科学家,为预测手机党购物喜好、余额宝资金流动、时尚穿衣搭配,提供更精准的数据分析模型。
大数据专家、阿里巴巴集团副总裁涂子沛介绍,比赛中胜出的优秀数据模型,不仅可用于参赛者的学术研究成果,还有机会走出实验室,直接应用于淘宝、支付宝等真实的商业场景,影响中国乃至世界数以亿计的用户。
全国人工智能大赛
全国人工智能大赛(以下简称大赛)由深圳市人民政府主办,深圳市科创委、鹏城实验室及科技部指导成立的新一代人工智能产业技术创新战略联盟(AITISA,以下简称“联盟”)共同承办。
人工智能应用于4K/高清视频处理是一个非常有前景的领域,而4K/高清视频是5G时代的主流应用之一, 本届大赛设置的“AI+4K HDR”赛道代表了科技和文化深度融合的未来方向。
⑥ 数据科学平台有哪些
1. kaggle
一个比较权威的全球性的数据竞赛平台,也是一个很好的技术和数据分享社区。可以找到各个领域的比赛和数据,最重要的是可以找到很多有用的经验贴和一个开源的代码,可以帮助小白前进,小编做个几个比赛,该平台对我的帮助很大,学到很多东西。该平台的比赛工作面试时认可度比较大。链接:https://www.kaggle.com
2.天池
天池是阿里云创建的数据竞赛平台,它和 Kaggle 很像。各个领域的比赛都有,赛制持续时间较长,会有一些直播教程和专业课程,比较利于新手入门。链接:https://tianchi.aliyun.com/competition/gameList/activeList
3.DataCastle
平台上多为企业的或者政府的比赛,包含数据算法各个方向,数据量方面相对天池较少,参赛人数也次之。平台上也有类似kaggle的名人堂和和数据集,平台的社区活跃度不高。链接:https://www.dcjingsai.com/common/cmptIndex.html
4.Datafountain
DataFountain(DF)平台是CCF大数据与计算智能大赛指定的平台。CCF大数据与计算智能大赛(BigData & Computing Intelligence Contest,简称“BDCI”)是由中国计算机学会主办的大数据及人工智能领域算法挑战及应用创新大型赛事。链接:https://www.datafountain.cn
5.科赛-Kesci
科赛(Kesci.com)是聚合数据人才和行业问题的在线社区。平台2019年初开始转型,接的比赛项目奖金较高,一些大型比赛会有一些培训指南。链接:https://www.kesci.com
6.biendata
Biendata.com是一个人工智能竞赛学习平台,用户可通过该平台报名并参加人工智能领域各类赛事,奖金较丰富。链接:https://biendata.com
7.华为云
华为云平台的比赛多是基于华为的业务,有的是直接面向校招,比赛项目较多,包含软件、AI、芯片等,奖金较多,有免费的gpu算力。链接:https://competition.huaweicloud.com/competitions
7.其它平台
网络点石:http://dianshi.bce..com/competition
JDATA:https://jdata.jd.com
京东大赛 : https://jdder.jd.com
腾讯广告算法大赛:https://algo.qq.com
爱奇艺ai竞赛平台(多为视频比赛) : http://challenge.ai.iqiyi.com
图灵联邦: https://www.turingtopia.com/competitionnew
讯飞开放平台:http://challenge.xfyun.cn
Flyai:https://www.flyai.com
蚂蚁金服:https://dc.cloud.alipay.com
TinyMind: https://www.tinymind.cn/competitions/ai
拍拍贷:https://ai.ppdai.com
睡前Futurelab(只针对在校生):https://ai.futurelab.tv/contest/all
国外医学图像相关:https://grand-challenge.org/challenges
数睿思:http://www.tipdm.org/bdrace/jingsa
数愿:http://www.datadreams.org/#/raceList
⑦ 大数据的应用领域有哪些
1.了解和定位客户
这是大数据目前最广为人知的应用领域。很多企业热衷于社交媒体数据、浏览器日志、文本挖掘等各类数据集,通过大数据技术创建预测模型,从而更全面地了解客户以及他们的行为、喜好。
利用大数据,美国零售商Target公司甚至能推测出客户何时会有Baby;电信公司可以更好地预测客户流失;沃尔玛可以更准确的预测产品销售情况;汽车保险公司能更真实的了解客户实际驾驶情况。
滑雪场利用大数据来追踪和锁定客户。如果你是一名狂热的滑雪者,想象一下,你会收到最喜欢的度假胜地的邀请;或者收到定制化服务的短信提醒;或者告知你最合适的滑行线路。。。。。。同时提供互动平台(网站、手机APP)记录每天的数据——多少次滑坡,多少次翻越等等,在社交媒体上分享这些信息,与家人和朋友相互评比和竞争。
除此之外,政府竞选活动也引入了大数据分析技术。一些人认为,奥巴马在2012年总统大选中获胜,归功于他们团队的大数据分析能力更加出众。
2.了解和优化业务流程
大数据也越来越多地应用于优化业务流程,比如供应链或配送路径优化。通过定位和识别系统来跟踪货物或运输车辆,并根据实时交通路况数据优化运输路线。
人力资源业务流程也在使用大数据进行优化。Sociometric Solutions公司通过在员工工牌里植入传感器,检测其工作场所及社交活动——员工在哪些工作场所走动,与谁交谈,甚至交流时的语气如何。美国银行在使用中发现呼叫中心表现最好的员工——他们制定了小组轮流休息制度,平均业绩提高了23%。
如果在手机、钥匙、眼镜等随身物品上粘贴RFID标签,万一不小心丢失就能迅速定位它们。假想一下未来可能创造出贴在任何东西上的智能标签。它们能告诉你的不仅是物体在哪里,还可以反馈温度,湿度,运动状态等等。这将打开一个全新的大数据时代,“大数据”领域寻求共性的信息和模式,那么孕育其中的“小数据”着重关注单个产品。
3.提供个性化服务
大数据不仅适用于公司和政府,也适用于我们每个人,比如从智能手表或智能手环等可穿戴设备采集的数据中获益。Jawbone的智能手环可以分析人们的卡路里消耗、活动量和睡眠质量等。Jawbone公司已经能够收集长达60年的睡眠数据,从中分析出一些独到的见解反馈给每个用户。从中受益的还有网络平台“寻找真爱”,大多数婚恋网站都使用大数据分析工具和算法为用户匹配最合适的对象。
4.改善医疗保健和公共卫生
大数据分析的能力可以在几分钟内解码整个DNA序列,有助于我们找到新的治疗方法,更好地理解和预测疾病模式。试想一下,当来自所有智能手表等可穿戴设备的数据,都可以应用于数百万人及其各种疾病时,未来的临床试验将不再局限于小样本,而是包括所有人!
苹果公司的一款健康APP ResearchKit有效将手机变成医学研究设备。通过收集用户的相关数据,可以追踪你一天走了多少步,或者提示你化疗后感觉如何,帕金森病进展如何等问题。研究人员希望这一过程变得更容易、更自动化,吸引更多的参与者,并提高数据的准确度。
大数据技术也开始用于监测早产儿和患病婴儿的身体状况。通过记录和分析每个婴儿的每一次心跳和呼吸模式,提前24小时预测出身体感染的症状,从而及早干预,拯救那些脆弱的随时可能生命危险的婴儿。
更重要的是,大数据分析有助于我们监测和预测流行性或传染性疾病的暴发时期,可以将医疗记录的数据与有些社交媒体的数据结合起来分析。比如,谷歌基于搜索流量预测流感爆发,尽管该预测模型在2014年并未奏效——因为你搜索“流感症状”并不意味着真正生病了,但是这种大数据分析的影响力越来越为人所知。
5.提高体育运动技能
如今大多数顶尖的体育赛事都采用了大数据分析技术。用于网球比赛的IBM SlamTracker工具,通过视频分析跟踪足球落点或者棒球比赛中每个球员的表现。许多优秀的运动队也在训练之外跟踪运动员的营养和睡眠情况。NFL开发了专门的应用平台,帮助所有球队根据球场上的草地状况、天气状况、以及学习期间球员的个人表现做出最佳决策,以减少球员不必要的受伤。
还有一件非常酷的事情是智能瑜伽垫:嵌入在瑜伽垫中的传感器能对你的姿势进行反馈,为你的练习打分,甚至指导你在家如何练习。
6.提升科学研究
大数据带来的无限可能性正在改变科学研究。欧洲核子研究中心(CERN)在全球遍布了150个数据中心,有65,000个处理器,能同时分析30pb的数据量,这样的计算能力影响着很多领域的科学研究。比如政府需要的人口普查数据、自然灾害数据等,变的更容易获取和分析,从而为我们的健康和社会发展创造更多的价值。
7.提升机械设备性能
大数据使机械设备更加智能化、自动化。例如,丰田普锐斯配备了摄像头、全球定位系统以及强大的计算机和传感器,在无人干预的条件下实现自动驾驶。Xcel Energy在科罗拉多州启动了“智能电网”的首批测试,在用户家中安装智能电表,然后登录网站就可实时查看用电情况。“智能电网”还能够预测使用情况,以便电力公司为未来的基础设施需求进行规划,并防止出现电力耗尽的情况。在爱尔兰,杂货连锁店Tescos的仓库员工佩戴专用臂带,追踪货架上的商品分配,甚至预测一项任务的完成时间。
8.强化安全和执法能力
大数据在改善安全和执法方面得到了广泛应用。美国国家安全局(NSA)利用大数据技术,检测和防止网络攻击(挫败恐怖分子的阴谋)。警察运用大数据来抓捕罪犯,预测犯罪活动。信用卡公司使用大数据来检测欺诈交易等等。
2014年2月,芝加哥警察局对大数据生成的“名单”——有可能犯罪的人员,进行通告和探访,目的是提前预防犯罪。
9.改善城市和国家建设
大数据被用于改善我们城市和国家的方方面面。目前很多大城市致力于构建智慧交通。车辆、行人、道路基础设施、公共服务场所都被整合在智慧交通网络中,以提升资源运用的效率,优化城市管理和服务。
加州长滩市正在使用智能水表实时检测非法用水,帮助一些房主减少80%的用水量。洛杉矶利用磁性道路传感器和交通摄像头的数据来控制交通灯信号,从而优化城市的交通流量。据统计目前已经控制了全市4500个交通灯,将交通拥堵状况减少了约16%。
10.金融交易
大数据在金融交易领域应用也比较广泛。大多数股票交易都是通过一定的算法模型进行决策的,如今这些算法的输入会考虑来自社交媒体、新闻网络的数据,以便更全面的做出买卖决策。同时根据客户的需求和愿望,这些算法模型也会随着市场的变化而变化。
⑧ 云计算智能化演进,巨头们的思与行
“过去我们常常把云计算、大数据挂在嘴边,现在来看应该是云数据、大计算”,在5月的云栖大会成都峰会上,阿里云资深总监肖力在《通往智能之路》的演讲中如是说。
肖力的观点不难理解,数据的价值不在于“大”,重要的是在线,只有打破数据孤岛,让数据发生更多的汇聚,更多的交换,更多的更新和挖掘,才能产生更大的价值。同时,这一观念背后也揭示了一个趋势:云计算巨头们开始将“智能”纳入了战略框架,或是“智能”为云计算带来的红利。
云计算如何把智能变成一种普惠科技?
正如前面所说,阿里云已经开始了一场智能化演进,并成为今年云栖大会各个峰会的主题,背后所承载的是阿里云的一系列实践。
今年3月份,阿里云正式发布了机器学习平台PAI2.0,将人工智能技术引入云计算。不同于其他巨头的智能云计算大多停留在“思”的层面,阿里云的ET已经开始遍地开花,诸如ET医疗大脑、ET工业大脑、城市大脑等等,并将大数据、人工智能等技术应用于安全智能化。
值得一提的是阿里云还在在各地积极举办天池AI大赛,鼓励开发者利用云计算和人工智能去解决更多的实际问题。
当然,如果只是阿里云的单方面突围,并以此来判定云计算的发展趋势,不免有些武断。事实上,包括亚马逊、微软、谷歌等在内的云计算巨头们,在云计算的智能化演进上做出了和阿里云相似的选择。
不久前结束的Google Cloud Next’17大会上,一个积极的信号就是在云计算领域步伐稍显缓慢的谷歌试图开启智能云计算的新时代,比如推出了全新的机器学习KPI,全球最大的机器学习及数据科学竞赛平台Kaggle被谷歌收入囊中,以及为迪士尼、Verizon、SAP等重磅客户提供了更智能的云端解决方案。
无独有偶,2015年中旬的时候,微软就低调地把Azure的定位修正为智能云,尽管彼时的“智能云”还停留在概念阶段。在刚刚落幕的Build2017开发者大会上,微软公布了云计算在智能化方面的新举措,包括将云计算的智能扩展到物联网边缘设备的Azure IoT Edge,全新开发的数据库服务Azure Cosmos DB等等。
亚马逊作为目前最大的云计算服务商,在智能化方面表现出了前所未有的“敏感”。在去年年底举办的AWS re:invent大会上,AWS正式推出了自己的AI产品线,包括图像识别工具Rekognition,文本转语音服务Amazon Polly,以及亚马逊人工智能助手Alexa的内核Lex。
原因似乎不难理解,云计算早已不再是计算能力的单维竞争,“更聪明的云服务”才能制造更大的价值。
站在开发者的角度来看,云服务的趋势是让一切变得更加“简单”。而计算能力是一种基础资源,如何将计算能力变成服务是云服务平台们需要思索的,特别是人工智能技术逐步落地之后,更加聪明的云服务也日渐成为一种新需求。
安全智能化的趋势和行业变革
在云计算的业务矩阵中,安全无疑是决定客户“用脚投票”的诱因之一。市场研究机构Market Research Future的报告显示,全球云安全市场在2022年达130亿美元,复合年均增长达17%。另一家研究机构Gartner也给出了类似的观点,认为安全性将在2018年的时候取代成本和敏捷性成为政府部门采用云服务的首要原因。在这个背景下,安全智能化已经成为巨头们发力的对象。
从巨头们的动作上来看,微软的Azure Security Center发布了多项威胁检测能力,同时Office365也提供了智能威胁感知和高级数据治理功能;谷歌在云安全策略上同样表现出了与时俱进的态度,在布局上从传统的云安全平台延伸到安全芯片领域。
然而在安全领域走的最远的,恐怕非阿里云莫属。
肖力在云栖大会成都峰会上做了一个大胆的预测:未来,安全将迈入机器学习和人工智能时代。阿里云每天帮助国内37%的网站成功抵御16亿次攻击、防御2000次DDoS攻击、2亿次暴力破解,以及300万次Web攻击防御。这个成绩与人工智能和大数据的应用不无关系。
且从阿里云及同行者的安全服务上可以洞见出两个趋势:
其一,大数据和深度学习正在逐渐被应用在安全服务中,提升安全管理的效能。
今年年初的RSA 2017上,全球安全专家们的观点预示了云安全的三大趋势,即安全防御技术走向智能化、人工智能和机器学习等技术的产品化、从IT驱动安全转向业务驱动安全。
在笔者看来,“机器学习”和“人工智能”并不是战无不胜的武器,这是很多主打“智能“的安全初创企业一个误区。
阿里云的做法是:从算法改良做起,用“人工智能”和“机器学习”去优化产品的现有功能。例如阿里云云盾的安全大数据分析平台“态势感知”,基于算法和模型进行威胁分析和风险评判,颠覆了以往基于规则的安全检测。
又比如游戏行业的风控模式“游戏盾”,作为阿里云云盾在游戏行业安全风控的新模式,技术基础同样是智能调度算法。与传统单点防御的DDoS防御方案相比,“游戏盾”用数据和算法来实现智能调度,将“正常玩家”流量和“黑客攻击”流量快速分流至不同的节点,最大限度的缓解了大流量攻击。
其二,人工智能正在逐步减少对安全分析师的依赖。
人工智能取代人力业已成为整个互联网行业争论的焦点,麦肯锡也曾大篇幅预测过哪些职位将被机器淘汰。在安全领域,肖力提出了“智能防御”的概念,用大数据分析与算法优化安全防护能力,意味着“用更少的人,做更多的事。”云安全已然成为人工智能技术落地的先行者之一。
事实上,在早些时候的RSA 2017上,肖力就曾对“数据智能”的必然做出过解释:一家企业的访问量达到数亿,如果靠人工来判断每一个请求是否安全,显然不可能做到。以前大部分人的方法是使用“规则”,把经验写成规则来“过滤”非法请求。但是,随着攻击者的“玩法”越来越高级,传统的过滤方法可以被轻易绕过,安全研究员们必须找到一种“新的”“自动化”的方法来发现风险和攻击者。
按照国外已有的先例,知名的数据智能公司Splunk将用户的各方面数据统一导入大数据平台,制造出可以分析威胁的引擎,已经成为了行业的最佳实践模型包。在RSA“创新沙盒”大赛上,拔得头筹的UnifyID核心仍是把来自IoT设备的海量数居上传到云端,通过机器学习的方法判定:哪些设备是可信的,从而识别设备背后的人的身份,保护系统、数据安全。不一而足。
总的来说,在云计算巨头们的努力下,人工智能将变成门槛更低的普惠科技,且这个趋势将渗透到云服务的方方面面,诸如在安全等领域已经可以感知到智能带来的能效提升及人力资源的重新分配。
阿里云、AWS等巨头们已经在行动和思维上拥抱智能化,相信云计算的智能化时代即将来临。