Ⅰ 如何解决大数据4个特点带来的四个困难
我觉得大数据是现代非常值得研究关注的一个课题,困难很多。
Ⅱ 大数据分析主要会遇到的困难有哪些
大数据分析的主要困难有线下经营公司it人员缺乏,投资回报率难以确定,企业信息孤岛及非结构化数据,客户隐私纠纷,传统经营理念根深蒂固。
推荐看下这篇文章《通往数据分析成功之路的五大挑战》,说的很详细~
Ⅲ 鎴戝浗澶ф暟鎹涓蹇冨彂灞曢潰涓村摢浜涢棶棰樹笌鎸戞垬
鎴戝浗澶ф暟鎹涓蹇冨彂灞曢潰涓寸殑闂棰樹笌鎸戞垬涓昏佸寘鎷浠ヤ笅鍑犱釜鏂归潰锛
1. 鏁版嵁瀹夊叏涓庨殣绉佷繚鎶わ細闅忕潃澶ф暟鎹鐨勫箍娉涘簲鐢锛屾暟鎹瀹夊叏鍜岄殣绉佷繚鎶ゆ垚涓洪噸瑕佺殑闂棰樸傚ぇ鏁版嵁涓蹇冮渶瑕佺‘淇濇暟鎹涓嶈鏈缁忔巿鏉冪殑浜哄憳鎴栫粍缁囪幏鍙栵紝鍚屾椂涔熻佺﹀悎鐩稿叧鐨勯殣绉佷繚鎶ゆ硶瑙勫拰鏍囧噯銆
2. 鏁版嵁鍏变韩涓庢暣鍚堬細澶ф暟鎹鐨勫簲鐢ㄩ渶瑕佸ぇ閲忕殑鏁版嵁锛屼絾鐩鍓嶆垜鍥界殑鏁版嵁鏁村悎鍜屽叡浜杩樺瓨鍦ㄤ竴浜涢棶棰樸備笉鍚岄儴闂ㄣ佷笉鍚屽湴鍖虹殑鏁版嵁鏍囧噯涓嶇粺涓锛屾暟鎹瀛ゅ矝鐜拌薄杈冧负鏅閬嶏紝杩欑粰澶ф暟鎹鐨勫垎鏋愬拰搴旂敤甯︽潵浜嗕竴瀹氱殑鍥伴毦銆
3. 鎶鏈涓庝汉鎵嶇煭缂猴細澶ф暟鎹鎶鏈鍙戝睍杩呴燂紝鎴戝浗鍦ㄧ浉鍏虫妧鏈鏂归潰鐨勭爺鍙戝拰搴旂敤姘村钩杩橀渶瑕佽繘涓姝ユ彁鍗囥傚悓鏃讹紝澶ф暟鎹浜烘墠鐭缂轰篃鏄褰撳墠闈涓寸殑闂棰橈紝灏ゅ叾鏄鍏峰囨暟鎹鍒嗘瀽銆佹暟鎹鎸栨帢绛夋妧鑳界殑澶嶅悎鍨嬩汉鎵嶆洿涓虹揣缂恒
4. 娉曡勪笌鏀跨瓥鐜澧冿細澶ф暟鎹涓蹇冪殑杩愯惀鍜岀$悊闇瑕佺浉搴旂殑娉曡勫拰鏀跨瓥鐜澧冩敮鎸併傜洰鍓嶆垜鍥藉湪鐩稿叧娉曡勫拰鏀跨瓥鏂归潰杩樺瓨鍦ㄤ竴浜涗笉瀹屽杽鐨勫湴鏂癸紝闇瑕佽繘涓姝ュ畬鍠勩
5. 鑳芥簮涓庣幆澧冮棶棰橈細澶ф暟鎹涓蹇冪殑杩愯惀闇瑕佸ぇ閲忕殑鐢靛姏鍜屽喎鍗磋惧囷紝浠ヤ繚鎸佹暟鎹涓蹇冪殑姝e父杩愯屻傛垜鍥界洰鍓嶉潰涓寸潃鐢靛姏渚涘簲绱у紶鍜岀幆澧冩薄鏌撶瓑闂棰橈紝杩欑粰澶ф暟鎹涓蹇冪殑鍙戝睍甯︽潵浜嗕竴瀹氱殑鎸戞垬銆
涓轰簡搴斿硅繖浜涙寫鎴橈紝鎴戝浗搴旇ュ姞寮烘暟鎹瀹夊叏鍜岄殣绉佷繚鎶ゆ妧鏈鐨勭爺鍙戝拰搴旂敤锛屾帹鍔ㄦ暟鎹鏁村悎鍜屽叡浜宸ヤ綔锛屽姞寮哄ぇ鏁版嵁鎶鏈浜烘墠鐨勫煿鍏诲拰寮曡繘锛屽畬鍠勭浉鍏虫硶瑙勫拰鏀跨瓥鐜澧冿紝骞剁Н鏋佹帰绱㈢豢鑹茶兘婧愬拰鐜淇濇妧鏈鍦ㄥぇ鏁版嵁涓蹇冪殑搴旂敤銆
Ⅳ 盘点2021年大数据分析常见的5大难点!
2021年已经到来,现在是深入研究大数据分析面临的挑战的时候了,需要调查其根本原因,本文重点介绍了解决这些问题的潜在解决方案。
1、解决方案无法提供新见解或及时的见解
(1)数据不足
有些组织可能由于分析数据不足,无法生成新的见解。在这种情况下,可以进行数据审核,并确保现有数据集成提供所需的见解。新数据源的集成也可以消除数据的缺乏。还需要检查原始数据是如何进入系统的,并确保所有可能的维度和指标均已经公开并进行分析。最后,数据存储的多样性也可能是一个问题。可以通过引入数据湖来解决这一问题。
(2)数据响应慢
当组织需要实时接收见解时,通常会发生这种情况,但是其系统是为批处理而设计的。因此有些数据现在仍无法使用,因为它们仍在收集或预处理中。
检查组织的ETL(提取、转换、加载)是否能够根据更频繁的计划来处理数据。在某些情况下,批处理驱动的解决方案可以将计划调整提高两倍。
(3)新系统采用旧方法
虽然组织采用了新系统。但是通过原有的办法很难获得更好的答案。这主要是一个业务问题,并且针对这一问题的解决方案因情况而异。最好的方法是咨询行业专家,行业专家在分析方法方面拥有丰富经验,并且了解其业务领域。
2、不准确的分析
(1)源数据质量差
如果组织的系统依赖于有缺陷、错误或不完整的数据,那么获得的结果将会很糟糕。数据质量管理和涵盖ETL过程每个阶段的强制性数据验证过程,可以帮助确保不同级别(语法、语义、业务等)的传入数据的质量。它使组织能够识别并清除错误,并确保对某个区域的修改立即显示出来,从而使数据纯净而准确。
(2)与数据流有关的系统缺陷
过对开发生命周期进行高质量的测试和验证,可以减少此类问题的发生,从而最大程度地减少数据处理问题。即使使用高质量数据,组织的分析也可能会提供不准确的结果。在这种情况下,有必要对系统进行详细检查,并检查数据处理算法的实施是否无故障
3、在复杂的环境中使用数据分析
(1)数据可视化显示凌乱
如果组织的报告复杂程度太高。这很耗时或很难找到必要的信息。可以通过聘请用户界面(UI)/用户体验(UX)专家来解决此问题,这将帮助组织创建引人注目的用户界面,该界面易于浏览和使用。
(2)系统设计过度
数据分析系统处理的场景很多,并且为组织提供了比其需要还要多的功能,从而模糊了重点。这也会消耗更多的硬件资源,并增加成本。因此,用户只能使用部分功能,其他的一些功能有些浪费,并且其解决方案过于复杂。
确定多余的功能对于组织很重要。使组织的团队定义关键指标:希望可以准确地测量和分析什么,经常使用哪些功能以及关注点是什么。然后摒弃所有不必要的功能。让业务领域的专家来帮助组织进行数据分析也是一个很好的选择。
4、系统响应时间长
(1)数据组织效率低下
也许组织的数据组织起来非常困难。最好检查其数据仓库是否根据所需的用例和方案进行设计。如果不是这样,重新设计肯定会有所帮助。
(2)大数据分析基础设施和资源利用问题
问题可能出在系统本身,这意味着它已达到其可扩展性极限,也可能是组织的硬件基础设施不再足够。
这里最简单的解决方案是升级,即为系统添加更多计算资源。只要它能在可承受的预算范围内帮助改善系统响应,并且只要资源得到合理利用就很好。从战略角度来看,更明智的方法是将系统拆分为单独的组件,并对其进行独立扩展。但是需要记住的是,这可能需要对系统重新设计并进行额外的投资。
5、维护成本昂贵
(1)过时的技术
组织最好的解决办法是采用新技术。从长远来看,它们不仅可以降低系统的维护成本,还可以提高可靠性、可用性和可扩展性。逐步进行系统重新设计,并逐步采用新元素替换旧元素也很重要。
(2)并非最佳的基础设施
基础设施总有一些优化成本的空间。如果组织仍然采用的是内部部署设施,将业务迁移到云平台可能是一个不错的选择。使用云计算解决方案,组织可以按需付费,从而显著降低成本。
(3)选择了设计过度的系统
如果组织没有使用大多数系统功能,则需要继续为其使用的基础设施支付费用。组织根据自己的需求修改业务指标并优化系统。可以采用更加符合业务需求的简单版本替换某些组件。
Ⅳ 认清现实吧 中国大数据产业的痛点和困难
认清现实吧 中国大数据产业的痛点和困难
大数据作为一个新兴的产业,一直在处于舆论的风口浪尖。就像互联网+的概念一样,大数据被神话了,被送上了“宗教”的神坛。大数据企业总是有一个担心,生怕大数据被捧得的太高,将来可能会被摔的很惨。
2015年中国大数据产业的热度从贵阳大数据交易所开始,到9月国务院的2015第50号文《促进大数据发展行动纲要》进入高峰,相信10月份的乌镇互联网大会上,大数据还会是一个大的热点。
大数据论坛上,数据产品和解决方案被介绍的很多。数据给企业带来的具体价值、数据应用场景、大数据产业的痛点介绍的很少。中国大数据产业经历着很多痛苦,大数据产业前景很好,但是大数据企业却很难做大,很难实现质的飞跃。中国大数据产业的痛点和困难如下。
1 大数据企业众多而弱小,很难实现产业优势中国大数据企业大概有200多家,将近60%集中在北京,以小微企业为主,年销售额达到十亿人民币的企业几乎没有。大数据产业处于春秋时代早期,各家诸侯割地而立,每家占领了一块小的细分领域,很难做大,都面临着同行的激烈竞争,有的领域例如舆情监控已成为红海。
大数据企业人数大多在几十人到几百人,少有千人以上的企业。没有一家大数据企业可以统领一个行业,没有一家企业占有细分市场10%的份额,没有一家大数据企业建立了行业标准,领导行业发展。
中国大数据产业处于极度分散状态,优秀的人才分布在不同企业,很难形成人才合力。各家企业规模小,很难在企业做深做大,很难利用大数据帮助企业实现业务提升。大多数企业的工具和数据很难满足企业整体的数据要求,中国的数据挖掘和分析产品也很难和国外的产品进行竞争。
大数据产业如果要形成产业优势,必须需要一批领军企业。参考国外大数据产业,中国在大数据基础架构,数据产品,数据工具、数据清洗和数据挖掘、数据分析、数据人才都需要产生一批标杆企业。每个领军企业都规模应该在千人以上,销售额应该在百亿以上,否则很难形成技术和人才优势,也很难利用大数据帮助客户实现业务提升。
贵阳大数据交易所《2015年中国大数据交易白皮书》提到2014年中国大数据市场规模为767亿元。这个数字看上去不错,估计其实真正和大数据工具和大数据产品相关的不足20%(业务价值提升)。大多数的经费都用于大数据基础平台(存储和计算)、咨询、报告等和业务价值提升相关度不大的领域。中国大数据市场销售额大多数集中在传统的IT企业例如IBM,Oracle,EMC,Intel,华为,联想等。真正大数据企业所有市场份额加起来可能就在百亿元左右。
中国大数据企业规模过小,领军企业缺少,行业过于分散,这些都是制约中国大数据产业发展的因素,也是产业做大的一个痛点。
2 外部数据是一个个孤岛,数据价值低数据是大数据产业发展的基础,具有商业价值的数据可以帮助企业洞察客户、数字化运营、风险管控、精准营销、预测和决策等。具有商业价值的数据和商业分析真正能够帮助企业提升业务,创造出新的价值。
中国的大数据市场还不成熟,很多大数据企业拥的数据都是片段的数据,很难形成完整的,具有商业价值的数据。大数据市场的数据质量和企业的数据需求有较大的差距。外部数据大多处于孤岛状态,数据之间很少流动和整合;孤立、不流动、没有整合的数据很难帮到企业,很多需要数据的企业不得不从多个大数据企业采购数据,效率很低,采购来的数据价值不高,数据整合的难度较大,数据采购的整体费用过高。
大家都看到了数据分散的弊端,于是很多地方都建立了大数据交易市场,帮助大家进行数据交易和数据采购。由于缺少法律保护,很多企业不太想在交易市场进行数据交易,往往还是采用一对一的数据交易,这种交易方式可以保护交易双方的利益。具有商业价值的数据还在开发中,大数据交易市场,缺少大量可以进行交易的数据。大数据交易市场这种商业模式,还需要用很长的时间去证明。
中国质量最好的数据在金融行业、BAT、电信运营商,这些企业比较谨慎,很难向外部输出数据。这三大行业自身的主营业务也不在数据,其数据产品生产和输出的愿望也不强烈。政府的数据正在逐步开放,但是其数据质量、集中度、输出方式等多存在很大多挑战。在中国大规模的数据开放,至少需要3年时间才能达到商业应用要求。
3 大多数企业客户,对数据商业应用敏感度低大多数企业对数据有需求,但是其对数据商业敏感度很低。对数据商业应用的场景以及数据技术了解很少。即使是数据商业敏感度较高的银行,至少要沟通三次以上,其才能够建立起数据价值理念。其他行业例如制造业,房地产业,零售业,他们的数据商业敏感度更低。甚至万科的王石也大声疾呼,不要和房地产业谈大数据应用,房产行业数据还不全,很多还是手工数据。于是某个领先的电商开始帮助万科进行数据规划建设,研究大数据在房地产行业的应用。
已有的大数据企业商业案例中,大部分都是大数据企业主动去找客户谈合作,为企业提供数据产品、数据工具或数据技术,目的是帮助企业提升业务。但是这种商业模式很累,市场很难被引爆,被动的数据商业应用,往往和业务结合较弱,无法迅速帮助企业利用数据提升业务,同时也无法解决业务发展瓶颈。
企业内部人士深度了解业务需求,他们缺少的是市场数据和消费者反馈,缺少的数据分析方法和工具。企业内部人士更应该成为大数据商业应用的主力,参加一些行业活动,从需求出发,主动寻找数据和解决方案。移动互联网时代,商业竞争策略很清晰,一个是快,一个是要利用数据进行决策。
大数据产业的发展,不仅仅是大数据企业自身的事情,也是各家企业自身的事情。企业客户也应该依据业务需要,主动到市场寻找数据和解决方案,提升数据商业敏感度,从业务场景出发,寻找具有价值的数据。
4大数据技术和产品同业务结合深度不够市场上所有大数据企业和客户都面临一个难题,就是数据解决方案同客户业务结合的深度不够,数据对业务整体推动效果不如期望,这也是大数据产业爆发的一个痛点。由于外部数据质量、企业用户数据敏感度、企业管理方式、商业数据人才等问题,大数据解决方案很难和业务深度结合。
大数据核心价值就是揭示事务发展规律,帮助企业利用数据进行科学决策。目前大数据的商业应用领域主要集中在数据采集、数据存储、数据计算、用户画像、精准营销等领域。大数据最具商业价值的预测和辅助决策功能并没有被充分利用。特别是在重大战略决策方面,大数据的作用并不明显。企业的产品开发,市场策略,战略决策还是依靠过去的精英决策和经验主义。未来社会只有两类企业,一种是利用数据发展的企业,另外一种是不重视数据被淘汰的企业。
大数据企业如果想发展壮大,如果想成为行业领先的企业,其必须放弃短期利益,深入到客户的运营中去,了解客户的数据,了解客户的业务,了解客户的商业需求。同时利用数据了解客户,了解市场,了解业务场景。数据和业务深度结合的核心是掌握正确的数据、正确的方法、正确的工具。业务人员要懂数据,技术人员要懂业务。复合型数据人才是数据生意的关键,业务人员掌握数据技术的门槛较高,但是技术人员了解业务的门槛很低,复合性人才倾向于从技术人才培养开始。
企业内部的数据人才和大数据企业的数据人才需要互相学习,了解对方环境和需求,在同一个平台上进行对话和沟通。数据团队需要深入了解业务场景和背后的规律,从业务出发,从场景出发,从数据出发,将大数据解决方案同业务深度结合,利用数据推动业务发展,发挥大数据预测规律的核心价值。
5 专业数据挖掘工具和人才缺失传统的数据挖掘工具和BI系统存在很久了,通过各类报表展示,让管理层了解企业运营信息,过去的确帮助企业提高管理水平,达到了预期目的。
在大数据时代,企业需要的是实时数据,需要的是高效工具,需要的是决策支持和预测。传统的数据挖掘工具的性能和灵活性已经不能满足企业的需要,另外非机构化数据的应用也对传统数据工具提出了挑战。BI领域中的SAS,SPSS,TD等数据工具越来越被边缘化,R语言正在成为数据统计和可视化的新宠。
数据的时间价值正在得到重视,特别是金融企业,所有的业务部门都期望在最短的时间里,看到资金使用情况,客户交易情况,风险管控情况。企业越早了解信息,就会越早进行决策,时间就是Money。过去数据需求可能是T+5或者T+30,现在的数据需求往往是T+1或者T+0,数据实时性、准确性、相关度被提到了一个非常重要的地位。业务的需求已经很明显了,但是数据工具和人才却是一个很大的挑战。
中国200多家大数据企业,看到了大数据产业的曙光,看到了大数据产业的价值,同时也在经历着大数据企业的痛苦。大数据产业发展很快,市场正在逐步变大,但是其产业优势不明显,优势企业很少,数据商业化较慢,市场还不成熟,客户数据商业敏感度较低,缺乏高质量数据工具和人才。所有大数据企业内心的感受就是,站在了时代的风口,选对了方向和行业,但是发展壮大还是很难。200多家大数据企业正在努力耕耘着大数据产业,痛并快乐着。
以上是小编为大家分享的关于认清现实吧 中国大数据产业的痛点和困难的相关内容,更多信息可以关注环球青藤分享更多干货
Ⅵ 云计算时代大数据遇到哪些困难
现阶断大数据的困难主要在如下几点:
1、信息壁垒降低了大数据产业专资源配置效率。大数据属产业发展必须实现数据信息的自由流动和共享,如果数据不开放、不共享,数据整合就不能实现,数据价值也会大大降低。
2、 政府部门是社会信息的主要控制者,其信息又分别被不同部门和区域控制,而不同部门和区域间的数据标准各异,信息资源也就难以实现共享。
3、数据安全管理薄弱增加了大数据产业的发展风险。
数据安全和隐私保护是大数据产业发展的世界性难题,这主要体现在三个方面:其一,数据的海量存储增加了数据安防的难度,可能造成大量数据损坏或丢失,造成难以想象的后果;其二,在大数据时代,数据的多元性和复杂性要求人们形成更强的安全意识,但现实中不论企业还是个人的安全意识还没有从传统的非信息时代转变过来,存在巨大潜在风险;其三,网络攻击带来了数据安全风险,随着大数据在政府、金融、公共事业等领域的广泛运用,数据泄露带来的损失远远超出行业范畴,而是全局性的国家安全问题。
Ⅶ 如何应对物联网时代下数据采集的机遇与挑战
大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。
大数据时代的来临
互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1024MB),2014年将是10GB。全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。我国网民数居世界之首,每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。网络公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。总之,大数据存在于各行各业,一个大数据时代正在到来。
信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。2007年全球有5亿个设备联网,人均0.1个;2013年全球将有500亿个设备联网,人均70个。随着宽带化的发展,人均网络接入带宽和流量也迅速提升。全球新产生数据年增40%,即信息总量每两年就可以翻番,这一趋势还将持续。目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。
数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。首先,大数据反映舆情和民意。网民在网上产生的海量数据,记录着他们的思想、行为乃至情感,这是信息时代现实社会与网络空间深度融合的产物,蕴含着丰富的内涵和很多规律性信息。根据中国互联网络信息中心统计,2012年底我国网民数为5.64亿,手机网民为4.2亿,通过分析相关数据,可以了解大众需求、诉求和意见。其次,企业和政府的信息系统每天源源不断产生大量数据。根据赛门铁克公司的调研报告,全球企业的信息存储总量已达2.2ZB(1ZB等于1000EB),年增67%。医院、学校和银行等也都会收集和存储大量信息。政府可以部署传感器等感知单元,收集环境和社会管理所需的信息。2011年,英国《自然》杂志曾出版专刊指出,倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥科学技术对社会发展的巨大推动作用。
大数据应用的领域
大数据技术可运用到各行各业。宏观经济方面,IBM日本公司建立经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算采购经理人指数的预测值。印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。制造业方面,华尔街对冲基金依据购物网站的顾客评论,分析企业产品销售状况;一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。有资料显示,全球零售商因盲目进货导致的销售损失每年达1000亿美元,这方面的数据分析大有作为。
在农业领域,硅谷有个气候公司,从美国气象局等数据库中获得几十年的天气数据,将各地降雨、气温、土壤状况与历年农作物产量的相关度做成精密图表,预测农场来年产量,向农户出售个性化保险。在商业领域,沃尔玛公司通过分析销售数据,了解顾客购物习惯,得出适合搭配在一起出售的商品,还可从中细分顾客群体,提供个性化服务。在金融领域,华尔街“德温特资本市场”公司分析3.4亿微博账户留言,判断民众情绪,依据人们高兴时买股票、焦虑时抛售股票的规律,决定公司股票的买入或卖出。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和讲究诚信的企业,对他们发放无需担保的贷款。目前已放贷300多亿元,坏账率仅0.3%。
在医疗保健领域,“谷歌流感趋势”项目依据网民搜索内容分析全球范围内流感等病疫传播状况,与美国疾病控制和预防中心提供的报告对比,追踪疾病的精确率达到97%。社交网络为许多慢性病患者提供临床症状交流和诊治经验分享平台,医生借此可获得在医院通常得不到的临床效果统计数据。基于对人体基因的大数据分析,可以实现对症下药的个性化治疗。在社会安全管理领域,通过对手机数据的挖掘,可以分析实时动态的流动人口来源、出行,实时交通客流信息及拥堵情况。利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。美国麻省理工学院通过对十万多人手机的通话、短信和空间位置等信息进行处理,提取人们行为的时空规律性,进行犯罪预测。在科学研究领域,基于密集数据分析的科学发现成为继实验科学、理论科学和计算科学之后的第四个范例,基于大数据分析的材料基因组学和合成生物学等正在兴起。
麦肯锡公司2011年报告推测,如果把大数据用于美国的医疗保健,一年产生潜在价值3000亿美元,用于欧洲的公共管理可获得年度潜在价值2500亿欧元;服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元;利用大数据分析,零售商可增加运营利润60%,制造业设备装配成本会减少50%。
大数据技术的挑战和启示
目前,大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。首先在数据收集方面。要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。第三是数据处理。有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。第四是结果的可视化呈现,使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。
大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。
为了开发大数据这一金矿,我们要做的工作还很多。首先,大数据分析需要有大数据的技术与产品支持。发达国家一些信息技术(IT)企业已提前发力,通过加大开发力度和兼并等多种手段,努力向成为大数据解决方案提供商转型。国外一些企业打出免费承接大数据分析的招牌,既是为了练兵,也是为了获取情报。过分依赖国外的大数据分析技术与平台,难以回避信息泄密风险。有些日常生活信息看似无关紧要,其实从中也可摸到国家经济和社会脉搏。因此,我们需要有自主可控的大数据技术与产品。美国政府2012年3月发布《大数据研究与发展倡议》,这是继1993年宣布“信息高速公路”之后又一重大科技部署,联邦政府和一些部委已安排资金用于大数据开发。我们与发达国家有不少差距,更需要国家政策支持。
中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。例如,提供各地天气与航班延误的关系,推动航空公司提升正点率。
大数据的挖掘与利用应当有法可依。去年底全国人大通过的加强网络信息保护的决定是一个好的开始,当前要尽快制定“信息公开法”以适应大数据时代的到来。现在很多机构和企业拥有大量客户信息。应当既鼓励面向群体、服务社会的数据挖掘,又要防止侵犯个体隐私;既提倡数据共享,又要防止数据被滥用。此外,还需要界定数据挖掘、利用的权限和范围。大数据系统本身的安全性也是值得特别关注的,要注意技术安全性和管理制度安全性并重,防止信息被损坏、篡改、泄露或被窃,保护公民和国家的信息安全。
大数据时代呼唤创新型人才。盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万—49万,缺口14万—19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。
大数据是新一代信息技术的集中反映,是一个应用驱动性很强的服务领域,是具有无穷潜力的新兴产业领域;目前,其标准和产业格局尚未形成,这是我国实现跨越式发展的宝贵机会。我们要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手,但要注意科学规划,切忌一哄而上。