导航:首页 > 网络数据 > 推进大数据碰到的问题

推进大数据碰到的问题

发布时间:2024-04-19 03:03:21

A. 我国发展大数据存在哪些问题

您好,一是信息孤岛普遍存在。跨部门、跨行业的数据共享仍不顺畅,有价值的公共信息资源和商业数据开放程度低,基本处于死锁状态,无法顺畅流动。
二是对大数据产业发展规律认识不足。全社会尚未形成对大数据产业发展规律的客观、科学的认识,一些地方误将数据中心建设视为大数据产业发展重点,盲目追逐硬件设施投资,轻视了数据资源汇聚、积累、处理与应用能力建设,未能主动推进大数据产业发展与应用需求间的对接。
三是技术创新与支撑能力不足。大数据需要从底层芯片到基础软件再到应用分析软件等信息产业全产业链的支撑,无论是新型计算平台、分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较大差距,难以满足各行各业大数据应用需求。
四是数据资源建设和应用水平低。用户普遍不重视数据资源的建设,即使有数据意识的机构也大多只重视数据的简单存储,很少针对后续应用需求进行加工整理。数据资源普遍存在质量差,标准规范缺乏,管理能力弱,数据价值难以被有效挖掘利用的问题。
五是信息安全和数据管理体系尚未建立。数据所有权、隐私权等相关法律法规和信息安全、开放共享等标准规范缺乏,技术安全防范和管理能力不够,尚未建立起兼顾安全与发展的数据开放、管理和信息安全保障体系,制约了大数据发展。
六是人才队伍建设亟须加强。综合掌握数学、统计学、计算机等相关学科及应用领域知识的综合性数据科学人才缺乏,远不能满足发展需要,尤其是缺乏既熟悉行业业务需求,又掌握大数据技术与管理的综合型人才。

B. 澶ф暟鎹鐨勫紛绔鏄浠涔

1. 缃戠粶璇堥獥娉涙互锛氶殢鐫澶ф暟鎹鐨勬櫘鍙婏紝缃戠粶璇堥獥鎵嬫垫棩鐩婄炕鏂帮紝缁欏叕浼楀甫鏉ヤ簡宸ㄥぇ鐨勫畨鍏ㄦ寫鎴樸備汉浠蹇呴』鎻愰珮璀︽儠锛屼笉鏂鍗囩骇闃茶寖鎺鏂斤紝浠ュ簲瀵硅繖涓濞佽儊绀句細绋冲畾鐨勯棶棰樸
2. 闅愮佷繚鎶ら毦棰橈細澶ф暟鎹鏃朵唬锛屼釜浜洪殣绉佹硠闇茬殑椋庨櫓澧炲姞锛屽艰嚧鍚堟硶鏉冪泭鍙楁崯銆傚繀椤婚噰鍙栨湁鏁堟帾鏂斤紝鍔犲己瀵逛釜浜轰俊鎭鐨勪繚鎶わ紝纭淇濋殣绉佹潈涓嶅彈渚电姱銆
3. 缃戠粶鎴愮樉椋庨櫓锛氬ぇ鏁版嵁鎻愪緵鐨勪釜鎬у寲鎺ㄨ崘鍙鑳戒績浣夸汉浠杩囧害渚濊禆缃戠粶骞冲彴锛屽炲姞缃戠粶鎴愮樉鐨勯庨櫓锛屽奖鍝嶇幇瀹炵敓娲讳腑鐨勭ぞ浜ゅ拰鍔熻兘銆
4. 淇冭繘鎯版э細澶ф暟鎹甯︽潵鐨勪究鍒╁彲鑳藉姪闀夸汉浠鐨勬儼鎬э紝鍑忓皯鑷涓诲姫鍔涳紝褰卞搷宸ヤ綔鏁堢巼鍜岀敓娲昏川閲忋
5. 绀句細閫忔槑搴﹂棶棰橈細澶ф暟鎹鎶鏈鐨勫彂灞曞甫鏉ヤ簡绀句細閫忔槑搴︾殑鎻愬崌锛屼絾鍚屾椂涔熸毚闇蹭簡涓浜洪殣绉侊紝澧炲姞浜嗙ぞ浼氫笉绋冲畾鎬с
6. 鍥藉舵満瀵嗕繚鎶ゆ寫鎴橈細澶ф暟鎹鎶鏈鐨勫彂灞曞瑰浗瀹舵満瀵嗕繚鎶ゆ彁鍑轰簡鏂扮殑瑕佹眰銆傛垜鍥介渶瑕佸姞寮烘妧鏈鎵嬫碉紝淇濇姢鍥藉朵俊鎭瀹夊叏锛屾姷寰″栭儴濞佽儊銆

C. 澶ф暟鎹鎸栨帢鍒嗘瀽澶勭悊鐨勯毦棰樻湁鍝浜涳紵

绯荤粺骞冲彴鍦ㄨ繘琛屽ぇ鏁版嵁鎸栨帢鍒嗘瀽澶勭悊鏃讹紝涓昏侀潰涓寸殑鎸戞垬鍖呮嫭鏁版嵁澶嶆潅鎬с佹妧鏈灞闄愭с侀殣绉佸拰瀹夊叏闂棰橈紝浠ュ強璁$畻璧勬簮鐨勯渶姹傘
棣栧厛锛屾暟鎹澶嶆潅鎬ф槸涓涓閲嶅ぇ鎸戞垬銆傚ぇ鏁版嵁閫氬父鏉ヨ嚜澶氱嶄笉鍚岀殑鏉ユ簮锛屽傜ぞ浜ゅ獟浣撱佹棩蹇楁枃浠躲佷簨鍔℃暟鎹绛夛紝杩欎簺鏁版嵁鍏锋湁涓嶅悓鐨勬牸寮忓拰缁撴瀯锛屽寘鎷缁撴瀯鍖栥佸崐缁撴瀯鍖栧拰闈炵粨鏋勫寲鏁版嵁銆傚勭悊鍜屽垎鏋愯繖浜涗笉鍚岀被鍨嬪拰鏍煎紡鐨勬暟鎹闇瑕佸己澶х殑鏁版嵁鏁村悎鍜屾竻娲楄兘鍔涳紝浠ョ‘淇濇暟鎹鐨勫噯纭鎬у拰涓鑷存с
鍏舵★紝鎶鏈灞闄愭т篃鏄涓涓閲嶈佺殑闂棰樸備紶缁熺殑鏁版嵁澶勭悊鍜屽垎鏋愭柟娉曞彲鑳芥棤娉曟湁鏁堝湴澶勭悊澶ф暟鎹銆備緥濡傦紝浼犵粺鐨勫叧绯诲瀷鏁版嵁搴撳彲鑳芥棤娉曞瓨鍌ㄥ拰鏌ヨ㈠ぇ瑙勬ā鐨勯潪缁撴瀯鍖栨暟鎹銆傚洜姝わ紝闇瑕侀噰鐢ㄦ柊鐨勬妧鏈鍜屽伐鍏凤紝濡傚垎甯冨紡瀛樺偍绯荤粺锛堝侶adoop锛夊拰娴佸勭悊鎶鏈锛堝係park锛夛紝浠ュ簲瀵瑰ぇ鏁版嵁澶勭悊鐨勬寫鎴樸
鍐嶈咃紝闅愮佸拰瀹夊叏闂棰樺湪澶ф暟鎹澶勭悊涓涓嶅彲蹇借嗐傞殢鐫鏁版嵁閲忕殑澧為暱锛屼繚鎶や釜浜洪殣绉佸拰鏁版嵁瀹夊叏鍙樺緱鏇村姞鍥伴毦銆傛湭缁忔巿鏉冪殑鏁版嵁璁块棶鍜屾硠闇插彲鑳藉艰嚧涓ラ噸鐨勫悗鏋滐紝鍖呮嫭韬浠界洍绐冦侀噾铻嶆鸿瘓绛夈傚洜姝わ紝绯荤粺骞冲彴闇瑕佸叿澶囧己澶х殑瀹夊叏鎬у拰闅愮佷繚鎶ゆ帾鏂姐
鏈鍚庯紝璁$畻璧勬簮鐨勯渶姹備篃鏄涓涓鍏抽敭鎸戞垬銆傚ぇ鏁版嵁澶勭悊鍜屽垎鏋愰氬父闇瑕佸ぇ閲忕殑璁$畻璧勬簮锛屽寘鎷鍐呭瓨銆佸瓨鍌ㄥ拰璁$畻鑳藉姏銆傚逛簬璁稿氱粍缁囨潵璇达紝鑾峰彇鍜岀$悊杩欎簺璧勬簮鍙鑳芥槸涓涓宸ㄥぇ鐨勬寫鎴樸備簯璁$畻鎻愪緵浜嗕竴绉嶈В鍐虫柟妗堬紝瀹冨厑璁哥粍缁囨牴鎹闇瑕佸姩鎬佸湴鎵╁睍鎴栫缉鍑忚$畻璧勬簮銆
缁间笂鎵杩帮紝绯荤粺骞冲彴鍦ㄨ繘琛屽ぇ鏁版嵁鎸栨帢鍒嗘瀽澶勭悊鏃堕潰涓寸潃澶氭柟闈㈢殑鎸戞垬銆備负浜嗗厠鏈嶈繖浜涙寫鎴橈紝闇瑕侀噰鐢ㄦ柊鐨勬妧鏈鍜屾柟娉曪紝骞跺姞寮烘暟鎹瀹夊叏鍜岄殣绉佷繚鎶ゃ傚悓鏃讹紝涔熼渶瑕佸厖鍒嗚冭檻璁$畻璧勬簮鐨勯渶姹傚拰绠$悊銆

D. 腾讯与清华大学牵手大数据科研,大数据研究的难题有哪些

据媒体报道,2021年5月18日腾讯与清华大学签署卫生健康大数据科研,并表示未来将紧密合作从理论、技术、政策等多维度展开创新性研究。此消息在社交平台上引起了网民们的广泛关注与讨论。

部分网民们认为,当前我们已经步入了风险社会,所谓风险社会即是预知以及不可预知的风险交织在我们的社会之中,而未来通过大数据来介入公共卫生治理定有大成效;也有部分网民认为当前的全民健康管理以及重大公共卫生挑战需要有大数据的帮助。而笔者以下想讲一下大数据研究的难题有哪些?并想针对此讲讲自己的看法。

一、信息收集:物联网与基础设施建设之间的悖论

而在信息生态方面,当前为应对在公共卫生方面的种种挑战,各部门已经正在试图建构公共卫生分析系统以预防未来的公共卫生挑战。但是其中的一个问题是如何通过大数据研究来建设一个完整且闭合的大数据信息生态。

E. 谈谈我国大数据发展面临着哪些制约因素

1.很少有优质可用的数据
这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据积累的传统企业的新的生财法。目前,我国大数据需求端以互联网企业为主,覆盖面不广,在O2O趋势下,大型互联网厂商尝试引入外部数据支撑金融、生活、语音、旅游、健康和教育等多种服务。
然而在具体的领域或行业内,我国普遍未形成成型的数据采集、加工、分析和应用链条,大量数据源未被激活,大多数数据拥有者没有数据价值外化的路径。比如,各医疗健康类应用收集了大量的数据,但没有像那样面向医药公司售卖数据。与国外相比我国的政府、公共服务、农业应用基本缺位,电信和银行业更缺少与外部数据的碰撞。
另外,其实数据交易这件事本身就是一个悖论。数据作为一种商品有一定的特殊性,我用了别人也可以用,没有任何消耗,可以在市场卖很多遍。这就产生一个问题,你这个数据到市场卖,根据经济学观点它的价值是零,你卖给我我可以用更低的价格卖给别人,所以数据交易理论上来说也是不可行的。
大数据概念火了以后,很多机构觉得数据存起来就是宝,于是积攒了大量零碎数据放在那里,到底能发挥什么作用也未可知。而在和许多真正想用数据做些事情的机构的合作中我们发现,即便是政府机构这样的权威数据持有方,也存在很多数据缺失、数据错误、噪音多各方面的问题。
我们常常在讲大数据就用大数据方法,小数据就用小数据方法,完美的数据是永远等不来的。但这样会导致什么问题呢?在实际项目实施过程中,我们的数据科学家们不得不花费大量时间在数据清洗上,这其实是对本来就紧缺的数据人员的一种浪费。
理论上我们中国有很多数据,但不同部门数据存在在不同的地方,格式也不一样。政府内部本身整合各部门的数据就已经是一件很头大的事情,更不要提大规模的数据开放。同时数据开放面临一个严重问题就是隐私问题,脱敏远远不够,隐私问题是一个无底洞。比如我们把一个人的支付宝3个月数据拿过来,就可以很轻易的知道这个人今天在门口便利店买了一瓶水,昨天在淘宝买了沙发,每隔三个月会有一笔万元的支出。那我们就可以很容易推断这个人刚换了一个租房子的地方,就能了解他的消费习惯。这个数据其实完全是脱敏的,没有名字、没有号码,但丝毫不妨碍我们通过算法完全的勾勒出这个人的画像。
2.实际技术与业务之间还有很大距离
大数据行业发展至今,技术与业务之间依然存在巨大着鸿沟。首先,就是数据分析技术本身。数据源企业为实现数据价值变现,尝试多种方法,甚至自己组建数据分析团队,可是数据分析是个技术活,1%的误差都会极大地影响市场份额,术业有专攻,数据变现还是需要专业的数据分析人才来实现。
大数据概念的火热,做大数据的公司越来越多,产品做得五花八门,数据建模看似谁都可以涉足,但现在数据分析的技术,方法,模型,算法都有了非常大的改进,跟过去六七十年代完全不一样,不是说做几个SAAS软件或者RAAS软件就是大数据了,虽然短期看市场火热,但长远来说这条路是走不通的,大数据行业发展,技术才是真正的发力点,提高行业准入门槛尤为重要。
其次中国的数据有它的特色,例如在金融行业,目前大部分银行采用的是风险评分卡,运用专家经验定义风险变量,基于定性认识进行评分,通过事后风险回检优化评分卡,风险预警功能较差。虽然央行征信中心与国内少数技术领先银行使用的是风险评分模型,但模型方法相对陈旧,如央行所用FICO评分模型为上世纪80年代基于逻辑回归算法构建的评分体系,逻辑回归算法适合处理线性数据,但实际问题往往是非线性的,特别是信用风险评估场景下。此外,FICO模型没有针对我国具体业务进行场景细分,建模逻辑并不完全符合我国实际情况,因此导致准确率不足,风险预警能力差。基于此,中国人民银行征信中心首次与国内大数据公司合作,这次合作中普林科技应用国际领先的大数据建模分析技术运用决策树随机森林,AdaBOOST,GBDT,SVM等算法,通过对信用报告的数字化解读与深入洞察,准确预测了违约风险,对贷款审批、贷中管理形成指导,新模型对好坏账户的区分度远高于行业平均水平。此次合作表明我国的大数据难题更需要适应国情的解决方案与本土的技术人才,这对我们的市场提出了一个新问题。
3.人才稀缺
我们国家大数据发展最大的优势就是市场大,最大的劣势恰巧就是缺乏相应人才,人才缺乏的程度非常严重。首先在国际市场方面,我们要跟国外公司争人才,然而国外大数据行业同样十分火热。而不论在国内还是国外,跟企业竞争人才都是一项艰巨的事业,比如在世界上最好的大学之一的美国普林斯顿大学,想找数学家也是非常困难,人才很容易被大公司挖走,每年都有非常好的数据分析人才被企业挖走。所以人才难觅不只是口头说说,更是一个亟待解决的问题 大数据是一个交叉学科,涉及统计学,管理编程等多学科,知识点复杂,缺乏系统的学习教程

F. 大数据发展遇到的困境

大数据的理念已经被追捧多年,但是还远未达到人们想象的完全实用的程度。大数据的发展受阻主要表现在以下几个方面:

1.数据基础的缺失

大数据发展的前提条件是要有丰富的数据源,对于制造业,IT行业数据化程度比较高,虽然缺少资源共享和信息交换,但至少可以在公司内部探索和尝试。

但对于教育,医疗行业数据化程度还是远远落后于大数据时代的需求。单从患者的角度考虑,自己在各个医院的病例和居家检测的医学数据。如果将这些数据利用起来,就会遇到数据源不算,数据格式不统一,隐私问题等等。

2.数据孤岛之踵

不同的数据源独立存在,不能够互相共享,形成了一个个数据孤岛。

政府部门缺乏数据开放的动力,由于其掌握的数据有一定的敏感性而趋于保守态度。比如税务部门的个人纳税信息会涉及到个人隐私,公安部门的监控信息更是涉及到个人的人身安全问题。

各大企业不会随便开放自身有价值的数据,因为它有巨大的商业价值,也关系到企业的生死存亡。比如搜索引擎,谷歌的搜寻效果比其他的好,其实他们的技术差别不大。真正的差异是谷歌的数据量大,能够找到最佳的搜索策略。而其他的搜索引擎则相反,从而造成恶性循环。

即使没有商业竞争,企业也会尽量独占数据。比如航空公司的航班晚点,他不会提前通知,而会出于商业利益选择在乘客登记结束后广播通知。

3.难以突破创新的瓶颈

对于相应行业数据垄断的大企业,利用自身垄断地位阻碍创新使垄断地位更加坚固。搜索引擎就是一个很好的案例,还有某互联网公司利用资源优势模仿竞争对手的创新产品,并且挤垮对手。

4.个人隐私

个人信息越来越多的被别人掌握,我们既不能阻止,也不知道会产生怎样的后果。一方面,我们的虚拟世界和实际生活轨迹可以通过大数据洞察一切,预测我们的行为。另一方面,作为数据的主人,却不知道数据如何被记录,流向哪里,被谁利用,这个过程我们一无所知。

大数据的发展需要解决个人隐私问题。一方面不能被无限制的使用,每个人都有对个人隐私有知情权,拒绝的权利。另一方面需要将个人隐私数据找到安全,可靠的方法共享,这样大数据才能够发展。

5.其他方面

数据的泛滥,盲目的崇拜等

G. 如何应对“大数据时代”的挑战

大数据行业面临的五大挑战如下:

挑战一:数据来源错综复杂
丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有有限的数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大大降低了数据的价值。
现如今,几乎任何规模企业,每时每刻也都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是如何获取大量有价值的数据。

挑战二:数据挖掘分析模型建立
步入大数据时代,人们纷纷在谈论大数据,似乎这已经演化为新的潮流趋势。数据比以往任何时候都更加根植于我们生活中的每个角落。我们试图用数据去解决问题、改善福利,并且促成新的经济繁荣。人们纷纷流露出去大数据的高期待以及对大数据分析技术的格外看好。然而,关于大数据分析,人们鼓吹其神奇价值的喧嚣声浪很高,却鲜见其实际运用得法的模式和方法。造成这种窘境的原因主要有以下两点:一是对于大数据分析的价值逻辑尚缺乏足够深刻的洞察;其次便是大数据分析中的某些重大要件或技术还不成熟。大数据时代下数据的海量增长以及缺乏这种大数据分析逻辑以及大数据技术的待发展,正是大数据时代下我们面临的挑战。

挑战三:数据开放与隐私的权衡
数据应用的前提是数据开放,这已经是共识。有专业人士指出,中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。目前我国一些部门和机构拥有大量数据但宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资。2012年中国的数据存储量达到64EB,其中55%的数据需要一定程度的保护,然而目前只有不到一半的数据得到保护。

挑战四:大数据管理与决策
大数据的技术挑战显而易见,但其带来的决策挑战更为艰巨。大数据至关重要的方面,就是它会直接影响组织怎样作决策、谁来作决策。在信息有限、获取成本高昂且没有被数字化的时代,组织内作重大决策的人,都是典型的位高权重的人,要不然就是高价请来的拥有专业技能和显赫履历的外部智囊。但是,在今时今日的商业世界中,高管的决策仍然更多地依赖个人经验和直觉,而不是基于数据。

挑战五:大数据人才缺口
如果说,以Hadoop为代表的大数据是一头小象,那么企业必须有能够驯服它的驯兽师。在很多企业热烈拥抱这类大数据技术时,精通大数据技术的相关人才也成为一个大缺口。

阅读全文

与推进大数据碰到的问题相关的资料

热点内容
ps入门必备文件 浏览:348
以前的相亲网站怎么没有了 浏览:15
苹果6耳机听歌有滋滋声 浏览:768
怎么彻底删除linux文件 浏览:379
编程中字体的颜色是什么意思 浏览:534
网站关键词多少个字符 浏览:917
汇川am系列用什么编程 浏览:41
笔记本win10我的电脑在哪里打开摄像头 浏览:827
医院单位基本工资去哪个app查询 浏览:18
css源码应该用什么文件 浏览:915
编程ts是什么意思呢 浏览:509
c盘cad占用空间的文件 浏览:89
不锈钢大小头模具如何编程 浏览:972
什么格式的配置文件比较主流 浏览:984
增加目录word 浏览:5
提取不相邻两列数据如何做图表 浏览:45
r9s支持的网络制式 浏览:633
什么是提交事务的编程 浏览:237
win10打字卡住 浏览:774
linux普通用户关机 浏览:114

友情链接