A. 我國發展大數據存在哪些問題
您好,一是信息孤島普遍存在。跨部門、跨行業的數據共享仍不順暢,有價值的公共信息資源和商業數據開放程度低,基本處於死鎖狀態,無法順暢流動。
二是對大數據產業發展規律認識不足。全社會尚未形成對大數據產業發展規律的客觀、科學的認識,一些地方誤將數據中心建設視為大數據產業發展重點,盲目追逐硬體設施投資,輕視了數據資源匯聚、積累、處理與應用能力建設,未能主動推進大數據產業發展與應用需求間的對接。
三是技術創新與支撐能力不足。大數據需要從底層晶元到基礎軟體再到應用分析軟體等信息產業全產業鏈的支撐,無論是新型計算平台、分布式計算架構,還是大數據處理、分析和呈現方面與國外均存在較大差距,難以滿足各行各業大數據應用需求。
四是數據資源建設和應用水平低。用戶普遍不重視數據資源的建設,即使有數據意識的機構也大多隻重視數據的簡單存儲,很少針對後續應用需求進行加工整理。數據資源普遍存在質量差,標准規范缺乏,管理能力弱,數據價值難以被有效挖掘利用的問題。
五是信息安全和數據管理體系尚未建立。數據所有權、隱私權等相關法律法規和信息安全、開放共享等標准規范缺乏,技術安全防範和管理能力不夠,尚未建立起兼顧安全與發展的數據開放、管理和信息安全保障體系,制約了大數據發展。
六是人才隊伍建設亟須加強。綜合掌握數學、統計學、計算機等相關學科及應用領域知識的綜合性數據科學人才缺乏,遠不能滿足發展需要,尤其是缺乏既熟悉行業業務需求,又掌握大數據技術與管理的綜合型人才。
B. 澶ф暟鎹鐨勫紛絝鏄浠涔
1. 緗戠粶璇堥獥娉涙互錛氶殢鐫澶ф暟鎹鐨勬櫘鍙婏紝緗戠粶璇堥獥鎵嬫墊棩鐩婄炕鏂幫紝緇欏叕浼楀甫鏉ヤ簡宸ㄥぇ鐨勫畨鍏ㄦ寫鎴樸備漢浠蹇呴』鎻愰珮璀︽儠錛屼笉鏂鍗囩駭闃茶寖鎺鏂斤紝浠ュ簲瀵硅繖涓濞佽儊紺句細紼沖畾鐨勯棶棰樸
2. 闅愮佷繚鎶ら毦棰橈細澶ф暟鎹鏃朵唬錛屼釜浜洪殣縐佹硠闇茬殑椋庨櫓澧炲姞錛屽艱嚧鍚堟硶鏉冪泭鍙楁崯銆傚繀欏婚噰鍙栨湁鏁堟帾鏂斤紝鍔犲己瀵逛釜浜轟俊鎮鐨勪繚鎶わ紝紜淇濋殣縐佹潈涓嶅彈渚電姱銆
3. 緗戠粶鎴愮樉椋庨櫓錛氬ぇ鏁版嵁鎻愪緵鐨勪釜鎬у寲鎺ㄨ崘鍙鑳戒績浣誇漢浠榪囧害渚濊禆緗戠粶騫沖彴錛屽炲姞緗戠粶鎴愮樉鐨勯庨櫓錛屽獎鍝嶇幇瀹炵敓媧諱腑鐨勭ぞ浜ゅ拰鍔熻兘銆
4. 淇冭繘鎯版э細澶ф暟鎹甯︽潵鐨勪究鍒╁彲鑳藉姪闀誇漢浠鐨勬儼鎬э紝鍑忓皯鑷涓誨姫鍔涳紝褰卞搷宸ヤ綔鏁堢巼鍜岀敓媧昏川閲忋
5. 紺句細閫忔槑搴﹂棶棰橈細澶ф暟鎹鎶鏈鐨勫彂灞曞甫鏉ヤ簡紺句細閫忔槑搴︾殑鎻愬崌錛屼絾鍚屾椂涔熸毚闇蹭簡涓浜洪殣縐侊紝澧炲姞浜嗙ぞ浼氫笉紼沖畾鎬с
6. 鍥藉舵満瀵嗕繚鎶ゆ寫鎴橈細澶ф暟鎹鎶鏈鐨勫彂灞曞瑰浗瀹舵満瀵嗕繚鎶ゆ彁鍑轟簡鏂扮殑瑕佹眰銆傛垜鍥介渶瑕佸姞寮烘妧鏈鎵嬫碉紝淇濇姢鍥藉朵俊鎮瀹夊叏錛屾姷寰″栭儴濞佽儊銆
C. 澶ф暟鎹鎸栨帢鍒嗘瀽澶勭悊鐨勯毦棰樻湁鍝浜涳紵
緋葷粺騫沖彴鍦ㄨ繘琛屽ぇ鏁版嵁鎸栨帢鍒嗘瀽澶勭悊鏃訛紝涓昏侀潰涓寸殑鎸戞垬鍖呮嫭鏁版嵁澶嶆潅鎬с佹妧鏈灞闄愭с侀殣縐佸拰瀹夊叏闂棰橈紝浠ュ強璁$畻璧勬簮鐨勯渶奼傘
棣栧厛錛屾暟鎹澶嶆潅鎬ф槸涓涓閲嶅ぇ鎸戞垬銆傚ぇ鏁版嵁閫氬父鏉ヨ嚜澶氱嶄笉鍚岀殑鏉ユ簮錛屽傜ぞ浜ゅ獟浣撱佹棩蹇楁枃浠躲佷簨鍔℃暟鎹絳夛紝榪欎簺鏁版嵁鍏鋒湁涓嶅悓鐨勬牸寮忓拰緇撴瀯錛屽寘鎷緇撴瀯鍖栥佸崐緇撴瀯鍖栧拰闈炵粨鏋勫寲鏁版嵁銆傚勭悊鍜屽垎鏋愯繖浜涗笉鍚岀被鍨嬪拰鏍煎紡鐨勬暟鎹闇瑕佸己澶х殑鏁版嵁鏁村悎鍜屾竻媧楄兘鍔涳紝浠ョ『淇濇暟鎹鐨勫噯紜鎬у拰涓鑷存с
鍏舵★紝鎶鏈灞闄愭т篃鏄涓涓閲嶈佺殑闂棰樸備紶緇熺殑鏁版嵁澶勭悊鍜屽垎鏋愭柟娉曞彲鑳芥棤娉曟湁鏁堝湴澶勭悊澶ф暟鎹銆備緥濡傦紝浼犵粺鐨勫叧緋誨瀷鏁版嵁搴撳彲鑳芥棤娉曞瓨鍌ㄥ拰鏌ヨ㈠ぇ瑙勬ā鐨勯潪緇撴瀯鍖栨暟鎹銆傚洜姝わ紝闇瑕侀噰鐢ㄦ柊鐨勬妧鏈鍜屽伐鍏鳳紝濡傚垎甯冨紡瀛樺偍緋葷粺錛堝侶adoop錛夊拰嫻佸勭悊鎶鏈錛堝係park錛夛紝浠ュ簲瀵瑰ぇ鏁版嵁澶勭悊鐨勬寫鎴樸
鍐嶈咃紝闅愮佸拰瀹夊叏闂棰樺湪澶ф暟鎹澶勭悊涓涓嶅彲蹇借嗐傞殢鐫鏁版嵁閲忕殑澧為暱錛屼繚鎶や釜浜洪殣縐佸拰鏁版嵁瀹夊叏鍙樺緱鏇村姞鍥伴毦銆傛湭緇忔巿鏉冪殑鏁版嵁璁塊棶鍜屾硠闇插彲鑳藉艱嚧涓ラ噸鐨勫悗鏋滐紝鍖呮嫭韜浠界洍紿冦侀噾鋙嶆鴻瘓絳夈傚洜姝わ紝緋葷粺騫沖彴闇瑕佸叿澶囧己澶х殑瀹夊叏鎬у拰闅愮佷繚鎶ゆ帾鏂姐
鏈鍚庯紝璁$畻璧勬簮鐨勯渶奼備篃鏄涓涓鍏抽敭鎸戞垬銆傚ぇ鏁版嵁澶勭悊鍜屽垎鏋愰氬父闇瑕佸ぇ閲忕殑璁$畻璧勬簮錛屽寘鎷鍐呭瓨銆佸瓨鍌ㄥ拰璁$畻鑳藉姏銆傚逛簬璁稿氱粍緇囨潵璇達紝鑾峰彇鍜岀$悊榪欎簺璧勬簮鍙鑳芥槸涓涓宸ㄥぇ鐨勬寫鎴樸備簯璁$畻鎻愪緵浜嗕竴縐嶈В鍐蟲柟妗堬紝瀹冨厑璁哥粍緇囨牴鎹闇瑕佸姩鎬佸湴鎵╁睍鎴栫緝鍑忚$畻璧勬簮銆
緇間笂鎵榪幫紝緋葷粺騫沖彴鍦ㄨ繘琛屽ぇ鏁版嵁鎸栨帢鍒嗘瀽澶勭悊鏃墮潰涓寸潃澶氭柟闈㈢殑鎸戞垬銆備負浜嗗厠鏈嶈繖浜涙寫鎴橈紝闇瑕侀噰鐢ㄦ柊鐨勬妧鏈鍜屾柟娉曪紝騫跺姞寮烘暟鎹瀹夊叏鍜岄殣縐佷繚鎶ゃ傚悓鏃訛紝涔熼渶瑕佸厖鍒嗚冭檻璁$畻璧勬簮鐨勯渶奼傚拰綆$悊銆
D. 騰訊與清華大學牽手大數據科研,大數據研究的難題有哪些
據媒體報道,2021年5月18日騰訊與清華大學簽署衛生健康大數據科研,並表示未來將緊密合作從理論、技術、政策等多維度展開創新性研究。此消息在社交平台上引起了網民們的廣泛關注與討論。
部分網民們認為,當前我們已經步入了風險社會,所謂風險社會即是預知以及不可預知的風險交織在我們的社會之中,而未來通過大數據來介入公共衛生治理定有大成效;也有部分網民認為當前的全民健康管理以及重大公共衛生挑戰需要有大數據的幫助。而筆者以下想講一下大數據研究的難題有哪些?並想針對此講講自己的看法。
一、信息收集:物聯網與基礎設施建設之間的悖論而在信息生態方面,當前為應對在公共衛生方面的種種挑戰,各部門已經正在試圖建構公共衛生分析系統以預防未來的公共衛生挑戰。但是其中的一個問題是如何通過大數據研究來建設一個完整且閉合的大數據信息生態。
E. 談談我國大數據發展面臨著哪些制約因素
1.很少有優質可用的數據
這幾年數據交易機構如雨後春筍,「數據變現」成為很多擁有數據積累的傳統企業的新的生財法。目前,我國大數據需求端以互聯網企業為主,覆蓋面不廣,在O2O趨勢下,大型互聯網廠商嘗試引入外部數據支撐金融、生活、語音、旅遊、健康和教育等多種服務。
然而在具體的領域或行業內,我國普遍未形成成型的數據採集、加工、分析和應用鏈條,大量數據源未被激活,大多數數據擁有者沒有數據價值外化的路徑。比如,各醫療健康類應用收集了大量的數據,但沒有像那樣面向醫葯公司售賣數據。與國外相比我國的政府、公共服務、農業應用基本缺位,電信和銀行業更缺少與外部數據的碰撞。
另外,其實數據交易這件事本身就是一個悖論。數據作為一種商品有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產生一個問題,你這個數據到市場賣,根據經濟學觀點它的價值是零,你賣給我我可以用更低的價格賣給別人,所以數據交易理論上來說也是不可行的。
大數據概念火了以後,很多機構覺得數據存起來就是寶,於是積攢了大量零碎數據放在那裡,到底能發揮什麼作用也未可知。而在和許多真正想用數據做些事情的機構的合作中我們發現,即便是政府機構這樣的權威數據持有方,也存在很多數據缺失、數據錯誤、噪音多各方面的問題。
我們常常在講大數據就用大數據方法,小數據就用小數據方法,完美的數據是永遠等不來的。但這樣會導致什麼問題呢?在實際項目實施過程中,我們的數據科學家們不得不花費大量時間在數據清洗上,這其實是對本來就緊缺的數據人員的一種浪費。
理論上我們中國有很多數據,但不同部門數據存在在不同的地方,格式也不一樣。政府內部本身整合各部門的數據就已經是一件很頭大的事情,更不要提大規模的數據開放。同時數據開放面臨一個嚴重問題就是隱私問題,脫敏遠遠不夠,隱私問題是一個無底洞。比如我們把一個人的支付寶3個月數據拿過來,就可以很輕易的知道這個人今天在門口便利店買了一瓶水,昨天在淘寶買了沙發,每隔三個月會有一筆萬元的支出。那我們就可以很容易推斷這個人剛換了一個租房子的地方,就能了解他的消費習慣。這個數據其實完全是脫敏的,沒有名字、沒有號碼,但絲毫不妨礙我們通過演算法完全的勾勒出這個人的畫像。
2.實際技術與業務之間還有很大距離
大數據行業發展至今,技術與業務之間依然存在巨大著鴻溝。首先,就是數據分析技術本身。數據源企業為實現數據價值變現,嘗試多種方法,甚至自己組建數據分析團隊,可是數據分析是個技術活,1%的誤差都會極大地影響市場份額,術業有專攻,數據變現還是需要專業的數據分析人才來實現。
大數據概念的火熱,做大數據的公司越來越多,產品做得五花八門,數據建模看似誰都可以涉足,但現在數據分析的技術,方法,模型,演算法都有了非常大的改進,跟過去六七十年代完全不一樣,不是說做幾個SAAS軟體或者RAAS軟體就是大數據了,雖然短期看市場火熱,但長遠來說這條路是走不通的,大數據行業發展,技術才是真正的發力點,提高行業准入門檻尤為重要。
其次中國的數據有它的特色,例如在金融行業,目前大部分銀行採用的是風險評分卡,運用專家經驗定義風險變數,基於定性認識進行評分,通過事後風險回檢優化評分卡,風險預警功能較差。雖然央行徵信中心與國內少數技術領先銀行使用的是風險評分模型,但模型方法相對陳舊,如央行所用FICO評分模型為上世紀80年代基於邏輯回歸演算法構建的評分體系,邏輯回歸演算法適合處理線性數據,但實際問題往往是非線性的,特別是信用風險評估場景下。此外,FICO模型沒有針對我國具體業務進行場景細分,建模邏輯並不完全符合我國實際情況,因此導致准確率不足,風險預警能力差。基於此,中國人民銀行徵信中心首次與國內大數據公司合作,這次合作中普林科技應用國際領先的大數據建模分析技術運用決策樹隨機森林,AdaBOOST,GBDT,SVM等演算法,通過對信用報告的數字化解讀與深入洞察,准確預測了違約風險,對貸款審批、貸中管理形成指導,新模型對好壞賬戶的區分度遠高於行業平均水平。此次合作表明我國的大數據難題更需要適應國情的解決方案與本土的技術人才,這對我們的市場提出了一個新問題。
3.人才稀缺
我們國家大數據發展最大的優勢就是市場大,最大的劣勢恰巧就是缺乏相應人才,人才缺乏的程度非常嚴重。首先在國際市場方面,我們要跟國外公司爭人才,然而國外大數據行業同樣十分火熱。而不論在國內還是國外,跟企業競爭人才都是一項艱巨的事業,比如在世界上最好的大學之一的美國普林斯頓大學,想找數學家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數據分析人才被企業挖走。所以人才難覓不只是口頭說說,更是一個亟待解決的問題 大數據是一個交叉學科,涉及統計學,管理編程等多學科,知識點復雜,缺乏系統的學習教程。
F. 大數據發展遇到的困境
大數據的理念已經被追捧多年,但是還遠未達到人們想像的完全實用的程度。大數據的發展受阻主要表現在以下幾個方面:
1.數據基礎的缺失
大數據發展的前提條件是要有豐富的數據源,對於製造業,IT行業數據化程度比較高,雖然缺少資源共享和信息交換,但至少可以在公司內部探索和嘗試。
但對於教育,醫療行業數據化程度還是遠遠落後於大數據時代的需求。單從患者的角度考慮,自己在各個醫院的病例和居家檢測的醫學數據。如果將這些數據利用起來,就會遇到數據源不算,數據格式不統一,隱私問題等等。
2.數據孤島之踵
不同的數據源獨立存在,不能夠互相共享,形成了一個個數據孤島。
政府部門缺乏數據開放的動力,由於其掌握的數據有一定的敏感性而趨於保守態度。比如稅務部門的個人納稅信息會涉及到個人隱私,公安部門的監控信息更是涉及到個人的人身安全問題。
各大企業不會隨便開放自身有價值的數據,因為它有巨大的商業價值,也關繫到企業的生死存亡。比如搜索引擎,谷歌的搜尋效果比其他的好,其實他們的技術差別不大。真正的差異是谷歌的數據量大,能夠找到最佳的搜索策略。而其他的搜索引擎則相反,從而造成惡性循環。
即使沒有商業競爭,企業也會盡量獨占數據。比如航空公司的航班晚點,他不會提前通知,而會出於商業利益選擇在乘客登記結束後廣播通知。
3.難以突破創新的瓶頸
對於相應行業數據壟斷的大企業,利用自身壟斷地位阻礙創新使壟斷地位更加堅固。搜索引擎就是一個很好的案例,還有某互聯網公司利用資源優勢模仿競爭對手的創新產品,並且擠垮對手。
4.個人隱私
個人信息越來越多的被別人掌握,我們既不能阻止,也不知道會產生怎樣的後果。一方面,我們的虛擬世界和實際生活軌跡可以通過大數據洞察一切,預測我們的行為。另一方面,作為數據的主人,卻不知道數據如何被記錄,流向哪裡,被誰利用,這個過程我們一無所知。
大數據的發展需要解決個人隱私問題。一方面不能被無限制的使用,每個人都有對個人隱私有知情權,拒絕的權利。另一方面需要將個人隱私數據找到安全,可靠的方法共享,這樣大數據才能夠發展。
5.其他方面
數據的泛濫,盲目的崇拜等
G. 如何應對「大數據時代」的挑戰
大數據行業面臨的五大挑戰如下:
挑戰一:數據來源錯綜復雜
豐富的數據源是大數據產業發展的前提。而我國數字化的數據資源總量遠遠低於美歐,每年新增數據量僅為美國的7%,歐洲的12%,其中政府和製造業的數據資源積累遠遠落後於國外。就已有有限的數據資源來說,還存在標准化、准確性、完整性低,利用價值不高的情況,這大大降低了數據的價值。
現如今,幾乎任何規模企業,每時每刻也都在產生大量的數據,但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在於掌握規模龐大的數據信息,而在於對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是如何獲取大量有價值的數據。
挑戰二:數據挖掘分析模型建立
步入大數據時代,人們紛紛在談論大數據,似乎這已經演化為新的潮流趨勢。數據比以往任何時候都更加根植於我們生活中的每個角落。我們試圖用數據去解決問題、改善福利,並且促成新的經濟繁榮。人們紛紛流露出去大數據的高期待以及對大數據分析技術的格外看好。然而,關於大數據分析,人們鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因主要有以下兩點:一是對於大數據分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大數據分析中的某些重大要件或技術還不成熟。大數據時代下數據的海量增長以及缺乏這種大數據分析邏輯以及大數據技術的待發展,正是大數據時代下我們面臨的挑戰。
挑戰三:數據開放與隱私的權衡
數據應用的前提是數據開放,這已經是共識。有專業人士指出,中國人口居世界首位,但2010年中國新存儲的數據為250PB,僅為日本的60%和北美的7%。目前我國一些部門和機構擁有大量數據但寧願自己不用也不願提供給有關部門共享,導致信息不完整或重復投資。2012年中國的數據存儲量達到64EB,其中55%的數據需要一定程度的保護,然而目前只有不到一半的數據得到保護。
挑戰四:大數據管理與決策
大數據的技術挑戰顯而易見,但其帶來的決策挑戰更為艱巨。大數據至關重要的方面,就是它會直接影響組織怎樣作決策、誰來作決策。在信息有限、獲取成本高昂且沒有被數字化的時代,組織內作重大決策的人,都是典型的位高權重的人,要不然就是高價請來的擁有專業技能和顯赫履歷的外部智囊。但是,在今時今日的商業世界中,高管的決策仍然更多地依賴個人經驗和直覺,而不是基於數據。
挑戰五:大數據人才缺口
如果說,以Hadoop為代表的大數據是一頭小象,那麼企業必須有能夠馴服它的馴獸師。在很多企業熱烈擁抱這類大數據技術時,精通大數據技術的相關人才也成為一個大缺口。