導航:首頁 > 網路數據 > 獲取大數據的困難

獲取大數據的困難

發布時間:2024-06-21 04:36:07

Ⅰ 如何解決大數據4個特點帶來的四個困難

我覺得大數據是現代非常值得研究關注的一個課題,困難很多。

Ⅱ 大數據分析主要會遇到的困難有哪些

大數據分析的主要困難有線下經營公司it人員缺乏,投資回報率難以確定,企業信息孤島及非結構化數據,客戶隱私糾紛,傳統經營理念根深蒂固。
推薦看下這篇文章《通往數據分析成功之路的五大挑戰》,說的很詳細~

Ⅲ 鎴戝浗澶ф暟鎹涓蹇冨彂灞曢潰涓村摢浜涢棶棰樹笌鎸戞垬

鎴戝浗澶ф暟鎹涓蹇冨彂灞曢潰涓寸殑闂棰樹笌鎸戞垬涓昏佸寘鎷浠ヤ笅鍑犱釜鏂歸潰錛


1. 鏁版嵁瀹夊叏涓庨殣縐佷繚鎶わ細闅忕潃澶ф暟鎹鐨勫箍娉涘簲鐢錛屾暟鎹瀹夊叏鍜岄殣縐佷繚鎶ゆ垚涓洪噸瑕佺殑闂棰樸傚ぇ鏁版嵁涓蹇冮渶瑕佺『淇濇暟鎹涓嶈鏈緇忔巿鏉冪殑浜哄憳鎴栫粍緇囪幏鍙栵紝鍚屾椂涔熻佺﹀悎鐩稿叧鐨勯殣縐佷繚鎶ゆ硶瑙勫拰鏍囧噯銆


2. 鏁版嵁鍏變韓涓庢暣鍚堬細澶ф暟鎹鐨勫簲鐢ㄩ渶瑕佸ぇ閲忕殑鏁版嵁錛屼絾鐩鍓嶆垜鍥界殑鏁版嵁鏁村悎鍜屽叡浜榪樺瓨鍦ㄤ竴浜涢棶棰樸備笉鍚岄儴闂ㄣ佷笉鍚屽湴鍖虹殑鏁版嵁鏍囧噯涓嶇粺涓錛屾暟鎹瀛ゅ矝鐜拌薄杈冧負鏅閬嶏紝榪欑粰澶ф暟鎹鐨勫垎鏋愬拰搴旂敤甯︽潵浜嗕竴瀹氱殑鍥伴毦銆


3. 鎶鏈涓庝漢鎵嶇煭緙猴細澶ф暟鎹鎶鏈鍙戝睍榪呴燂紝鎴戝浗鍦ㄧ浉鍏蟲妧鏈鏂歸潰鐨勭爺鍙戝拰搴旂敤姘村鉤榪橀渶瑕佽繘涓姝ユ彁鍗囥傚悓鏃訛紝澶ф暟鎹浜烘墠鐭緙轟篃鏄褰撳墠闈涓寸殑闂棰橈紝灝ゅ叾鏄鍏峰囨暟鎹鍒嗘瀽銆佹暟鎹鎸栨帢絳夋妧鑳界殑澶嶅悎鍨嬩漢鎵嶆洿涓虹揣緙恆


4. 娉曡勪笌鏀跨瓥鐜澧冿細澶ф暟鎹涓蹇冪殑榪愯惀鍜岀$悊闇瑕佺浉搴旂殑娉曡勫拰鏀跨瓥鐜澧冩敮鎸併傜洰鍓嶆垜鍥藉湪鐩稿叧娉曡勫拰鏀跨瓥鏂歸潰榪樺瓨鍦ㄤ竴浜涗笉瀹屽杽鐨勫湴鏂癸紝闇瑕佽繘涓姝ュ畬鍠勩


5. 鑳芥簮涓庣幆澧冮棶棰橈細澶ф暟鎹涓蹇冪殑榪愯惀闇瑕佸ぇ閲忕殑鐢靛姏鍜屽喎鍗磋懼囷紝浠ヤ繚鎸佹暟鎹涓蹇冪殑姝e父榪愯屻傛垜鍥界洰鍓嶉潰涓寸潃鐢靛姏渚涘簲緔у紶鍜岀幆澧冩薄鏌撶瓑闂棰橈紝榪欑粰澶ф暟鎹涓蹇冪殑鍙戝睍甯︽潵浜嗕竴瀹氱殑鎸戞垬銆


涓轟簡搴斿硅繖浜涙寫鎴橈紝鎴戝浗搴旇ュ姞寮烘暟鎹瀹夊叏鍜岄殣縐佷繚鎶ゆ妧鏈鐨勭爺鍙戝拰搴旂敤錛屾帹鍔ㄦ暟鎹鏁村悎鍜屽叡浜宸ヤ綔錛屽姞寮哄ぇ鏁版嵁鎶鏈浜烘墠鐨勫煿鍏誨拰寮曡繘錛屽畬鍠勭浉鍏蟲硶瑙勫拰鏀跨瓥鐜澧冿紝騫剁Н鏋佹帰緔㈢豢鑹茶兘婧愬拰鐜淇濇妧鏈鍦ㄥぇ鏁版嵁涓蹇冪殑搴旂敤銆

Ⅳ 盤點2021年大數據分析常見的5大難點!

2021年已經到來,現在是深入研究大數據分析面臨的挑戰的時候了,需要調查其根本原因,本文重點介紹了解決這些問題的潛在解決方案。

1、解決方案無法提供新見解或及時的見解

(1)數據不足

有些組織可能由於分析數據不足,無法生成新的見解。在這種情況下,可以進行數據審核,並確保現有數據集成提供所需的見解。新數據源的集成也可以消除數據的缺乏。還需要檢查原始數據是如何進入系統的,並確保所有可能的維度和指標均已經公開並進行分析。最後,數據存儲的多樣性也可能是一個問題。可以通過引入數據湖來解決這一問題。

(2)數據響應慢

當組織需要實時接收見解時,通常會發生這種情況,但是其系統是為批處理而設計的。因此有些數據現在仍無法使用,因為它們仍在收集或預處理中。

檢查組織的ETL(提取、轉換、載入)是否能夠根據更頻繁的計劃來處理數據。在某些情況下,批處理驅動的解決方案可以將計劃調整提高兩倍。

(3)新系統採用舊方法

雖然組織採用了新系統。但是通過原有的辦法很難獲得更好的答案。這主要是一個業務問題,並且針對這一問題的解決方案因情況而異。最好的方法是咨詢行業專家,行業專家在分析方法方面擁有豐富經驗,並且了解其業務領域。

2、不準確的分析

(1)源數據質量差

如果組織的系統依賴於有缺陷、錯誤或不完整的數據,那麼獲得的結果將會很糟糕。數據質量管理和涵蓋ETL過程每個階段的強制性數據驗證過程,可以幫助確保不同級別(語法、語義、業務等)的傳入數據的質量。它使組織能夠識別並清除錯誤,並確保對某個區域的修改立即顯示出來,從而使數據純凈而准確。

(2)與數據流有關的系統缺陷

過對開發生命周期進行高質量的測試和驗證,可以減少此類問題的發生,從而最大程度地減少數據處理問題。即使使用高質量數據,組織的分析也可能會提供不準確的結果。在這種情況下,有必要對系統進行詳細檢查,並檢查數據處理演算法的實施是否無故障

3、在復雜的環境中使用數據分析

(1)數據可視化顯示凌亂

如果組織的報告復雜程度太高。這很耗時或很難找到必要的信息。可以通過聘請用戶界面(UI)/用戶體驗(UX)專家來解決此問題,這將幫助組織創建引人注目的用戶界面,該界面易於瀏覽和使用。

(2)系統設計過度

數據分析系統處理的場景很多,並且為組織提供了比其需要還要多的功能,從而模糊了重點。這也會消耗更多的硬體資源,並增加成本。因此,用戶只能使用部分功能,其他的一些功能有些浪費,並且其解決方案過於復雜。

確定多餘的功能對於組織很重要。使組織的團隊定義關鍵指標:希望可以准確地測量和分析什麼,經常使用哪些功能以及關注點是什麼。然後摒棄所有不必要的功能。讓業務領域的專家來幫助組織進行數據分析也是一個很好的選擇。

4、系統響應時間長

(1)數據組織效率低下

也許組織的數據組織起來非常困難。最好檢查其數據倉庫是否根據所需的用例和方案進行設計。如果不是這樣,重新設計肯定會有所幫助。

(2)大數據分析基礎設施和資源利用問題

問題可能出在系統本身,這意味著它已達到其可擴展性極限,也可能是組織的硬體基礎設施不再足夠。

這里最簡單的解決方案是升級,即為系統添加更多計算資源。只要它能在可承受的預算范圍內幫助改善系統響應,並且只要資源得到合理利用就很好。從戰略角度來看,更明智的方法是將系統拆分為單獨的組件,並對其進行獨立擴展。但是需要記住的是,這可能需要對系統重新設計並進行額外的投資。

5、維護成本昂貴

(1)過時的技術

組織最好的解決辦法是採用新技術。從長遠來看,它們不僅可以降低系統的維護成本,還可以提高可靠性、可用性和可擴展性。逐步進行系統重新設計,並逐步採用新元素替換舊元素也很重要。

(2)並非最佳的基礎設施

基礎設施總有一些優化成本的空間。如果組織仍然採用的是內部部署設施,將業務遷移到雲平台可能是一個不錯的選擇。使用雲計算解決方案,組織可以按需付費,從而顯著降低成本。

(3)選擇了設計過度的系統

如果組織沒有使用大多數系統功能,則需要繼續為其使用的基礎設施支付費用。組織根據自己的需求修改業務指標並優化系統。可以採用更加符合業務需求的簡單版本替換某些組件。

Ⅳ 認清現實吧 中國大數據產業的痛點和困難

認清現實吧 中國大數據產業的痛點和困難

大數據作為一個新興的產業,一直在處於輿論的風口浪尖。就像互聯網+的概念一樣,大數據被神話了,被送上了「宗教」的神壇。大數據企業總是有一個擔心,生怕大數據被捧得的太高,將來可能會被摔的很慘。

2015年中國大數據產業的熱度從貴陽大數據交易所開始,到9月國務院的2015第50號文《促進大數據發展行動綱要》進入高峰,相信10月份的烏鎮互聯網大會上,大數據還會是一個大的熱點。

大數據論壇上,數據產品和解決方案被介紹的很多。數據給企業帶來的具體價值、數據應用場景、大數據產業的痛點介紹的很少。中國大數據產業經歷著很多痛苦,大數據產業前景很好,但是大數據企業卻很難做大,很難實現質的飛躍。中國大數據產業的痛點和困難如下。

1 大數據企業眾多而弱小,很難實現產業優勢

中國大數據企業大概有200多家,將近60%集中在北京,以小微企業為主,年銷售額達到十億人民幣的企業幾乎沒有。大數據產業處於春秋時代早期,各家諸侯割地而立,每家佔領了一塊小的細分領域,很難做大,都面臨著同行的激烈競爭,有的領域例如輿情監控已成為紅海。

大數據企業人數大多在幾十人到幾百人,少有千人以上的企業。沒有一家大數據企業可以統領一個行業,沒有一家企業佔有細分市場10%的份額,沒有一家大數據企業建立了行業標准,領導行業發展。

中國大數據產業處於極度分散狀態,優秀的人才分布在不同企業,很難形成人才合力。各家企業規模小,很難在企業做深做大,很難利用大數據幫助企業實現業務提升。大多數企業的工具和數據很難滿足企業整體的數據要求,中國的數據挖掘和分析產品也很難和國外的產品進行競爭。

大數據產業如果要形成產業優勢,必須需要一批領軍企業。參考國外大數據產業,中國在大數據基礎架構,數據產品,數據工具、數據清洗和數據挖掘、數據分析、數據人才都需要產生一批標桿企業。每個領軍企業都規模應該在千人以上,銷售額應該在百億以上,否則很難形成技術和人才優勢,也很難利用大數據幫助客戶實現業務提升。

貴陽大數據交易所《2015年中國大數據交易白皮書》提到2014年中國大數據市場規模為767億元。這個數字看上去不錯,估計其實真正和大數據工具和大數據產品相關的不足20%(業務價值提升)。大多數的經費都用於大數據基礎平台(存儲和計算)、咨詢、報告等和業務價值提升相關度不大的領域。中國大數據市場銷售額大多數集中在傳統的IT企業例如IBM,Oracle,EMC,Intel,華為,聯想等。真正大數據企業所有市場份額加起來可能就在百億元左右。

中國大數據企業規模過小,領軍企業缺少,行業過於分散,這些都是制約中國大數據產業發展的因素,也是產業做大的一個痛點。

2 外部數據是一個個孤島,數據價值低

數據是大數據產業發展的基礎,具有商業價值的數據可以幫助企業洞察客戶、數字化運營、風險管控、精準營銷、預測和決策等。具有商業價值的數據和商業分析真正能夠幫助企業提升業務,創造出新的價值。

中國的大數據市場還不成熟,很多大數據企業擁的數據都是片段的數據,很難形成完整的,具有商業價值的數據。大數據市場的數據質量和企業的數據需求有較大的差距。外部數據大多處於孤島狀態,數據之間很少流動和整合;孤立、不流動、沒有整合的數據很難幫到企業,很多需要數據的企業不得不從多個大數據企業采購數據,效率很低,采購來的數據價值不高,數據整合的難度較大,數據采購的整體費用過高。

大家都看到了數據分散的弊端,於是很多地方都建立了大數據交易市場,幫助大家進行數據交易和數據采購。由於缺少法律保護,很多企業不太想在交易市場進行數據交易,往往還是採用一對一的數據交易,這種交易方式可以保護交易雙方的利益。具有商業價值的數據還在開發中,大數據交易市場,缺少大量可以進行交易的數據。大數據交易市場這種商業模式,還需要用很長的時間去證明。

中國質量最好的數據在金融行業、BAT、電信運營商,這些企業比較謹慎,很難向外部輸出數據。這三大行業自身的主營業務也不在數據,其數據產品生產和輸出的願望也不強烈。政府的數據正在逐步開放,但是其數據質量、集中度、輸出方式等多存在很大多挑戰。在中國大規模的數據開放,至少需要3年時間才能達到商業應用要求。

3 大多數企業客戶,對數據商業應用敏感度低

大多數企業對數據有需求,但是其對數據商業敏感度很低。對數據商業應用的場景以及數據技術了解很少。即使是數據商業敏感度較高的銀行,至少要溝通三次以上,其才能夠建立起數據價值理念。其他行業例如製造業,房地產業,零售業,他們的數據商業敏感度更低。甚至萬科的王石也大聲疾呼,不要和房地產業談大數據應用,房產行業數據還不全,很多還是手工數據。於是某個領先的電商開始幫助萬科進行數據規劃建設,研究大數據在房地產行業的應用。

已有的大數據企業商業案例中,大部分都是大數據企業主動去找客戶談合作,為企業提供數據產品、數據工具或數據技術,目的是幫助企業提升業務。但是這種商業模式很累,市場很難被引爆,被動的數據商業應用,往往和業務結合較弱,無法迅速幫助企業利用數據提升業務,同時也無法解決業務發展瓶頸。

企業內部人士深度了解業務需求,他們缺少的是市場數據和消費者反饋,缺少的數據分析方法和工具。企業內部人士更應該成為大數據商業應用的主力,參加一些行業活動,從需求出發,主動尋找數據和解決方案。移動互聯網時代,商業競爭策略很清晰,一個是快,一個是要利用數據進行決策。

大數據產業的發展,不僅僅是大數據企業自身的事情,也是各家企業自身的事情。企業客戶也應該依據業務需要,主動到市場尋找數據和解決方案,提升數據商業敏感度,從業務場景出發,尋找具有價值的數據。

4大數據技術和產品同業務結合深度不夠

市場上所有大數據企業和客戶都面臨一個難題,就是數據解決方案同客戶業務結合的深度不夠,數據對業務整體推動效果不如期望,這也是大數據產業爆發的一個痛點。由於外部數據質量、企業用戶數據敏感度、企業管理方式、商業數據人才等問題,大數據解決方案很難和業務深度結合。

大數據核心價值就是揭示事務發展規律,幫助企業利用數據進行科學決策。目前大數據的商業應用領域主要集中在數據採集、數據存儲、數據計算、用戶畫像、精準營銷等領域。大數據最具商業價值的預測和輔助決策功能並沒有被充分利用。特別是在重大戰略決策方面,大數據的作用並不明顯。企業的產品開發,市場策略,戰略決策還是依靠過去的精英決策和經驗主義。未來社會只有兩類企業,一種是利用數據發展的企業,另外一種是不重視數據被淘汰的企業。

大數據企業如果想發展壯大,如果想成為行業領先的企業,其必須放棄短期利益,深入到客戶的運營中去,了解客戶的數據,了解客戶的業務,了解客戶的商業需求。同時利用數據了解客戶,了解市場,了解業務場景。數據和業務深度結合的核心是掌握正確的數據、正確的方法、正確的工具。業務人員要懂數據,技術人員要懂業務。復合型數據人才是數據生意的關鍵,業務人員掌握數據技術的門檻較高,但是技術人員了解業務的門檻很低,復合性人才傾向於從技術人才培養開始。

企業內部的數據人才和大數據企業的數據人才需要互相學習,了解對方環境和需求,在同一個平台上進行對話和溝通。數據團隊需要深入了解業務場景和背後的規律,從業務出發,從場景出發,從數據出發,將大數據解決方案同業務深度結合,利用數據推動業務發展,發揮大數據預測規律的核心價值。

5 專業數據挖掘工具和人才缺失

傳統的數據挖掘工具和BI系統存在很久了,通過各類報表展示,讓管理層了解企業運營信息,過去的確幫助企業提高管理水平,達到了預期目的。

在大數據時代,企業需要的是實時數據,需要的是高效工具,需要的是決策支持和預測。傳統的數據挖掘工具的性能和靈活性已經不能滿足企業的需要,另外非機構化數據的應用也對傳統數據工具提出了挑戰。BI領域中的SAS,SPSS,TD等數據工具越來越被邊緣化,R語言正在成為數據統計和可視化的新寵。

數據的時間價值正在得到重視,特別是金融企業,所有的業務部門都期望在最短的時間里,看到資金使用情況,客戶交易情況,風險管控情況。企業越早了解信息,就會越早進行決策,時間就是Money。過去數據需求可能是T+5或者T+30,現在的數據需求往往是T+1或者T+0,數據實時性、准確性、相關度被提到了一個非常重要的地位。業務的需求已經很明顯了,但是數據工具和人才卻是一個很大的挑戰。

中國200多家大數據企業,看到了大數據產業的曙光,看到了大數據產業的價值,同時也在經歷著大數據企業的痛苦。大數據產業發展很快,市場正在逐步變大,但是其產業優勢不明顯,優勢企業很少,數據商業化較慢,市場還不成熟,客戶數據商業敏感度較低,缺乏高質量數據工具和人才。所有大數據企業內心的感受就是,站在了時代的風口,選對了方向和行業,但是發展壯大還是很難。200多家大數據企業正在努力耕耘著大數據產業,痛並快樂著。

以上是小編為大家分享的關於認清現實吧 中國大數據產業的痛點和困難的相關內容,更多信息可以關注環球青藤分享更多干貨

Ⅵ 雲計算時代大數據遇到哪些困難

現階斷大數據的困難主要在如下幾點:
1、信息壁壘降低了大數據產業專資源配置效率。大數據屬產業發展必須實現數據信息的自由流動和共享,如果數據不開放、不共享,數據整合就不能實現,數據價值也會大大降低。
2、 政府部門是社會信息的主要控制者,其信息又分別被不同部門和區域控制,而不同部門和區域間的數據標准各異,信息資源也就難以實現共享。
3、數據安全管理薄弱增加了大數據產業的發展風險。
數據安全和隱私保護是大數據產業發展的世界性難題,這主要體現在三個方面:其一,數據的海量存儲增加了數據安防的難度,可能造成大量數據損壞或丟失,造成難以想像的後果;其二,在大數據時代,數據的多元性和復雜性要求人們形成更強的安全意識,但現實中不論企業還是個人的安全意識還沒有從傳統的非信息時代轉變過來,存在巨大潛在風險;其三,網路攻擊帶來了數據安全風險,隨著大數據在政府、金融、公共事業等領域的廣泛運用,數據泄露帶來的損失遠遠超出行業范疇,而是全局性的國家安全問題。

Ⅶ 如何應對物聯網時代下數據採集的機遇與挑戰

大數據泛指巨量的數據集,因可從中挖掘出有價值的信息而受到重視。《華爾街日報》將大數據時代、智能化生產和無線網路革命稱為引領未來繁榮的三大技術變革。麥肯錫公司的報告指出數據是一種生產資料,大數據是下一個創新、競爭、生產力提高的前沿。世界經濟論壇的報告認定大數據為新財富,價值堪比石油。因此,發達國家紛紛將開發利用大數據作為奪取新一輪競爭制高點的重要抓手。

大數據時代的來臨

互聯網特別是移動互聯網的發展,加快了信息化向社會經濟各方面、大眾日常生活的滲透。有資料顯示,1998年全球網民平均每月使用流量是1MB(兆位元組),2000年是10MB,2003年是100MB,2008年是1GB(1GB等於1024MB),2014年將是10GB。全網流量累計達到1EB(即10億GB或1000PB)的時間在2001年是一年,在2004年是一個月,在2007年是一周,而2013年僅需一天,即一天產生的信息量可刻滿1.88億張DVD光碟。我國網民數居世界之首,每天產生的數據量也位於世界前列。淘寶網站每天有超過數千萬筆交易,單日數據產生量超過50TB(1TB等於1000GB),存儲量40PB(1PB等於1000TB)。網路公司目前數據總量接近1000PB,存儲網頁數量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數據。一個8Mbps(兆比特每秒)的攝像頭一小時能產生3.6GB數據,一個城市若安裝幾十萬個交通和安防攝像頭,每月產生的數據量將達幾十PB。醫院也是數據產生集中的地方。現在,一個病人的CT影像數據量達幾十GB,而全國每年門診人數以數十億計,並且他們的信息需要長時間保存。總之,大數據存在於各行各業,一個大數據時代正在到來。

信息爆炸不自今日起,但近年來人們更加感受到大數據的來勢迅猛。一方面,網民數量不斷增加,另一方面,以物聯網和家電為代表的聯網設備數量增長更快。2007年全球有5億個設備聯網,人均0.1個;2013年全球將有500億個設備聯網,人均70個。隨著寬頻化的發展,人均網路接入帶寬和流量也迅速提升。全球新產生數據年增40%,即信息總量每兩年就可以翻番,這一趨勢還將持續。目前,單一數據集容量超過幾十TB甚至數PB已不罕見,其規模大到無法在容許的時間內用常規軟體工具對其內容進行抓取、管理和處理。

數據規模越大,處理的難度也越大,但對其進行挖掘可能得到的價值更大,這就是大數據熱的原因。首先,大數據反映輿情和民意。網民在網上產生的海量數據,記錄著他們的思想、行為乃至情感,這是信息時代現實社會與網路空間深度融合的產物,蘊含著豐富的內涵和很多規律性信息。根據中國互聯網路信息中心統計,2012年底我國網民數為5.64億,手機網民為4.2億,通過分析相關數據,可以了解大眾需求、訴求和意見。其次,企業和政府的信息系統每天源源不斷產生大量數據。根據賽門鐵克公司的調研報告,全球企業的信息存儲總量已達2.2ZB(1ZB等於1000EB),年增67%。醫院、學校和銀行等也都會收集和存儲大量信息。政府可以部署感測器等感知單元,收集環境和社會管理所需的信息。2011年,英國《自然》雜志曾出版專刊指出,倘若能夠更有效地組織和使用大數據,人類將得到更多的機會發揮科學技術對社會發展的巨大推動作用。

大數據應用的領域

大數據技術可運用到各行各業。宏觀經濟方面,IBM日本公司建立經濟指標預測系統,從互聯網新聞中搜索影響製造業的480項經濟數據,計算采購經理人指數的預測值。印第安納大學利用谷歌公司提供的心情分析工具,從近千萬條網民留言中歸納出六種心情,進而對道瓊斯工業指數的變化進行預測,准確率達到87%。製造業方面,華爾街對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;一些企業利用大數據分析實現對采購和合理庫存量的管理,通過分析網上數據了解客戶需求、掌握市場動向。有資料顯示,全球零售商因盲目進貨導致的銷售損失每年達1000億美元,這方面的數據分析大有作為。

在農業領域,矽谷有個氣候公司,從美國氣象局等資料庫中獲得幾十年的天氣數據,將各地降雨、氣溫、土壤狀況與歷年農作物產量的相關度做成精密圖表,預測農場來年產量,向農戶出售個性化保險。在商業領域,沃爾瑪公司通過分析銷售數據,了解顧客購物習慣,得出適合搭配在一起出售的商品,還可從中細分顧客群體,提供個性化服務。在金融領域,華爾街「德溫特資本市場」公司分析3.4億微博賬戶留言,判斷民眾情緒,依據人們高興時買股票、焦慮時拋售股票的規律,決定公司股票的買入或賣出。阿里公司根據在淘寶網上中小企業的交易狀況篩選出財務健康和講究誠信的企業,對他們發放無需擔保的貸款。目前已放貸300多億元,壞賬率僅0.3%。

在醫療保健領域,「谷歌流感趨勢」項目依據網民搜索內容分析全球范圍內流感等病疫傳播狀況,與美國疾病控制和預防中心提供的報告對比,追蹤疾病的精確率達到97%。社交網路為許多慢性病患者提供臨床症狀交流和診治經驗分享平台,醫生藉此可獲得在醫院通常得不到的臨床效果統計數據。基於對人體基因的大數據分析,可以實現對症下葯的個性化治療。在社會安全管理領域,通過對手機數據的挖掘,可以分析實時動態的流動人口來源、出行,實時交通客流信息及擁堵情況。利用簡訊、微博、微信和搜索引擎,可以收集熱點事件,挖掘輿情,還可以追蹤造謠信息的源頭。美國麻省理工學院通過對十萬多人手機的通話、簡訊和空間位置等信息進行處理,提取人們行為的時空規律性,進行犯罪預測。在科學研究領域,基於密集數據分析的科學發現成為繼實驗科學、理論科學和計算科學之後的第四個範例,基於大數據分析的材料基因組學和合成生物學等正在興起。

麥肯錫公司2011年報告推測,如果把大數據用於美國的醫療保健,一年產生潛在價值3000億美元,用於歐洲的公共管理可獲得年度潛在價值2500億歐元;服務提供商利用個人位置數據可獲得潛在的消費者年度盈餘6000億美元;利用大數據分析,零售商可增加運營利潤60%,製造業設備裝配成本會減少50%。

大數據技術的挑戰和啟示

目前,大數據技術的運用仍存在一些困難與挑戰,體現在大數據挖掘的四個環節中。首先在數據收集方面。要對來自網路包括物聯網和機構信息系統的數據附上時空標志,去偽存真,盡可能收集異源甚至是異構的數據,必要時還可與歷史數據對照,多角度驗證數據的全面性和可信性。其次是數據存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗餘配置、分布化和雲計算技術,在存儲時要按照一定規則對數據進行分類,通過過濾和去重,減少存儲量,同時加入便於日後檢索的標簽。第三是數據處理。有些行業的數據涉及上百個參數,其復雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,難以用傳統的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數據降維後度量與處理,利用上下文關聯進行語義分析,從大量動態而且可能是模稜兩可的數據中綜合信息,並導出可理解的內容。第四是結果的可視化呈現,使結果更直觀以便於洞察。目前,盡管計算機智能化有了很大進步,但還只能針對小規模、有結構或類結構的數據進行分析,談不上深層次的數據挖掘,現有的數據挖掘演算法在不同行業中難以通用。

大數據技術的運用前景是十分光明的。當前,我國正處在全面建成小康社會征程中,工業化、信息化、城鎮化、農業現代化任務很重,建設下一代信息基礎設施,發展現代信息技術產業體系,健全信息安全保障體系,推進信息網路技術廣泛運用,是實現四化同步發展的保證。大數據分析對我們深刻領會世情和國情,把握規律,實現科學發展,做出科學決策具有重要意義,我們必須重新認識數據的重要價值。

為了開發大數據這一金礦,我們要做的工作還很多。首先,大數據分析需要有大數據的技術與產品支持。發達國家一些信息技術(IT)企業已提前發力,通過加大開發力度和兼並等多種手段,努力向成為大數據解決方案提供商轉型。國外一些企業打出免費承接大數據分析的招牌,既是為了練兵,也是為了獲取情報。過分依賴國外的大數據分析技術與平台,難以迴避信息泄密風險。有些日常生活信息看似無關緊要,其實從中也可摸到國家經濟和社會脈搏。因此,我們需要有自主可控的大數據技術與產品。美國政府2012年3月發布《大數據研究與發展倡議》,這是繼1993年宣布「信息高速公路」之後又一重大科技部署,聯邦政府和一些部委已安排資金用於大數據開發。我們與發達國家有不少差距,更需要國家政策支持。

中國人口居世界首位,將會成為產生數據量最多的國家,但我們對數據保存不夠重視,對存儲數據的利用率也不高。此外,我國一些部門和機構擁有大量數據卻不願與其他部門共享,導致信息不完整或重復投資。政府應通過體制機制改革打破數據割據與封鎖,應注重公開信息,應重視數據挖掘。美國聯邦政府建立統一數據開放門戶網站,為社會提供信息服務並鼓勵挖掘與利用。例如,提供各地天氣與航班延誤的關系,推動航空公司提升正點率。

大數據的挖掘與利用應當有法可依。去年底全國人大通過的加強網路信息保護的決定是一個好的開始,當前要盡快制定「信息公開法」以適應大數據時代的到來。現在很多機構和企業擁有大量客戶信息。應當既鼓勵面向群體、服務社會的數據挖掘,又要防止侵犯個體隱私;既提倡數據共享,又要防止數據被濫用。此外,還需要界定數據挖掘、利用的許可權和范圍。大數據系統本身的安全性也是值得特別關注的,要注意技術安全性和管理制度安全性並重,防止信息被損壞、篡改、泄露或被竊,保護公民和國家的信息安全。

大數據時代呼喚創新型人才。蓋特納咨詢公司預測大數據將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。麥肯錫公司預測美國到2018年需要深度數據分析人才44萬—49萬,缺口14萬—19萬人;需要既熟悉本單位需求又了解大數據技術與應用的管理者150萬,這方面的人才缺口更大。中國是人才大國,但能理解與應用大數據的創新人才更是稀缺資源。

大數據是新一代信息技術的集中反映,是一個應用驅動性很強的服務領域,是具有無窮潛力的新興產業領域;目前,其標准和產業格局尚未形成,這是我國實現跨越式發展的寶貴機會。我們要從戰略上重視大數據的開發利用,將它作為轉變經濟增長方式的有效抓手,但要注意科學規劃,切忌一哄而上。

閱讀全文

與獲取大數據的困難相關的資料

熱點內容
ps入門必備文件 瀏覽:348
以前的相親網站怎麼沒有了 瀏覽:15
蘋果6耳機聽歌有滋滋聲 瀏覽:768
怎麼徹底刪除linux文件 瀏覽:379
編程中字體的顏色是什麼意思 瀏覽:534
網站關鍵詞多少個字元 瀏覽:917
匯川am系列用什麼編程 瀏覽:41
筆記本win10我的電腦在哪裡打開攝像頭 瀏覽:827
醫院單位基本工資去哪個app查詢 瀏覽:18
css源碼應該用什麼文件 瀏覽:915
編程ts是什麼意思呢 瀏覽:509
c盤cad佔用空間的文件 瀏覽:89
不銹鋼大小頭模具如何編程 瀏覽:972
什麼格式的配置文件比較主流 瀏覽:984
增加目錄word 瀏覽:5
提取不相鄰兩列數據如何做圖表 瀏覽:45
r9s支持的網路制式 瀏覽:633
什麼是提交事務的編程 瀏覽:237
win10打字卡住 瀏覽:774
linux普通用戶關機 瀏覽:114

友情鏈接