① 大數據發展面臨的挑戰是什麼
現在大數據是世界都關注的事情,這是因為大數據能夠幫助人們做很多的事情,大數據的發展也是很多國家重視的地方,當然,我國也不例外。我國對大數據還是比較重視的,現在我國的大數據產業發展已經有了一定的基礎,但是我們還不能放鬆,還需要努力,這是因為我國的數據產業還面臨著眾多的挑戰,在這篇文章中我們就給大家詳細介紹一下大數據發展面臨的挑戰,希望這篇文章能夠更好地幫助大家理解大數據知識。
我國發展大數據產業是一定要向數據強國轉變,現在我國只能說是個數據大國,但是要實現從「數據大國」向「數據強國」轉變,還面臨諸多挑戰。具體面臨的挑戰有五個。
第一個挑戰就是對數據資源及其價值的認識不足。這是因為全社會尚未形成對大數據客觀、科學的認識,對數據資源及其在人類生產、生活和社會管理方面的價值利用認識不足,存在盲目追逐硬體設施投資、輕視數據資源積累和價值挖掘利用等現象。所以說這是我國大數據長期內最大的挑戰,但也是比較容易實現的目標。
第二個挑戰就是技術創新與支撐能力不夠。這主要是因為大數據需要從底層晶元到基礎軟體再到應用分析軟體等信息產業全產業鏈的支撐,無論是新型計算平台、分布式計算架構,還是大數據處理、分析和呈現方面與國外均存在較大差距,對開源技術和相關生態系統的影響力仍然較弱,總體上難以滿足各行各業大數據應用需求。而這是大數據短期內最大的挑戰。
第三個挑戰就是數據資源建設和應用水平不高。這是因為用戶普遍不重視數據資源的建設,即使有數據意識的機構也大多隻重視數據的簡單存儲,很少針對後續應用需求進行加工整理。而且數據資源普遍存在質量差,標准規范缺乏,管理能力弱等現象。在很多跨部門、跨行業的數據共享仍不順暢,有價值的公共信息資源和商業數據開放程度低。數據價值難以被有效挖掘利用,所以說,大數據應用整體上處於起步階段,潛力遠未釋放。
第四個挑戰就是信息安全和數據管理體系尚未建立。數據所有權、隱私權等相關法律法規和信息安全、開放共享等標准規范缺乏,技術安全防範和管理能力不夠,尚未建立起兼顧安全與發展的數據開放、管理和信息安全保障體系。
第五個挑戰就是人才隊伍建設還需加強。就目前而言,我國的綜合掌握數學、統計學、計算機等相關學科及應用領域知識的綜合性數據科學人才缺乏,遠不能滿足發展需要,尤其是缺乏既熟悉行業業務需求,又掌握大數據技術與管理的綜合型人才。
我們在這篇文章中給大家介紹了我國大數據發展需要面臨的挑戰,通過這些內容我們不難發現我國要想成為數據強國還有很長的路要走。所以說,我國從數據大國轉變為數據強國還需要我們共同的努力。
② 大數據的發展所面臨的挑戰有哪些
挑戰一:業務來部門沒有清晰的大自數據需求。
挑戰二:企業內部數據孤島嚴重。
挑戰三:數據可用性低,數據質量差。
挑戰四:數據相關管理技術和架構。
挑戰五:數據安全。
③ 大數據時代的挑戰、價值與應對策略
大數據時代的挑戰、價值與應對策略
隨著移動互聯網、物聯網、雲計算等的快速發展,及視頻監控、智能終端、應用商店等的快速普及,全球數據量出現爆炸式增長。在此背景下,電信運營商在其網路無休止擴容的同時,卻面臨「增量不增收」的困境;而一些採用「數據驅動型決策」模式經營的公司,則可將其生產力提高5%~6%。因此,有必要深入研究大數據時代(Big Data Era)的挑戰、價值與務實應對策略。
1大數據時代的基本特徵
據統計,2010年以互聯網為基礎所產生的數據比之前所有年份的總和還要多;而且不僅是數據量的激增,數據結構亦在演變。Gartner預計,2012年半結構和非結構化的數據,諸如文檔、表格、網頁、音頻、圖像和視頻等將佔全球網路數據量的85%左右;而且,整個網路體系架構將面臨革命性改變。由此,所謂大數據時代已經來臨!
對於大數據時代,目前通常認為有下述四大特徵,稱為「四V」特徵:
(1)量大(Volume Big)。數據量級已從TB(1012位元組)發展至PB乃至ZB,可稱海量、巨量乃至超量。
(2)多樣化(Variable Type)。數據類型繁多,愈來愈多為網頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數據信息。
(3)快速化(VelocityFast)。數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理;處理工具亦在快速演進,軟體工程及人工智慧等均可能介入。
(4)價值高和密度低(Value HighandLowDensity)。以視頻安全監控為例,連續不斷的監控流中,有重大價值者可能僅為一兩秒的數據流;360°全方位視頻監控的「死角」處,可能會挖掘出最有價值的圖像信息。
2大數據時代面臨的挑戰
(1)運營商帶寬能力與對數據洪流的適應能力面臨前所未有的挑戰,管道化壓力化解及「雲-管-端」的有效裝備也均面臨新挑戰。
(2)大數據的「四V」特徵在數據存儲、傳輸、分析、處理等方面均帶來本質變化。數據量的快速增長,對存儲技術提出了挑戰;同時,需要高速信息傳輸能力支持,與低密度有價值數據的快速分析、處理能力。
(3)海量數據洪流中,在線對話與在線交易活動日益增加,其安全威脅更為嚴峻;而且現今黑客的組織能力、作案工具、作案手法及隱蔽程度更上一層樓,典型的有APT(Advanced Persistent Threat,高級持續性安全威脅)。
(4)大數據環境下通過對用戶數據的深度分析,很容易了解用戶行為和喜好,乃至企業用戶的商業機密,對個人隱私問題必須引起充分重視。
(5)大數據時代的基本特徵,決定其在技術與商業模式上有巨大的創新空間,這將對可持續發展起關鍵作用。
(6)大數據時代的基本特徵及安全挑戰,對政府制訂規則與監管部門發揮作用提出了新的挑戰。
3大數據帶來的價值
(1)利用大數據特徵,藉助雲計算等有效工具,深度挖掘流量與數據價值,可幫助運營商實施好流量經營,減輕管道化風險,發揚「雲-管-端」的智能管道的威力。
(2)多業務環境下掌握用戶體驗效果尤為重要,可從海量用戶數據中深度分析、挖掘出用戶的行為習慣和消費愛好,以實施精準營銷及網路優化,掌控數據增值的「金鑰匙」。
(3)掌握好大數據的存儲、分類、挖掘、快速調用和決策支撐,並應用於企業的日常運營、維護及戰略轉型中,成為企業可持續發展、維持競爭優勢的當務之急與重要途徑。
(4)充分利用對大數據的分析、挖掘,可幫助找到隱蔽性極強的APT之類的安全威脅,助力信息安全部門找到應對新型安全威脅的有效途徑。
(5)通過對公共大數據的分析、挖掘與利用,可減少欺詐行為及錯誤數據的負面作用、追收逃稅漏稅及刺激公共機構生產力等,幫助政府節省開支。例如英國政府即通過此途徑節省大約330億英鎊/年。
4大數據時代的應對策略
(1)大數據時代應以智慧創新理念融合大數據與雲計算,在大數據洪流中提升知識價值洞察力,實施高效實時個性化運作,建立有效增值的商業模式,確保應對APT之類的新型安全威脅。
(2)電信運營商轉型中流量經營已成共識,即以智能管道與聚合平台為基礎,以擴大流量規模、提升流量層次及豐富流量內涵作為基本經營方向,並以釋放流量價值為基本目標,可見大數據和雲計算的深度融合與此流量經營目標十分吻合。實際上已經有一些運營商藉助大數據Hadoop雲工具管理與分析網路中的用戶數據,為日常運維及制定市場戰略等提供有效支撐。
(3)針對大數據時代的基本特徵,加強全方位創新。包括IBM、EMC、HP、Microsoft等在內的IT巨頭,紛紛加速收購相關大數據公司進行技術整合,尋找數據洪流大潮中新的立足點。而涉及人工智慧、機器學習等新技術的創新應用,已初顯效益。
(4)將大數據時代全方位創新工作和智慧城市發展緊密結合。藉助移動互聯網、大數據與雲計算的融合、智能運營管道等,建立智能平台,優化配置城市資源,向真正的智慧城市邁進。
(5)藉助大數據創新處理技術應對APT安全攻擊。APT安全攻擊的最主要特徵為單點隱蔽能力強、攻擊空間路徑不確定、攻擊渠道不確定;同時APT攻擊一旦入侵成功則長期潛伏,攻擊時間上具有持續性。目前,全流量審計方案具備強大的實時檢測能力與事後回溯能力,並可將安全工作人員的分析能力、計算機存儲與運算能力組合在一起,是一種較完整的解決方案。
④ 在當前大數據的新環境下 it企業面臨哪些機會與挑戰
挑戰一:數據來源錯綜復雜
豐富的數據源是大數據產業發展的前提。而我國數字化的數據資源總量遠遠低於美歐,每年新增數據量僅為美國的7%,歐洲的12%,其中政府和製造業的數據資源積累遠遠落後於國外。就已有有限的數據資源來說,還存在標准化、准確性、完整性低,利用價值不高的情況,這大大降低了數據的價值。
大數據時代,我們需要更加全面的數據來提高分析預測的准確度,因此我們就需要更多便捷、廉價、自動的數據生產工具。除了我們在網上使用的瀏覽器有意或者無意記載著個人的信息數據之外,手機、智能手錶、智能手環等各種可穿戴設備也在無時無刻地產生著數據;就連我們家裡的路由器、電視機、空調、冰箱、飲水機、凈化器等也開始越來越智能並且具備了聯網功能,這些家用電器在更好地服務我們的同時,也在產生著大量的數據;甚至我們出去逛街,商戶的WIFI,運營商的3G網路,無處不在的攝像頭電子眼,百貨大樓的自助屏幕,銀行的ATM,加油站以及遍布各個便利店的刷卡機等也都在產生著數據。
挑戰二:數據挖掘分析模型建立
步入大數據時代,人們紛紛在談論大數據,似乎這已經演化為新的潮流趨勢。數據比以往任何時候都更加根植於我們生活中的每個角落。我們試圖用數據去解決問題、改善福利,並且促成新的經濟繁榮。人們紛紛流露出去大數據的高期待以及對大數據分析技術的格外看好。然而,關於大數據分析,人們鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因主要有以下兩點:一是對於大數據分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大數據分析中的某些重大要件或技術還不成熟。大數據時代下數據的海量增長以及缺乏這種大數據分析邏輯以及大數據技術的待發展,正是大數據時代下我們面臨的挑戰。
大數據的大,一般人認為指的是它數據規模的海量。隨著人類在數據記錄、獲取及傳輸方面的技術革命,造成了數據獲得的便捷與低成本,這便使原有的以高成本方式獲得的描述人類態度或行為的、數據有限的小數據已然變成了一個巨大的、海量規模的數據包。這其實是一種片面認識。其實,前大數據時代也有海量的數據集,但由於其維度的單一,以及和人或社會有機活動狀態的剝離,而使其分析和認識真相的價值極為有限。大數據的真正價值不在於它的大,而在於它的全面:空間維度上的多角度、多層次信息的交叉復現;時間維度上的與人或社會有機體的活動相關聯的信息的持續呈現。
挑戰三:數據開放與隱私的權衡
數據應用的前提是數據開放,這已經是共識。有專業人士指出,中國人口居世界首位,但2010年中國新存儲的數據為250PB,僅為日本的60%和北美的7%。目前我國一些部門和機構擁有大量數據但寧願自己不用也不願提供給有關部門共享,導致信息不完整或重復投資。2012年中國的數據存儲量達到64EB,其中55%的數據需要一定程度的保護,然而目前只有不到一半的數據得到保護。
開放與隱私如何平衡,亦是一大難題。任何技術都是雙刃劍,大數據也不例外。如何在推動數據全面開放、應用和共享的同時有效地保護公民、企業隱私,逐步加強隱私立法,將是大數據時代的一個重大挑戰。
挑戰四:大數據管理與決策
大數據的技術挑戰顯而易見,但其帶來的決策挑戰更為艱巨。大數據至關重要的方面,就是它會直接影響組織怎樣作決策、誰來作決策。在信息有限、獲取成本高昂且沒有被數字化的時代,組織內作重大決策的人,都是典型的位高權重的人,要不然就是高價請來的擁有專業技能和顯赫履歷的外部智囊。但是,在今時今日的商業世界中,高管的決策仍然更多地依賴個人經驗和直覺,而不是基於數據。
大數據開發的根本目的是以數據分析為基礎,幫助人們做出更明智的決策,優化企業和社會運轉。哈佛商業評論說,大數據本質上是「一場管理革命」。大數據時代的決策不能僅憑經驗,而真正要「拿數據說話」。因此,大數據能夠真正發揮作用,深層次看,還要改善我們的管理模式,需要管理方式和架構的與大數據技術工具相適配。這或許是我們最難邁過的一道坎了。
挑戰五:大數據人才缺口
如果說,以Hadoop為代表的大數據是一頭小象,那麼企業必須有能夠馴服它的馴獸師。在很多企業熱烈擁抱這類大數據技術時,精通大數據技術的相關人才也成為一個大缺口。
大數據建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支懂指揮、懂技術、懂管理的大數據建設專業隊伍。
⑤ 如何應對大數據的挑戰
合理獲取數據,存儲應需而變,篩選和分析大數據,理性面對大數據的誘惑,雲計算和大數據相輔相成,處理好非結構化數據,與硬體保持距離,提高大數據的可視化,安全防範必不可少。
⑥ 大數據面臨的技術挑戰
上周在大數據的趨勢和特點中,說到了人類這次面臨的問題不是問題無法解決,而是問題過於復雜。採用機械思維,其速度和效率已經趕不上新問題的產生。正是在這種分工越來越細,協作越來越緊密,問題越來越復雜的背景下,產生了大數據思維。大數據思維也由其獨特的體量大、多樣性和完備性,使得過去看來很復雜很難處理的問題變得可以解決了。
其實早在20世紀60年代就有研究學者提出採用人工智慧的方法來解決社會問題。當時的人工智慧方法還是局限於通過首先了解人類是如何產生智能,然後讓計算機按照人的思路去做。吳軍老師在《智能時代》中說到:「在人類發明的歷史上,很多領域早期的嘗試都是模仿人或者動物的行為,因為這是我們的直覺最容易想到的方法。」 但是經過十幾年的發展,科學家們發現採用上面的思路去發展人工智慧,似乎解決不了什麼實際問題。很多科學家開始反思人工智慧的發展,而在之後的20年左右的時間,在人工智慧學術界的研究是處於低谷的。20世紀70年代,人類開始嘗試智能的另一條發展道路,即採用數據驅動和超級計算的方法。即便在10年前,那時我還在念書,也曾接觸過人工神經網路演算法。很顯然,當時對機器智能的概念大家都還是比較模糊的,人工智慧也還沒有被我們提高到現在的高度。
機器智能的概念在60多年就被提出來了,真正的突破卻在具有了大數據的今天。為什麼大數據的拐點會發生在今天?大數據到底面臨何種技術挑戰?
過去的10年,最容易看到的特徵就是全球數據量呈爆炸式增長。大數據的第一個來源是電腦本身;第二個來源是感測器;第三個來源是將那些過去已經存在的、以非數字化形式儲存的信息數字化。據2015年思科公司的統計數據顯示,從2009~2015年的6年時間內,企業級數據增長了50倍。當然數據的爆炸式增長,離不開電腦硬體、軟體、互聯網、數據儲存、數據處理等一系列配套技術的發展和支撐。大數據實際上是對計算機科學、電機工程、通信、應用數學和認知科學發展的一個綜合考量。目前這些技術難題不一定有最佳的解決方案,甚至不存在什麼絕對好的解決辦法。
一、數據收集
傳統的數據方法常常是先有一個目的,然後開始收集數據。比如,海王星的發現就是在人們發現天王星運動軌跡和牛頓力學預測出來的不一樣之後,天文學家拍了很多星空的照片後發現的;心理學研究也是在有了一個明確的研究課題後,再通過實驗的方法採集數據,如 「棉花糖測驗」系列實驗,以及關於認知失調的「追隨者案例」等等。大數據則避免了采樣之苦,因為大數據常常以全集(大數據的特徵之一)作為樣本集。
但是,如何收集到全集就是一件很有挑戰的事情了。目前一些聰明公司,比如Google, Facebook, 網路,京東都是繞一個彎子,間接地去收集數據,然後利用數據的相關性,導出自己想要的結論。但是即便是這些如此成功的公司,仍然也有很多失敗的案例。2010年,Google推出了自己的電視機頂盒Google TV,為了獲取數據為進入電視廣告做准備。但是,由於Google TV銷售得很差,最終Google徹底地放棄了這產品。到目前為止,無論是Google過去的機頂盒,還是後來的Chromecast,蘋果的Apple TV,除了統計一下收視率,計算一下可能的廣告觀眾,並沒有什麼大的作為。數據收集是一個開放性的話題,不存在唯一性或最佳方法,目前仍然面臨著很大的挑戰。
二、數據儲存
僅Google街景地圖每天產生的數據量就有1TB,假如一份數據存三個拷貝,一年下來就1PB。即使使用當今最大容量的10TB硬碟,也需要用100個。因此,不能簡單地依靠設備來解決數據儲存的問題,而是需要技術解決方案來提高儲存效率,保證不斷產生出來的數據都能存得下。目前的數據儲存手段主要是從如下2個方面考慮:去除數據冗餘和便於使用。去除數據冗餘可以簡單理解為去除數據中的重復部分,比如同一份附件在所有的郵件中只儲存一次。這樣,在去除數據冗餘的過程中,相應的數據讀寫處理就要改變。是否有比現在更有效率的儲存格式或方式,仍然是大數據所面臨的挑戰。另外,便於使用的思路是從使用者的角度就去考慮數據的儲存。大數據之前,數據在設計文件系統的數據儲存格式時,主要考慮的是規模小、維度少的結構化數據。到了大數據時代,不僅數據量和維度都劇增,而且大數據在形式上也沒有固定模式,因此需要重新設計通用、有效和便捷的數據表示方式和儲存方式。
三、數據處理
大數據由於體量大、維度多,處理起來計算量巨大,其處理效率是一大技術挑戰。並行計算是目前解決計算量巨大的重要手段,但仍然存在一些的問題。例如,任何一個問題總用一部分計算是無法並行計算的,這類計算佔比越大,並行處理的效率就越低;再次,並行計算中無法保證每一個小任務的計算量是相同的,這樣一來,並行計算的效率也會大打折扣,即完成了自己計算任務的伺服器需要等待個別尚未完成的伺服器,最終的計算速度取決於最後完成的子任務。
四、數據挖掘
如何從一堆雜亂無章的數據中挖掘出有價值的信息,是機器智能的關鍵,也是大數據的使命。數據在進行降噪處理之後,基本就可以直接使用了,接下來的關鍵一步就是機器學習。目前廣泛使用的機器學習演算法有人工神經網路演算法、最大熵模型、邏輯自回歸等。Google公司的AlphaGo的訓練演算法就是人工神經網路。機器學習的過程是一個不斷迭代、不斷進化的過程,只要事先定出一個目前,這些演算法就會不斷地優化模型,讓它越來越接近真實的情況。尋找更優演算法一直也是科學家們探索的難題。
五、數據安全
大數據應用的一個挑戰還來自數據安全的擔憂和對隱私的訴求。2014年爆出的索尼公司丟失數據時,造成的損失高達1億美元。比商業數據丟失後損失更大的是醫療數據的被盜。在中國,除了在北京建立了大數據中心,還在貴陽建立了大數據災備中心,而且正籌備在內蒙古再建立另一個數據災備中心。而關於數據隱私,我想大家應該是深有感觸,由於信息泄露而帶來的騷擾電話以及電信詐騙,就發生在我們每個人身上。據《智能時代》中記載:「在美國的黑市上,一個醫療記錄的賣家是商業數據的50倍左右」。可見,數據安全已然成為大數據發展的一大隱患和難題。
上述大數據5個方面的技術挑戰並不是獨立的,而是相輔相成、互相影響的。關於大數據的技術挑戰在此僅談談個人的一點認識,希望對大家在這方面的思考有所幫助。下周我們繼續聊,大數據給我們帶來便利以及隱患。
⑦ 大數據時代的數據分析技術面臨的挑戰
數據分析是整個大數據處理流程的核心,大數據的價值產生於分析過程。從異構數據源抽取和集成的數據構成了數據分析的原始數據。根據不同應用的需求可以從這些數據中選擇全部或部分進行分析。小數據時代的分析技術,如統計分析、數據挖掘和機器學習等,並不能適應大數據時代數據分析的需求,必須做出調整。
大數據時代的數據分析技術面臨著一些新的挑戰,主要有以下幾點。
(1)數據量大並不一定意味著數據價值的增加,相反這往往意味著數據噪音的增多。因此,在數據分析之前必須進行數據清洗等預處理工作,但是預處理如此大量的數據,對於計算資源和處理演算法來講都是非常嚴峻的考驗。
(2)大數據時代的演算法需要進行調整。首先,大數據的應用常常具有實時性的特點,演算法的准確率不再是大數據應用的最主要指標。在很多場景中,演算法需要在處理的實時性和准確率之間取得一個平衡。其次,分布式並發計算系統是進行大數據處理的有力工具,這就要求很多演算法必須做出調整以適應分布式並發的計算框架,演算法需要變得具有可擴展性。許多傳統的數據挖掘演算法都是線性執行的,面對海量的數據很難在合理的時間內獲取所需的結果。因此需要重新把這些演算法實現成可以並發執行的演算法,以便完成對大數據的處理。最後,在選擇演算法處理大數據時必須謹慎,當數據量增長到一定規模以後,可以從小量數據中挖掘出有效信息的演算法並一定適用於大數據。
(3)數據結果的衡量標准。對大數據進行分析比較困難,但是對大數據分析結果好壞的衡量卻是大數據時代數據分析面臨的更大挑戰。大數據時代的數據量大,類型混雜,產生速度快,進行分析的時候往往對整個數據的分布特點掌握得不太清楚,從而會導致在設計衡量的方法和指標的時候遇到許多困難。