大數據的發展史李金昌_大數據時代的產生背景

A. 大數據的產生與發展現狀研究

摘要：大數據的產生給未來信息技術帶來新的機遇與挑戰。大數據對數據處理的有效性、實時性提出了更高要求，需要根據大數據的特點對當前數據處理技術實施變革，從而形成更有益於大數據採集、存儲、處理、管理、分析、共享的新興技術。本文從大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。

關鍵詞 ：大數據物聯網信息處理海量計算

一、大數據的產生與發展現狀

隨著物聯網、雲計算等信息技術的飛速發展，大數據技術(Big Data)也越發進入人們的視線。大數據是用傳統方法或工具很難處理或分析的數據信息。目前，人們對大數據的理解還不夠全面和深入，關於大數據的含義也沒有一個統一的定義。亞馬遜大數據科學家John Rauser認為：大數據是超過任何一台計算機處理能力的龐大數據量。Informatica 的中國區首席顧問但彬指出：大數據是海量數據與復雜類型的數據的結合。而維基網路則把大數據定義成諸多大而復雜的、難以用當前資料庫處理的數據集合。

大數據研究受到國內外學術界和工業界的廣泛關注，已成為當今信息時代全世界討論的熱點。2008年，Nature雜志就推出大數據專刊，計算社區聯盟也在同一年發表了報告《Big data computing; Creating revolutionary breakthroughs in commerce， science and society》，報告闡述了解決大數據問題所需的關鍵技術以及所面臨的挑戰。美國奧x政府於2012年3月在白宮網站發布了《大數據研究和發展倡議》，提出了通過收集、處理海量、復雜的數據信息，從而提升能力，加快科學和工程領域的創新步伐，轉變學習教育模式，強化美國本土的安全」。2011年1月，微軟公司同惠普公司合作開發了一系列能夠提升生產力，同時提高決策速度的設備。此外，歐盟委員會也提出駕駁大數據浪潮的戰略思路，日本發布的《面向 2020 的 ICT綜合戰略》也提出需要構造大量豐富的數據基礎。

近年來，我國也積極開展對大數據的研究。2011年10月，工信部確認京滬深杭等 5 城市為「雲計算中心」試點城市。2012年6月，中國計算機學會青年計算機科技論壇也舉辦了「大數據時代，智謀未來」學術報告研討會。大數據及其科學研究方法涉及應用領域很廣，並將與國計民生密切相關的科學決策、金融工程以及知識經濟領域緊緊接合。

二、大數據的特點

目前，企業界和學術界都一致認為，大數據具有4個「V」特徵，即：容量(Volume)、種類(Variety)、速度(Velocity)和至關重要的`價值(Value)。

(1) 容量(Volume)巨大。海量的數據集從TB 級別提升到PB 級別。

(2) 種類(Variety)繁多。大數據數據源有多種，數據格式和種類不同於以前所規定的結構化數據范疇。

(3)價值(Value)密度低。如視頻的例子，在不間斷連續監控的過程中，可能有意義的數據僅有一兩秒。

(4)速度(Velocity)快。包含大量實時、在線數據處理分析的需求1秒鍾定律。

三、大數據應用的領域

大數據產業的發展將推動全球經濟由粗放型向集約型轉變，這將對提升企業整體競爭力和政府監管能力具有意義深遠的影響。

商業作為大數據的重要應用領域。沃爾瑪公司通過對消費者購物行為等一系列非結構化數據的分析，了解不同顧客的購物習慣，公司從所銷售的數據進行分析，從而選出適合在一起搭配出售的商品;淘寶也針對買家開設了大數據平台，為客戶量身打造了一整套完善的網購體驗產品。

大數據在金融業也起到了至關重要的作用。美國Equifax公司利用大數據技術，通過對其的資料庫中與財務有關的記錄海量信息進行索引處理和交叉分享，從而得到客戶的個人信用等級，以推斷出客戶的支付需求與能力。

隨著大數據在醫療與生命科學研究過程中的廣泛應用和不斷擴展。2010年，中國公布的《十二五規劃》指出：要重點建設國家級、省級和地市級三級醫療衛生信息平台，建設電子病歷和電子檔案兩個最為基礎的資料庫。各級醫院也將在醫療信息倉庫、數據中心等領域加大投入，醫療數據信息的存儲將愈加被關注，醫療信息中心的關注焦點也將由傳統的計算領域轉為存儲領域。

除此之外，大數據在製造業領域也有著廣闊的應用。製造業企業積累了廣泛的數據信息，在開展對業務數據進行技術管理的同時，企業需要通過大數據處理技術來幫助決策者從資料庫儲存的海量信息中找到有價值的信息，並且對其進行分析處理，從而增強決策的正確性、規避風險。

四、大數據所面臨的挑戰

大數據技術使人們能夠更好地利用之前不能使用的各個數據類型，找出被忽略的信息，促進企業組織更加高效、智能。但隨著對大數據研究的不斷深入，人們也更加意識到當大數據技術向人們敞開「方便之門」的同時，也帶來了眾多的挑戰：

(1)大數據需要更為專業化的管理技術人才。

(2) 大數據的合理利用需要解決容量大、類別多和時效性高的數據處理問題。

(3)大數據的利用對信息安全提出了更高要求。

(4)大數據的集成與管理問題。

這些挑戰已成為關繫到未來大數據發展的重要因素，同時也成為未來引領大數據發展的推動力。

五、結束語

大數據已經逐步滲透到人們工作生活的諸多領域中，對於大數據的研究也在不斷的深化。本文針對大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。大數據的發展還處於初級階段，還有更為廣闊的空間需要人們不斷開拓，如何合理地利用大數據、更加高效地處理大數據來為人們服務仍需要廣大研究者不斷地研究和探索。

參考文獻：

[1]劉智慧，張泉靈.大數據技術研究綜述[J].浙江大學學報，2014，46(6)：957- 972.

[2]嚴霄鳳，張德馨.大數據研究[J].計算機技術與發展，2013，23(4)：168-172.

[3]劉俊.基於大數據流的Multi-Agent系統模型研究[J].計算機技術與發展， 2007，17(5)：166-169.

B. 中國大數據六大技術變遷記

中國大數據六大技術變遷記_數據分析師考試

集「Hadoop中國雲計算大會」與「CSDN大數據技術大會」精華之大成，歷屆的中國大數據技術大會（BDTC）已發展成為國內事實上的行業頂尖技術盛會。從2008年的60人Hadoop沙龍到當下的數千人技術盛宴，作為業內極具實戰價值的專業交流平台，每一屆的中國大數據技術大會都忠實地描繪了大數據領域內的技術熱點，沉澱了行業實戰經驗，見證了整個大數據生態圈技術的發展與演變。
2014年12月12-14日，由中國計算機學會（CCF）主辦，CCF大數據專家委員會協辦，中科院計算所與CSDN共同承辦的 2014中國大數據技術大會(Big Data Technology Conference 2014，BDTC 2014) 將在北京新雲南皇冠假日酒店拉開帷幕。大會為期三天，以推進行業應用中的大數據技術發展為主旨，擬設立「大數據基礎設施」、「大數據生態系統」、「大數據技術」、「大數據應用」、「大數據互聯網金融技術」、「智能信息處理」等多場主題論壇與行業峰會。由中國計算機學會主辦，CCF大數據專家委員會承辦，南京大學與復旦大學協辦的「2014年第二屆CCF大數據學術會議」也將同時召開，並與技術大會共享主題報告。
本次大會將邀請近100位國外大數據技術領域頂尖專家與一線實踐者，深入討論Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等開源軟體的最新進展，NoSQL/NewSQL、內存計算、流計算和圖計算技術的發展趨勢，OpenStack生態系統對於大數據計算需求的思考，以及大數據下的可視化、機器學習/深度學習、商業智能、數據分析等的最新業界應用，分享實際生產系統中的技術特色和實踐經驗。

大會召開前期，特別梳理了歷屆大會亮點以記錄中國大數據技術領域發展歷程，並立足當下生態圈現狀對即將召開的BDTC 2014進行展望：
追本溯源，悉大數據六大技術變遷
伴隨著大數據技術大會的發展，我們親歷了中國大數據技術與應用時代的到來，也見證了整個大數據生態圈技術的發展與衍變：
1. 計算資源的分布化——從網格計算到雲計算。回顧歷屆BDTC大會，我們不難發現，自2009年，資源的組織和調度方式已逐漸從跨域分布的網格計算向本地分布的雲計算轉變。而時至今日，雲計算已成為大數據資源保障的不二平台。
2. 數據存儲變更——HDFS、NoSQL應運而生。隨著數據格式越來越多樣化，傳統關系型存儲已然無法滿足新時代的應用程序需求，HDFS、NoSQL等新技術應運而生，並成為當下許多大型應用架構不可或缺的一環，也帶動了定製計算機/伺服器的發展，同時也成為大數據生態圈中最熱門的技術之一。
3. 計算模式改變——Hadoop計算框成主流。為了更好和更廉價地支撐其搜索服務，Google創建了Map/Rece和GFS。而在Google論文的啟發下，原雅虎工程師Doug Cutting開創了與高性能計算模式迥異的，計算向數據靠攏的Hadoop軟體生態系統。Hadoop天生高貴，時至今日已成為Apache基金會最「Hot」的開源項目，更被公認為大數據處理的事實標准。Hadoop以低廉的成本在分布式環境下提供了海量數據的處理能力。因此，Hadoop技術研討與實踐分享也一直是歷屆中國大數據技術大會最亮眼的特色之一。
4. 流計算技術引入——滿足應用的低延遲數據處理需求。隨著業務需求擴展，大數據逐漸走出離線批處理的范疇，Storm、Kafka等將實時性、擴展性、容錯性和靈活性發揮得淋漓盡致的流處理框架，使得舊有消息中間件技術得以重生。成為歷屆BDTC上一道亮麗的風景線。
5. 內存計算初露端倪——新貴Spark敢與老將叫板。 Spark發源於美國加州大學伯克利分校AMPLab的集群計算平台，它立足於內存計算，從多迭代批量處理出發，兼容並蓄數據倉庫、流處理和圖計算等多種計算範式，是罕見的全能選手。在短短4年，Spark已發展為Apache軟體基金會的頂級項目，擁有30個Committers，其用戶更包括IBM、Amazon、Yahoo!、Sohu、網路、阿里、騰訊等多家知名公司，還包括了Spark SQL、Spark Streaming、MLlib、GraphX等多個相關項目。毫無疑問，Spark已站穩腳跟。
6. 關系資料庫技術進化—NewSQL改寫資料庫歷史。關系資料庫系統的研發並沒有停下腳步，在橫向擴展、高可用和高性能方面也在不斷進步。實際應用對面向聯機分析處理（OLAP）的MPP（Massively Parallel Processing）資料庫的需求最迫切，包括MPP資料庫學習和採用大數據領域的新技術，如多副本技術、列存儲技術等。而面向聯機事務處理（OLTP）的資料庫則向著高性能演進，其目標是高吞吐率、低延遲，技術發展趨勢包括全內存化、無鎖化等。
立足揚帆，看2014大數據生態圈發展
時光荏苒，轉眼間第2014中國大數據技術大會將如期舉行。在技術日新月異的當下，2014年的BDTC上又可以洞察些什麼？這里我們不妨著眼當下技術發展趨勢：
1. MapRece已成頹勢，YARN/Tez是否可以再創輝煌？對於Hadoop來說，2014是歡欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等眾多巨頭都加大了Hadoop方面的投入。然而對於眾多機構來說，這一年卻並不輕松：基於MapRece的實時性短板以及機構對更通用大數據處理平台的需求，Hadoop 2.0轉型已勢在必行。那麼，在轉型中，機構究竟會遭遇什麼樣的挑戰？各個機構如何才能更好地利用YARN所帶來的新特性？Hadoop未來的發展又會有什麼重大變化？為此，BDTC 2014特邀請了Apache Hadoop committer，Apache Hadoop Project Management Committee（PMC）成員Uma Maheswara Rao G，Apache Hadoop committer Yi Liu，Bikas Saha（PMC member of the Apache Hadoop and Tez）等國際頂尖Hadoop專家，我們不妨當面探討。
2. 時過境遷，Storm、Kafka等流計算框架前途未卜。如果說MapRece的緩慢給眾多流計算框架帶來了可乘之機，那麼當Hadoop生態圈組件越發成熟，Spark更加易用，迎接這些流計算框架的又是什麼？這里我們不妨根據BDTC 2014近百場的實踐分享進行一個側面的了解，亦或是與專家們當面交流。
3. Spark，是顛覆還是補充？與Hadoop生態圈的兼容，讓Spark的發展日新月異。然而根據近日Sort Benchmark公布的排序結果，在海量（100TB）離線數據排序上，對比上屆冠軍Hadoop，Spark以不到十分之一的機器，只使用三分之一的時間就完成了同樣數據量的排序。毫無疑問，當下Spark已不止步於實時計算，目標直指通用大數據處理平台，而終止Shark，開啟Spark SQL或許已經初見端倪。那麼，當Spark愈加成熟，更加原生的支持離線計算後，開源大數據標准處理平台這個榮譽又將花落誰家？這里我們一起期待。
4. 基礎設施層，用什麼來提升我們的網路？時至今日，網路已成為眾多大數據處理平台的攻堅對象。比如，為了克服網路瓶頸，Spark使用新的基於Netty的網路模塊取代了原有的NIO網路模塊，從而提高了對網路帶寬的利用。那麼，在基礎設施層我們又該如何克服網路這個瓶頸？直接使用更高效的網路設備，比如Infiniband能夠帶來多少性能提升？建立一個更智能網路，通過計算的每個階段，自適應來調整拆分/合並階段中的數據傳輸要求，不僅提高了速度，也提高了利用率。在BDTC 2014上，我們可以從Infiniband/RDMA技術及應用演講，以及數場SDN實戰上吸取寶貴的經驗。
5. 數據挖掘的靈魂——機器學習。近年來，機器學習領域的人才搶奪已進入白熱化，類似Google、IBM、微軟、網路、阿里、騰訊對機器學習領域的投入也是愈來愈高，囊括了晶元設計、系統結構（異構計算）、軟體系統、模型演算法和深度應用各個方面。大數據標志一個新時代的到來，PB數據讓人們坐擁金山，然而缺少了智能演算法，機器學習這個靈魂，價值的提取無疑變得鏡花水月。而在本屆會議上，我們同樣為大家准備了數場機器學習相關分享，靜候諸位參與。
而在技術分享之外，2014年第二屆CCF大數據學術會議也將同時召開，並與技術大會共享主題報告。屆時，我們同樣可以斬獲許多來自學術領域的最新科研成果。

以上是小編為大家分享的關於中國大數據六大技術變遷記的相關內容，更多信息可以關注環球青藤分享更多干貨

C. 數據發展的歷程

大數據的發展歷程

隨著計算機和網路的發展，信息不斷「爆炸」：

1970s: 超大規模資料庫 (VLDB)【GB=10^9位元組】
21世紀初：海量數據（massive data）【TB=10^12位元組】
2008年：Big data 【PB=10^15位元組】
現在實際的數據量已經達到：ZB=10^3EB=10^6PB=10^21位元組

2008年9月4日，《自然》（Nature）刊登了一個名為「Big Data」的專輯。2011年5月，美國著名咨詢公司麥肯錫(McKinsey)發布《大數據：創新、競爭和生產力的下一個前沿》的報告，首次提出了「大數據」概念，認為數據已經成為經濟社會發展的重要推動力。大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析能力的數據集。

2013年3月29日，美國奧巴馬政府宣布推出「大數據研究和發展計劃」(Big Data Research and Development Initiative)，有人將其比之為柯林頓政府當年提出的「信息高速公路」計劃。該計劃涉及美國國家科學基金會、衛生研究院、能源部、國防部等6個聯邦政府部門，投資超兩億美元，研發收集、組織和分析大數據的工具及技術。2012年7月日本推出「新ICT戰略研究計劃」，在新一輪IT振興計劃中日本政府把大數據發展作為國家層面戰略提出。這是日本新啟動的2011年大地震族塵一度擱置的政府ICT戰略研究。英國政府也宣稱投資6億英鎊科學資金，並計劃在未輪卜來兩年內在大數據和節能計算研究投資1.89億英鎊。政府把大量的資金投入到計算基礎設施，用以捕捉並分析通過開放式數據革命獲得的數據流，帶動企業投入更多的資金。

2012年3月，我國科技部發布的「十二五國家科技計劃信息技術領域2013年度備選項目徵集指南」把大數據研究列在首位。中國分別舉辦了第一屆（2011年）兆桐禪和第二屆（2012年）「大數據世界論壇」。IT時代周刊等舉辦了「大數據2012論壇」，中國計算機學會舉辦了「CNCC2012大數據論壇」。國家科技部，863計劃信息技術領域2015年備選項目包括超級計算機、大數據、雲計算、信息安全、第五代移動通信系統（5G）等。2015年8月31日，國務院正式印發《促進大數據發展行動綱要》。

D. 為什麼說谷歌三件寶是大數據的技術起源

因為，Google是大數據鼻祖。很多人提起大數據，必然會想起Google 的「三駕馬車」（也稱谷歌三寶）：GFS、MapRece、BigTable。正所謂三篇論文定大數據之江山，它激發了大數據技術開源時代的到來，百花齊放，爭相鬥艷，成就了Hadoop的輝煌十載。尤其是近年來，大數據技術的發展，不論是襲鄭凳技術的迭代，還是生態圈的繁榮，都遠超人們的想像。從 Spark 超越 Hadoop 勇攀高峰，到 Flink 橫空出世挑戰 Spark 成為大數據處理領域一顆耀叢瞎眼的拍旅新星，再到如今 Google 又決心用 Apache Beam 一統天下。大數據開源技術的發展可謂是繼往開來，跌宕起伏，波瀾壯闊，儼然一副綿綿不斷的輝煌畫卷。

E. 大數據時代的產生背景

一、大數據時代城市管理的機遇：
首先,有利於數字化城市建設。城市化過程中出現的管理問題，傳統的城市管理方式早已對我國出現的城市問題束手無策,在大數據時代到來的背景下,數字化城市建設就呼之欲出。
其次,有利於電子政務建設。長期以來,我國政府在處理公共事務時都基本採用了傳統的處理方式,紙質化的模式占據了主要地位。隨著信息技術的不斷更新以及大數據時代的到來,電子政務也隨之應運而生。由於大數據時代的特點以及不斷更新發展,電子政務的形式也不斷得到更新。
最後,有利於智慧城市建設。智慧城市建設則是在大數據技術上產生的城市建設和管理方案。可見,大數據時代的到來更加有利於我國的智慧城市建設,為智慧城市的最終建成提供真實可靠的信息基礎。會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
二、大數據時代城市管理的挑戰：
大數據時代,機遇存在的同時也不可避免會遇到許多挑戰,數據開放不足、數據共享不足、數據質量不優等等都面臨著嚴峻的挑戰。
首先，數據開放不足。數據是信息的重要載體,信息的公開在一定意義上就是數據的公開。在所有的數據公開中,政府相關數據公開尤為引人矚目。國外早就對數據公開確立了「公開為原則,不公開為例外」的原則,我國也有類似規定,但是真實執行情況令人堪憂。
其次，數據共享不足。就目前來看,誰掌握了大量真實可靠的信息,誰就掌握了主動權,信息在一定程度上就是權威的象徵,權力和利益的象徵。再者,政府各部門大部分存在利己傾向, 信息就會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
然後，數據質量不優。數據質量問題直接影響依靠數據獲得的信息的真實有效性,最終影響整體決策的有效性。數據質量主要包括數據的真實性、完整性和有效性。數據在收集、整合、存儲和使用四個階段當中,每個階段都極有可能出現數據質量問題。在我國城市管理中,各級各部門每天都會面對大量繁瑣的數據,數據收集渠道主要有下級單位上報數據、調查統計、普查等等,每一個渠道也同樣會有很多因素影響數據質量。

F. 淺述大數據技術的發展歷程與未來發展趨勢

大數據技術的發展歷程與未來發展趨勢：

從文明之初的「結繩記事」，到文字發明後的「文以載道」，再到近現代科學的「數據建模」，數據一直伴隨著人類社會的發展變遷，承載了人類基於數據和信息認識世界的努力和取得的巨大進步。

然而，直到以電子計算機為代表的現代信息技術出現後，為數據處理提供了自動的方法和手段，人類掌握數據、處理數據的能力才實現了質的躍升。信息技術及其在經濟社會發展方方面面的應用(即信息化)，推動數據(信息)成為繼物質、能源之後的又一種重要戰略資源。

大數據於2012、2013年達到其宣傳高潮，2014年後概念體系逐漸成形，對其認知亦趨於理性。大數據相關技術、產品、應用和標准不斷發展，逐漸形成了包括數據資源與API、開源平台與工具、數據基礎設施、數據分析、數據應用等板塊構成的大數據生態系統，並持續發展和不斷完善，其發展熱點呈現了從技術向應用、再向治理的逐漸遷移。

經過多年來的發展和沉澱，人們對大數據已經形成基本共識是大數據現象源於互聯網及其延伸所帶來的無處不在的信息技術應用以及信息技術的不斷低成本化。大數據泛指無法在可容忍的時間內用傳統信息技術和軟硬體工具對其進行獲取、管理和處理的巨量數據集合，具有海量性、多樣性、時效性及可變性等特徵，需要可伸縮的計算體系結構以支持其存儲、處理和分析。

G. 誰最早提出大數據的概念

最早提出大數據的是美國數據學家維克多•邁爾-舍恩伯格。推薦他的兩本書《刪除》，《大數據時代》。

導航:首頁 > 網路數據 > 大數據的發展史李金昌

大數據的發展史李金昌

大數據技術的發展歷程與未來發展趨勢：

與大數據的發展史李金昌相關的資料

友情鏈接