A. 美國總統奧巴馬宣布啟動"大數據研究和發展計劃是哪一年
2011年初,美國政府發布了《美國創新戰略:確保美國經濟增長與繁榮》報告。該報版告不僅對奧巴馬上任以權來美國政府採取的所有創新舉措進行了系統歸納,同時也對美國未來科技發展做出了戰略規劃和部署。這意味著美國已經將創新的重心轉移到促進經濟增長與繁榮,以創新「贏得未來」。
B. 哪一年 奧巴馬 將大數據上升為國家意志
2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。
C. 大數據的歷史
李娜再度奪得大滿貫,超越了張德培的華人大滿貫紀錄,非舉國體制下的奇跡造就了舉國的愉悅。
在總結李娜成功因素的時候,也再次看到了這樣的言論:是大數據起到了重要的作用。但這次李娜奪冠,最靠譜的解釋就是李娜在卡洛斯的幫助下大大提升了心理層面的戰鬥力。
在技術層面領先的前提下,李娜在整場比賽中克服了節奏問題,她具備了一顆冠軍的心臟。2012年9月6日,代表亞洲網球至高水平的中國選手李娜在美國迎戰名將小威廉姆斯。
當時,IBM公司在綜合了美網過去8年的全部比賽數據之後,為參賽球員制定了「Keys to the march」的比賽制勝策略。李娜一方獲得贏球的關鍵包括3個指標:1.一發得分率超過69%;2.4-9拍相持中得分利率要超過48%:3.發球局30-30或40-40時得分率要超過67%。
比賽結果是,李娜潰敗。比賽結束後,IBM高調地宣布李娜僅僅完成了三項制勝策略中的項,而小威廉姆斯則完成了自己三項制勝策略中的兩項。
於是,很多人就順著IBM的思路問,李娜為什麼不照著BM的策略去打球?其實,當當事人的主觀願望不積極的時候,大數據對他們來說不過是噪音而已。同樣,數據也會因為主觀意願具有欺騙性。
我們很多時候都會被誤導,認為大數據的作用是讓歷史提示未來。其實不然。
在網球這樣的領域里,歷史數據甚至常常會成為陷阱。有意思的是,在另一場女子網球比賽中,一位球員做到了IBM為其制定的三項指標中的兩個,她卻失敗了。
而勝利的一方,只完成了一個指標。
可按照時間點劃分大數據的發展歷程。
大數據時代發展的具體歷程如下:2005年Hadoop項目誕生。 Hadoop其最初只是雅虎公司用來解決網頁搜索問題的一個項目,後來因其技術的高效性,被Apache Software Foundation公司引入並成為開源應用。
Hadoop本身不是一個產品,而是由多個軟體產品組成的一個生態系統,這些軟體產品共同實現全面功能和靈活的大數據分析。從技術上看,Hadoop由兩項關鍵服務構成:採用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務,以及利用一種叫做MapRece技術的高性能並行數據處理服務。
這兩項服務的共同目標是,提供一個使對結構化和復雜數據的快速、可靠分析變為現實的基礎。2008年末,「大數據」得到部分美國知名計算機科學研究人員的認可,業界組織計算社區聯盟 (puting munity Consortium),發表了一份有影響力的白皮書《大數據計算:在商務、科學和社會領域創建革命性突破》。
它使人們的思維不僅局限於數據處理的機器,並提出:大數據真正重要的是新用途和新見解,而非數據本身。此組織可以說是最早提出大數據概念的機構。
2009年印度 *** 建立了用於身份識別管理的生物識別資料庫,聯合國全球脈沖項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。同年,美國 *** 通過啟動://Data.gov網站的方式進一步開放了數據的大門,這個網站向公眾提供各種各樣的 *** 數據。
該網站的超過4.45萬量數據集被用於保證一些網站和智能手機應用程序來跟蹤從航班到產品召回再到特定區域內失業率的信息,這一行動激發了從肯亞到英國范圍內的 *** 們相繼推出類似舉措。2009年,歐洲一些領先的研究型圖書館和科技信息研究機構建立了夥伴關系致力於改善在互聯網上獲取科學數據的簡易性。
2010年2月,肯尼斯庫克爾在《經濟學人》上發表了長達14頁的大數據專題報告《數據,無所不在的數據》。庫克爾在報告中提到:「世界上有著無法想像的巨量數字信息,並以極快的速度增長。
從經濟界到科學界,從 *** 部門到藝術領域,很多方面都已經感受到了這種巨量信息的影響。科學家和計算機工程師已經為這個現象創造了一個新詞彙:「大數據」。
庫克爾也因此成為最早洞見大數據時代趨勢的數據科學家之一。2011年2月,IBM的沃森超級計算機每秒可掃描並分析4TB(約2億頁文字量)的數據量,並在美國著名智力競賽電視節目《危險邊緣》「Jeopardy」上擊敗兩名人類選手而奪冠。
後來 *** 認為這一刻為一個「大數據計算的勝利。」 相繼在同年5月,全球知名咨詢公司麥肯錫(McKinsey&pany)肯錫全球研究院(MGI)發布了一份報告——《大數據:創新、競爭和生產力的下一個新領域》,大數據開始備受關注,這也是專業機構第一次全方面的介紹和展望大數據。
報告指出,大數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。
報告還提到,「大數據」源於數據生產和收集的能力和速度的大幅提升——由於越來越多的人、設備和感測器通過數字網路連接起來,產生、傳送、分享和訪問數據的能力也得到徹底變革。2011年12 月,工信部發布的物聯網十二五規劃上,把信息處理技術作為4 項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。
2012年1月份,瑞士達沃斯召開的世界經濟論壇上,大數據是主題之一,會上發布的報告《大數據,大影響》(Big Data, Big Impact) 宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。2012年3月,美國奧巴馬 *** 在白宮網站發布了《大數據研究和發展倡議》,這一倡議標志著大數據已經成為重要的時代特徵。
2012年3月22日,奧巴馬 *** 宣布2億美元投資大數據領域,是大數據技術從商業行為上升到國家科技戰略的分水嶺,在次日的電話會議中, *** 對數據的定義「未來的新石油」,大數據技術領域的競爭,事關國家安全和未來。並表示,國家層面的競爭力將部分體現為一國擁有數據的規模、活性以及解釋、運用的能力;國家數字 *** 體現對數據的佔有和控制。
數字 *** 將是繼邊防、海防、空防之後,另一個大國博弈的空間。2012年4月,美國軟體公司Splunk於19日在納斯達克成功上市,成為第一家上市的大數據處理公司。
鑒於美國經濟持續低靡、股市持續震盪的大背景,Splunk首日的突出交易表現尤其令人們印象深刻,首日即暴漲了一倍多。Splunk是一家領先的提供大數據監測和分析服務的軟體提供商,成立於2003年。
Splunk成功上市促進了資本市場對大數據的關注,同時也促使IT廠商加快大數據布局。2012年7月,聯合國在紐約發布了一份關於大數據政務的白皮書,總結了各國 *** 如何利用大數據更好地服務和保護人民。
這份白皮書舉例說明在一個數據生態系統中,個人、公共部門和私人部門各自的角色、動機和需求:例如通過對價格關注和更好服務的渴望,個人提供數據和眾包信息,並對隱。
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。
它已經上過《 *** 》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。 數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《 *** 》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是 *** ,所有領域都將開始這種進程。」
。
大數據時代:最早提出大數據時代到來的是全球知名咨詢公司麥肯錫, 大數據在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
大數據提出的背景:進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《 *** 》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。正如《 *** 》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是 *** ,所有領域都將開始這種進程。」 (3)奧巴馬大數據投資擴展閱讀 大數據影響 現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。
大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。 在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。
有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。
這些數據的規模是如此龐大,以至於不能用G或T來衡量。大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量)。
發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬…… 截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB) EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。
而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。
而到了2020年,全世界所產生的數據規模將達到今天的44倍。 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。
然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。這樣的趨勢會持續下去。
我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。
大數據的精髓 大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制); B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可。
適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力; C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大。
大數據是一種現代雲基礎架構,它包含了多種與其他人連接和共享信息的方法。它推動了「物聯網」的發展,如通過社交網站連接人、通過共享朋友或網路來尋找人們之間互相認識的可能性。大數據的背後運行著人工智慧,而它對於大多數人而言是完全透明的,人們不知道背後有這樣的技術。大數據位於人們日常使用的智能手機之後,然後人們通過它給移動互聯網貢獻信息,即使他們並沒有意識到這一點。
為什麼大數據如此重要?
第一,對大數據的處理分析正成為新一代信息技術融合應用的結點。移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
第二,大數據是信息產業持續高速增長的新引擎。面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。
第三,大數據利用將成為提高核心競爭力的關鍵因素。各行各業的決策正在從「業務驅動」 轉變「數據驅動」。
總結
在大數據時代到來的時候,要用大數據的思維去發掘大數據的潛在價值。大數據的意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。從前我們所了解的數據是冷冰冰的、死氣沉沉的,被存到冷備份默默地等著人拿出來用,我們對待數據的感覺十分消極,要先想清楚其用處才開始分析應用。現在,數據時代來臨了,人們正在試圖點燃數據,使其變熱,賦予生命。所謂「活數據」,是動態的數據,流通的數據,因互動而產生,因產生而互動,是自然演化的數據,要用大數據的思維去考慮這些數據怎樣才能帶來效益。未來大數據的發展前景非常好,與大數據相關的職業比如數據挖掘師,數據分析師等必定會有廣闊的發展空間。
這個問題是這樣的:
首先你要明確你的插入是正常業務需求么?如果是,那麼只能接受這樣的數據插入量。
其次你說資料庫存不下了 那麼你可以讓你的資料庫上限變大 這個你可以在資料庫裡面設置的 裡面有個資料庫文件屬性 maxsize
最後有個方法可以使用,如果你的歷史數據不會對目前業務造成很大影響 可以考慮歸檔處理 定時將不用的數據移入歷史表 或者另外一個資料庫。
注意平時對資料庫的維護 定期整理索引碎片
D. 大數據發展的三個必要條件
大數據發展的三個必要條件_數據分析師考試
近年來,關於大數據的討論在技術、應用和模式等多個層面展開,已被認為代表著產業發展的方向。但與互聯網公司的諸多實踐相比,被認為具有數據資源先天優勢的電信運營商卻走在了後面,即便放眼全球,電信運營商的大數據應用案例也是屈指可數。移動寬頻和固網寬頻快速發展、OTT的強勢崛起決定了電信運營商必須充分利用自身掌握的數據資源,另闢蹊徑,從而實現網路價值的最大化。因此,電信運營商應用大數據是必然的,而且市場前景十分廣闊。
為了加快大數據的「落地」步伐,幫助業界各方特別是電信運營企業更好地了解大數據,認清大數據戰略發展的重要性,分析發展道路上面臨的難題和障礙,促進大數據產業鏈的成熟,推動大數據的應用推廣。從今天開始,《人民郵電》報特邀來自中興通訊、電信研究院以及三大運營商等單位的專家,推出「掘金大數據」系列報道,以饗讀者。
大數據概念的橫空出世,有賴於短短幾年出現的海量數據。據統計,互聯網上的數據每兩年翻一番,而目前世界上90%以上的數據都是最近幾年才產生的。當然,海量數據僅僅是「大數據」概念的一部分,只有具備4個「V」的特徵,也就是Volume(海量)、Velocity(高速)、Variety(多樣)、Value(價值),大數據的定義才算完整,而最後一個Value(價值),恰恰是決定大數據未來走向的關鍵。
大數據發展的三個必要條件
大數據的發展需要三方面的必要條件:數據源、數據交易、數據產生價值的過程。近年來,社交網路的興起、物聯網的發展和移動互聯網的普及,微信、微博、智能手機、電商大行其道,誕生了大量有價值的數據源,比如位置、生活信息等數據,數據源的出現奠定了大數據發展的基礎。大數據時代到來的重要標志,則是大批專業級「數據買賣商」的出現,以及圍繞數據交易形成的貫穿於收集、整理、分析、應用整個流程的產業鏈條。大數據發展的核心,則是使用戶從海量的非結構化數據和半結構化數據中獲得新的價值,數據價值是帶動數據交易的原動力。
IBM、甲骨文、SAP近年紛紛斥巨資收購數據管理和分析公司,在這些互聯網巨頭的帶動下,數據分析技術日漸成熟。2013年6月,愛德華·斯諾登將「棱鏡」計劃公之於眾,「棱鏡門」事件一方面說明大數據技術已經成熟,另一方面也佐證了現在阻礙大數據發展的不是技術,而是數據交易和數據價值。
大數據技術的發展促進了雲計算的落地,雲計算的部署完成又反過來加大了市場對數據創造價值的期待。大數據概念提出之後,市場終於看到了雲計算的獲利方向,雲計算市場彷彿在一夜之間爆發,在過去一兩年間幾乎已經被國內大方案商、大集成商瓜分殆盡——各地的一級系統集成商與當地政府合作,建雲數據中心,建智慧城市;各大行業的巨頭們在搭建各自行業的混合雲標准,搭建行業雲平台;公有雲也來了,各大IT巨頭想盡辦法申請中國的公有雲牌照。雲計算從概念到落地用了5年時間,最終促成這一切的就是大數據,或者說是市場對數據價值的期待。藉助於國內智慧城市概念的大規模普及,雲計算基礎設施已基本准備就緒,一方面具備了大數據應用的硬體基礎,另一方面迫於回收雲計算投資的壓力,市場急需應用部署,大數據恰如雪中送炭,被市場寄予厚望。
現在,一切的矛頭都指向了「數據如何創造價值?」
56數據創造價值的基石6是數據整合和開放
大數據服務創業公司Connotate對800多名商業和IT主管進行了調查。結果顯示,60%受調查者稱「目前就說這些大數據投資項目肯定能夠帶來良好回報尚為時過早」。之所以如此,是由於當前大數據缺乏必需的開放性:數據掌握在不同的部門和企業手中,而這些部門和企業並不願意分享數據。大數據通過研究數據的相關性來發現客觀規律,這依賴於數據的真實性和廣泛性,數據如何做到共享和開放,這是當前大數據發展的軟肋和需要解決的大問題。
2012年美國大選奧巴馬因數據整合而受益。在奧巴馬的競選團隊中有一個神秘的數據挖掘團隊,他們通過對海量數據進行挖掘幫助奧巴馬籌集到10億美元資金;他們通過數據挖掘使競選廣告投放效率提升了14%;他們通過製作搖擺州選民的詳細模型,每晚實施6.6萬次模擬選舉,推算奧巴馬在搖擺州的勝率,並以此來指導資源分配。這個數據挖掘團隊,對奧巴馬成功連任功不可沒。奧巴馬競選團隊相比羅姆尼競選團隊最有優勢的地方就是對大數據的整合。奧巴馬的數據挖掘團隊也意識到這個全世界共同的問題:數據分散在過多的資料庫中。因此,在前18個月,奧巴馬競選團隊就創建了一個單一的龐大數據系統,可以將來自民意調查者、捐資者、現場工作人員、消費者資料庫、社交媒體,以及「搖擺州」主要的民主黨投票人的信息整合在一起。這個整合後的巨大資料庫不僅能告訴競選團隊如何發現選民並獲得他們的注意,還幫助數據處理團隊預測哪些類型的人有可能被某種特定的事情所說服。正如競選總指揮吉姆·梅西納所說,在整個競選活中,沒有數據做支撐的假設很少存在。
2012年3月,美國奧巴馬政府宣布投資2億美元啟動「大數據研究和發展計劃」,將大數據研究上升為國家意志,對大數據的整合帶來深遠影響。一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分。國內智慧城市的建設目標之一就是實現數據的集中共享。
數據創造價值需要合作共贏的商業模式
隨著雲計算、大數據技術和相關商業環境的不斷成熟,越來越多的「軟體開發者」正在利用跨行業的大數據平台,打造創新價值的大數據應用,而且這一門檻正在不斷降低。因為首先,數據擁有者樂於做這樣的事情,他們能夠以微乎其微的成本獲取額外的收入,提高利潤水平;其次,大數據設備廠商樂於做這樣的事情,因為廠商需要應用來吸引消費者購買設備,發展合作共贏的夥伴關系勢必比單純銷售設備要有利可圖,一些具有遠見的廠商已經開始通過提供資金、技術支持、入股等方式來扶持這些「軟體開發者」;第三,行業細分市場的數據分析應用需求在不斷加大,對於整個大數據產業鏈來說,創新型的行業數據應用開發者必將是未來整個大數據產業鏈中最為活躍的部分。
在必然到來的大數據時代,有三種企業將在「大數據產業鏈」中處於重要地位:掌握海量有效數據的企業,有著強大數據分析能力的企業,以及創新的「軟體開發者」。社交網路、移動互聯網、信息化企業、電信運營商都是海量數據的製造者,Facebook公司手中掌握著8.5億用戶,淘寶注冊用戶超過3.7億,騰訊的微信用戶突破3億,這些龐大用戶群所提供的數據,正在等待時機釋放出巨大的商業能量。可以預測,在不久的將來,Facebook、騰訊、電信運營商等海量數據持有者要麼自我發展成為數據分析提供商,要麼與IBM、ZTE等企業密切對接成為上下游合作企業,大數據產業鏈將在某個爆發點到來之際,以令人驚訝的速度成長壯大。
警惕大數據的危害
大數據時代,傳統的隨機抽樣被「所有數據的匯攏」所取代,人們的思維決斷模式,已可直接根據「是什麼」來下結論,由於這樣的結論剔除了個人情緒、心理動機、抽樣精確性等因素的干擾,因此將更精確、更有預見性。不過,由於大數據過於依靠數據的匯集,一旦數據本身有問題,就很可能出現「災難性大數據」,即因為數據本身的問題,而導致錯誤的預測和決策。
大數據的理論是「在稻草堆里找一根針」,而如果「所有稻草看上去都挺像那根針」呢?過多但無法辨析真偽和價值的信息和過少的信息一樣,對於需要作出瞬間判斷、一旦判斷出錯就很可能造成嚴重後果的情況而言,同樣是一種危害。大數據理論是建立在「海量數據都是事實」的基礎上,而如果數據提供者造假呢?這在大數據時代變得更有害,因為,人們無法控制數據提供者和搜集者本人的偏見與過濾。擁有最完善資料庫、最先接受「大數據」理念的華爾街投行和歐美大評級機構,卻每每在重大問題上判斷出錯,這本身就揭示了「大數據」的局限性。
不僅如此,大數據時代造就了一個資料庫無所不在的世界,數據監管部門面臨前所未有的壓力和責任:如何避免數據泄露對國家利益、公眾利益、個人隱私造成傷害?如何避免信息不對等,對弱勢群體的利益構成傷害?在有效控制風險之前,也許還是讓大數據繼續待在「籠子」里更好一些。
大數據的經濟價值已經被人們所認可,大數據的技術也已經逐漸成熟,一旦完成數據的整合和監管,大數據爆發的時代即將到來。我們現在要做的,就是選好自己的方向,為迎接大數據的到來,提前做好准備。
以上是小編為大家分享的關於大數據發展的三個必要條件的相關內容,更多信息可以關注環球青藤分享更多干貨
E. 什麼是大數據時代
大數據時代
(巨量資料(IT行業術語))
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」 「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
中文名
大數據時代
外文名
Big data
提出者
麥肯錫
類 屬
科技名詞
目錄
1 產生背景
2 影響
▪ 大數據
▪ 大數據的精髓
▪ 數據價值
▪ 可視化
3 特徵
4 案例分析
5 產業崛起
6 提供依據
7 應對措施
產生背景
編輯
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」[2]
影響
編輯
大數據
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。[5] 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。[5]
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。[6]
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
數據價值
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
特徵
編輯
數據量大(Volume)
第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
類型繁多(Variety)
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
價值密度低(Value)
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
速度快、時效高(Velocity)
第四個特徵是處理速度快,時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
既有的技術架構和路線,已經無法高效處理如此海量的數據,而對於相關組織來說,如果投入巨大採集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。[2]
案例分析
編輯
個案一
你開心他就買你焦慮他就拋[2]
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以「1」到「50」進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司(IBM)估測,這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街,這一時效至關重要。曾經,華爾街2%的企業搜集微博等平台的「非正式」數據;如今,接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃,和微博推特是合作夥伴。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網頁流量分析工具)公司,你可以知道有多少人訪問你的網站,以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉,進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化:他把客戶請到辦公室,將包含這些公司的數據圖譜展現出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型,弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb
商用大數據生態圈:
1、一體機資料庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
產業崛起
編輯
越來越多的政府、企業等機構開始意識到數據正在成為組織最重要的資產,數據分析能力正在成為組織的核心競爭力。具體有以下三大案例:
1、2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」,並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
2、聯合國也在2012年發布了大數據政務白皮書,指出大數據對於聯合國和各國政府來說是一個歷史性的機遇,人們如今可以使用極為豐富的數據資源,來對社會經濟進行前所未有的實時分析,幫助政府更好地響應社會和經濟運行。
3、而最為積極的還是眾多的IT企業。麥肯錫在一份名為《大數據,是下一輪創新、競爭和生產力的前沿》的專題研究報告中提出,「對於企業來說,海量數據的運用將成為未來競爭和增長的基礎」,該報告在業界引起廣泛反響。
IBM則提出,上一個十年,他們拋棄了PC,成功轉向了軟體和服務,而這次將遠離服務與咨詢,更多地專注於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,「數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。」
在國內,網路已經致力於開發自己的大數據處理和存儲系統;騰訊也提出2013年已經到了數據化運營的黃金時期,如何整合這些數據成為未來的關鍵任務。
事實上,自2009年以來,有關「大數據」 主題的並購案層出不窮,且並購數量和規模呈逐步上升的態勢。其中,Oracle對Sun、惠普對Autonomy兩大並購案總金額高達176億美元,大數據的產業價值由此可見一斑。[1-2]
提供依據
編輯
大數據是信息通信技術發展積累至今,按照自身技術發展邏輯,從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和採集終端為我們採集了海量的數據,而以雲計算為代表的計算技術的不斷進步,為我們提供了強大的計算能力,這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界[1-2] 。
大數據雖然孕育於信息通信技術的日漸普遍和成熟,但它對社會經濟生活產生的影響絕不限於技術層面,更本質上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基於數據分析做出,而不是像過去更多憑借經驗和直覺做出。
事實上,大數據的影響並不僅僅限於信息通信產業,而是正在「吞噬」和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中,數據分析的技術與手段更是得到廣泛的應用,傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析,為用戶提供更加專業化和個性化的服務。
最讓人吃驚的例子是,社交媒體監測平台DataSift監測了Facebook(臉譜) IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面,25分鍾之後Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時,Facebook股價在8分鍾之後也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時,10分鍾後Facebook的股價又開始下跌。最終的結論是:Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動。
這僅僅只是基於社交網路產生的大數據「預見未來」的眾多案例之一,此外還有谷歌通過網民搜索行為預測流感爆發等例子。不僅在商業方面,大數據在社會建設方面的作為同樣令人驚嘆,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等的蓬勃興起,都與大數據技術與應用的發展息息相關。
「大數據」可能帶來的巨大價值正漸漸被人們認可,它通過技術的創新與發展,以及數據的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基於事實與數據做出決策,這樣的思維方式,可以預見,將推動一些習慣於靠「差不多」運行的社會發生巨大變革。
應對措施
編輯
一個好的企業應該未雨綢繆,從現在開始就應該著手准備,為企業的後期的數據收集和分析做好准備,企業可以從下面六個方面著手,這樣當面臨鋪天蓋地的大數據的時候,以確保企業能夠快速發展,具體為下面六點。
目標
幾乎每個組織都可能有源源不斷的數據需要收集,無論是社交網路還是車間感測器設備,而且每個組織都有大量的數據需要處理,IT人員需要了解自己企業運營過程中都產生了什麼數據,以自己的數據為基準,確定數據的范圍。
准則
雖然每個企業都會產生大量數據,而且互不相同、多種多樣的,這就需要企業IT人員在現在開始收集確認什麼數據是企業業務需要的,找到最能反映企業業務情況的數據。
重新評估
大數據需要在伺服器和存儲設施中進行收集,並且大多數的企業信息管理體系結構將會發生重要大變化,IT經理則需要准備擴大他們的系統,以解決數據的不斷擴大,IT經理要了解公司現有IT設施的情況,以組建處理大數據的設施為導向,避免一些不必要的設備的購買。
重視大數據技術
大數據是最近幾年才興起的詞語,而並不是所有的IT人員對大數據都非常了解,例如如今的Hadoop,MapRece,NoSQL等技術都是2013年剛興起的技術,企業IT人員要多關注這方面的技術和工具,以確保將來能夠面對大數據的時候做出正確的決定。
培訓企業的員工
大多數企業最缺乏的是人才,而當大數據到臨的時候,企業將會缺少這方面的採集收集分析方面的人才,對於一些公司,特別是那種人比較少的公司,工作人員面臨大數據將是一種挑戰,企業要在平時的時候多對員工進行這方面的培訓,以確保在大數據到來時,員工也能適應相關的工作。
培養三種能力
Teradata大中華區首席執行官辛兒倫對新浪科技表示,隨著大數據時代的到來,企業應該在內部培養三種能力。第一,整合企業數據的能力;第二,探索數據背後價值和制定精確行動綱領的能力;第三,進行精確快速實時行動的能力。
做到上面的幾點,當大數據時代來臨的時候,面臨大量數據將不是束手無策,而是成竹在胸,而從數據中得到的好處也將促進企業快速發展。
望採納,謝謝
F. 介紹有關計算機的一種前端技術
大數據基礎概念
「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」——馬雲卸任演講
本文嘗試從三大產業的角度將大數據的核心商業價值分類討論。
首先例舉一些大數據的典型應用,然後解釋大數據的定義,最後總結大數據的價值。
我們知道:
第一次工業革命以煤炭為基礎,蒸汽機和印刷術為標志,
第二次工業革命以石油為基礎,內燃機和電信技術為標志,
第三次工業革命以核能基礎,互聯網技術為標志,
第四次工業革命以可再生能源為基礎,_________為標志。
空白處你會填上什麼?歡迎大家討論。但是目前可以預測的是,數據和內容作為互聯網的核心,不論是傳統行業還是新型行業,誰率先與互聯網融合成功,能夠從大數據的金礦中發現暗藏的規律,就能夠搶佔先機,成為技術改革的標志。
一、大數據的應用
大數據挖掘商業價值的方法主要分為四種:
客戶群體細分,然後為每個群體量定製特別的服務。
模擬現實環境,發掘新的需求同時提高投資的回報率。
加強部門聯系,提高整條管理鏈條和產業鏈條的效率。
降低服務成本,發現隱藏線索進行產品和服務的創新。
Mckinsey列出了各個行業利用大數據價值的難易度以及發展潛力。《Big data: The next frontier for innovation, competition, and proctivity》
各種Data之間的關系圖,注意Open Data是完全包含了Open government data(政府開放數據)
Mckinsey也列出了Open Data時代里七大行業潛在的經濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫療護理、消費金融。(感謝知友安陽提供的補充鏈接資料)
大數據的類型大致可分為三類:
傳統企業數據(Traditional enterprise data):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。
機器和感測器數據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業設備感測器,設備日誌(通常是Digital exhaust),交易數據等。
社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。
從理論上來看:所有產業都會從大數據的發展中受益。但由於數據缺乏以及從業人員本身的原因,第一、第二產業的發展速度相對於第三產業來說會遲緩一些。
(2).第二產業
2013年9月,工業和信息化部發布了《關於印發信息化和工業化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯網在工業領域的集成創新和應用:
實施物聯網發展專項,在重點行業組織開展試點示範,以感測器和感測器網路、RFID、工業大數據的應用為切入點,重點支持生產過程式控制制、生產環境檢測、製造供應鏈跟蹤、遠程診斷管理等物聯網應用,促進經濟效益提升、安全生產和節能減排。
大數據的業務多是數據驅動型,具有數據量大、種類多、實時性高的特點。工業企業對數據的記錄以往看來主要分為兩種方法:傳統的紙筆和Excel電子表格記錄。這些操作起來看似簡單的數據管理方式為企業生產及質量監控埋下了巨大的隱患,也讓數據挖掘無從談起。
隨著信息化與工業化的融合發展,信息技術滲透到了工業企業產業鏈的各個環節。例如Sensor、RFID、Barcode、物聯網等技術已經在企業中得到初步應用,工業大數據也開始逐漸得到積累。企業中生產線高速運轉時機器所產生的數據量不亞於計算機數據,而且數據類型多是非結構化數據,對數據的實時性要求也更高。因此工業大數據所面臨的問題和挑戰很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監William Ruh認為相對於工業大數據來說,工業互聯網(Instrial Internet)才是當前急需的,因為大數據本身並沒有讓信息的提取更加智能,業務比數據本身更加重要。他舉了一個核磁共振成像掃描的例子:
Here』s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data proced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many indivials working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.
又如在工業中,壓力、溫度等數據的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數與一台機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常復雜的演算法運行模型。在筆記本電腦上,一個典型的查詢要獲得答案一般需要三個星期。在基於大數據的分布式系統上發布同樣的查詢執行一種計算只需要不到一秒鍾。
第三方認證機構(TÜV NORD GROUP),工業
德國漢德技術監督服務有限公司的前身是德國鍋爐檢驗協會(簡稱TÜV)早在1869年,德國鍋爐檢驗協會就承擔了德國國內所有鍋爐運行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協會取得了德國政府的授權,開展對其他產品的檢驗工作,從采礦,電力系統開始,到壓力容器,機動車輛,醫療設備,環境保護,宇航工業,醫療產品等等,現在的德國漢德技術監督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業質量管理體系,生產環境體系,生產碳排放方案等。TÜV當前從建築綠色標准體系方面提出了對於大數據能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個項目實施中引入大數據能源管理,在建築的設計規劃階段、施工階段、運營階段等多個階段通過數據化的能源管理系統,實現建築的低碳、綠色、智能。
工業自動化軟體商(Wonderware ),工業
Wonderware作為系統軟體涉及的專業企業,對於大數據的計算和運用是從比較「IT」的角度出發的。Wonderware 的實時數據管理軟體能夠提供一個工廠所需要的從建立到報廢的所有實時數據。目前已經退出移動版本,工程總監在手機上就能夠隨時隨地監控設備的運行狀況。目前全球超過三分之一的工廠應用Wonderware公司的軟體解決方案。
了解更多:
大數據在電力行業的應用前景有哪些?
(3).第三產業
這一個部分的內容比較多。這里只提出一些典型的應用例子,歡迎補充。
健康與醫療:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕帶可以收集有關我們走路或者慢跑的數據,例如行走步數、卡路里消耗、睡眠時長等數據與健康記錄來改善我們的健康狀況;Early Detection of Patient Deterioration等公司正在開發床墊監測感測器,自動監測和記錄心臟速率、呼吸速率、運動和睡眠活動。該感測器收集的數據以無線方式被發送到智能手機和平板電腦進行進一步分析;美國公共衛生協會(APHA: American Public Health Association)開發Flu Near You用來的症狀,通過大數據分析生成報告顯示用戶所在地區的流感活動。
視頻:互聯網電視能夠追蹤你正在看的內容,看了多長時間,甚至能夠識別多少人坐在電視機前,來確定這個頻道的流行度。Netflix 美國國內規模最大的商業視頻流供應商,收集的數據包括用戶在看什麼、喜歡在什麼時段觀看、在哪裡觀看以及使用哪些設備觀看等。甚至記錄用戶在哪視頻的哪個時間點後退、快進或者暫停,乃至看到哪裡直接將視頻關掉等信息。典型的應用是Netflix公司利用數據說服BBC重新翻拍了電視連結劇《紙牌屋》,而且成功的挖掘出演員Kevin Spacey和導演David Fincher的支持者與原劇集粉絲的關聯性,確定新劇拍攝的最佳人選。
When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.
交通:《車來了》通過分析公交車上GPS定位系統每天的位置和時間數據,結合時刻表預測出每一輛公交車的到站時間;WNYC開發的Transit Time NYC通過開源行程平台(Github:OpenTripPlanner和MTA )獲取的數據將紐約市劃分成2930個六邊形,模擬出從每一個六邊形中點到邊緣的時間(地鐵和步行,時間是上午九點),最終建模出4290985條虛擬線路。用戶只需點擊地圖或者輸入地址就能知道地鐵到達每個位置的時間;實時交通數據採集商INRIX-Traffic的口號是(永不遲到!^^),通過記錄每位用戶在行駛過程中的實時數據例如行駛車速,所在位置等信息並進行數據匯總分析,而後計算出最佳線路,讓用戶能夠避開擁堵。
電子商務:Decide 是一家預測商品價格並為消費者提出購買時間建議的創業公司,通過抓取亞馬遜、百思買、新蛋及全球各大網站上數以十億計的數據進行分析,最終整合在一個頁面中方便消費者對比查看,並且能夠預測產品的價格趨勢,幫助用戶確定商品的最好購買時機。已經於2013年被 eBay收購。
政治:奧巴馬在總統競選中使用大數據分析來收集選民的數據,讓他可以專注於對他最感興趣的選民,谷歌執行董事長Eric Schmidt當時向奧巴馬的大數據分析團隊投資數百萬美元並聚攏核心成員成立了Civis Analytics咨詢公司,該公司將會將在奧巴馬連任競選中所獲得的經驗應用到商業和非營利行業中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)
金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill創立金融數據分析服務提供商,使用機器學習演算法和大數據為放款者提供承保模式,旨在為那些個人信用不良或者不滿足傳統銀行貸款資格的個人提供服務。公司使用分析模型對每位信貸申請人的上萬條原始信息數據進行分析,只需幾秒時間便可以得出超過十萬個行為指標。目前違約率比行業平均水平低 60%左右。另外一個不得不提到的是風險管理先驅者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通過大數據分析為銀行和信用卡發卡機構、保險、醫療保健、政府和零售行業提供服務。FICO 信用分計算的基本思想是:把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發展趨勢是否相似。FICO 已經為三分之二的世界 100 強銀行提供服務,提高了客戶忠誠度和盈利率、減少欺詐損失、管理信貸風險、滿足監管與競爭要求並快速獲取市場份額。想了解更多的企業可以看看附錄中《經濟學人》的文章《Big data: Crunching the numbers》。
電信: 美國T-mobiles採用Informatica - The Data Integration Company平台開展大數據工作,通過集成數據綜合分析客戶流失的原因,根據分析結果優化網路布局為客戶提供了更好的體驗,在一個季度內將流失率減半;韓國 SK telecom新成立一家公司SK Planet,通過大數據分析用戶的使用行為,在用戶做出決定之前推出符合用戶興趣的業務防止用戶流失。美國AT&T 公司將記錄用戶在Wifi網路中的地理位置、網路瀏覽歷史記錄以及使用的應用等數據銷售給廣告客戶。比如當用戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優惠券。英國BT - Broadband公司發布了新的安全數據分析服務Assure Analytics—BT news releases,幫助企業收集、管理和評估大數據集,將這些數據通過可視化的方式呈現給企業,幫助企業改進決策。
一般來說盈利性質的商業公司和企業都不會輕易泄露自己的數據、建模方法和分析過程,所以還有很多大家不知道的神秘應用潛伏在黑暗裡,如同《三體》中的」黑暗森林法則「。
宇宙就是一座黑暗森林,每個文明都是帶槍的獵人,像幽靈般潛行於林間,輕輕撥開擋路的樹枝,竭力不讓腳步發出一點兒聲音,連呼吸都必須小心翼翼:他必須小心,因為林中到處都有與他一樣潛行的獵人,如果他發現了別的生命,能做的只有一件事:開槍消滅之。在這片森林中,他人就是地獄,就是永恆的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對費米悖論的解釋。
二、大數據的定義
大數據(Big Data)是指「無法用現有的軟體工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。」業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。
數據體量巨大(Volume)。截至目前,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。
數據類型繁多(Variety)。相對於以往便於存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網路日誌、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
價值密度低(Value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器演算法更迅速地完成數據的價值「提純」成為目前大數據背景下亟待解決的難題。
處理速度快(Velocity)。大數據區分於傳統數據挖掘的最顯著特徵。根據IDC的「數字宇宙」的報告,預計到2020年,全球數據使用量將達到35.2ZB。
看看專家們怎麼說。
舍恩伯格,大數據時代 (豆瓣)
不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。
埃里克·西格爾,大數據預測 (豆瓣)
大數據時代下的核心,預測分析已在商業和社會中得到廣泛應用。隨著越來越多的數據被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。
城田真琴,大數據的沖擊 (豆瓣)
從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。 它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
三、大數據的價值
了解了大數據的典型應用,理解了大數據的定義。這時相信在每個人的心中,關於大數據的價值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。
Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of indivials, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each indivial』s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
而大數定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似於它概率。「有規律的隨機事件」在大量重復出現的條件下,往往呈現幾乎必然的統計特性。
舉個例子,我們向上拋一枚硬幣,硬幣落下後哪一面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多後,達到上萬次甚至幾十萬幾百萬次以後,我們就會發現,硬幣每一面向上的次數約占總次數的二分之一。偶然中包含著某種必然。
隨著計算機的處理能力的日益強大,你能獲得的數據量越大,你能挖掘到的價值就越多。
實驗的不斷反復、大數據的日漸積累讓人類發現規律,預測未來不再是科幻電影里的讀心術。
如果銀行能及時地了解風險,我們的經濟將更加強大。
如果政府能夠降低欺詐開支,我們的稅收將更加合理。
如果醫院能夠更早發現疾病,我們的身體將更加健康。
如果電信公司能夠降低成本,我們的話費將更加便宜。
如果交通動態天氣能夠掌握,我們的出行將更加方便。
如果商場能夠動態調整庫存,我們的商品將更加實惠。
最終,我們都將從大數據分析中獲益。
四、結束語。
Here's the thing about the future.關於未來有一個重要的特徵
Every time you look at it,每一次你看到了未來
it changes because you looked at it.它會跟著發生改變 因為你看到了它
And that changes everything else.然後其它事也跟著一起改變了
數據本身不產生價值,如何分析和利用大數據對業務產生幫助才是關鍵。
祝每一個DMer都挖掘到金礦和快樂:)
G. 大數據時代的產生背景
一、大數據時代城市管理的機遇:
首先,有利於數字化城市建設。城市化過程中出現的管理問題,傳統的城市管理方式早已對我國出現的城市問題束手無策,在大數據時代到來的背景下,數字化城市建設就呼之欲出。
其次,有利於電子政務建設。長期以來,我國政府在處理公共事務時都基本採用了傳統的處理方式,紙質化的模式占據了主要地位。隨著信息技術的不斷更新以及大數據時代的到來,電子政務也隨之應運而生。由於大數據時代的特點以及不斷更新發展,電子政務的形式也不斷得到更新。
最後,有利於智慧城市建設。智慧城市建設則是在大數據技術上產生的城市建設和管理方案。可見,大數據時代的到來更加有利於我國的智慧城市建設,為智慧城市的最終建成提供真實可靠的信息基礎。會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
二、大數據時代城市管理的挑戰 :
大數據時代,機遇存在的同時也不可避免會遇到許多挑戰,數據開放不足、數據共享不足、數據質量不優等等都面臨著嚴峻的挑戰。
首先,數據開放不足。數據是信息的重要載體,信息的公開在一定意義上就是數據的公開。在所有的數據公開中,政府相關數據公開尤為引人矚目。國外早就對數據公開確立了「公開為原則,不公開為例外」的原則,我國也有類似規定,但是真實執行情況令人堪憂。
其次,數據共享不足。就目前來看,誰掌握了大量真實可靠的信息,誰就掌握了主動權,信息在一定程度上就是權威的象徵,權力和利益的象徵。再者,政府各部門大部分存在利己傾向, 信息就會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
然後,數據質量不優。數據質量問題直接影響依靠數據獲得的信息的真實有效性,最終影響整體決策的有效性。數據質量主要包括數據的真實性、完整性和有效性。數據在收集、整合、存儲和使用四個階段當中,每個階段都極有可能出現數據質量問題。在我國城市管理中,各級各部門每天都會面對大量繁瑣的數據,數據收集渠道主要有下級單位上報數據、調查統計、普查等等,每一個渠道也同樣會有很多因素影響數據質量。
H. 2008年,奧巴馬的競選中應用了哪些"大數據"元素
巴馬的演講,既激情四射、振奮人心,又能保證言簡意賅、主題突出。這種集傳道士和推銷員於一身的演講技巧,再經過媒體的放大,便能產生明星效應。奧巴馬成功當選美國第44任總統,也是美國歷史上第一位黑人總統。美國新一代的變革即將來臨。奧巴馬「變革」是又一個「羅斯福新政」的開始嗎?奧巴馬上檯面臨的金融和經濟危機從程度上雖不能與羅斯福上台時相比,但卻是羅斯福之後歷任總統面臨的最嚴重的危機。次貸危機引發的金融危機摧毀了很多美國家庭在過去十多年以來積累起來的財富,能否盡快穩定市場和穩定投資者的信心,決定了奧巴馬是成為像羅斯福那樣的民族英雄,還是曇花一現的黑人總統。2008年11月5日正午,美國作出了一個偉大的決定,歷史上第一次,一個黑皮膚的人掌握了世界的權力之巔。而在僅僅12年前,他還只是一介平民;4年前,他的職務不過相當於中國一位普通的省人大代表。35歲才步入政壇的奧巴馬,沒有顯赫的身世背景,沒有各級領導的親切關懷,甚至也不曾從基層干起接受常年的培養和考驗,是什麼令他如此平步青雲1、黨內初選奧巴馬宣布參選貝拉克·奧巴馬於2007年1月16日宣布,他有意參加2008年的總統競選。他已於當天向美國聯邦選舉機構提交了有關文件,並成立一個委員會,以評估他參加總統競選的可行性。奧巴馬16日在其網站上發表聲明說,數月來他一直在考慮是否參加2008年的總統選舉,但參加與否不會取決於媒體宣傳和個人抱負。過去6年中,聯邦政府所作的決定以及所忽視的問題使美國處於一種非常不安全的境地,美國陷入了一場本不應該發動的「不幸的、代價高昂的」戰爭,而身在華盛頓的領導人卻不能以一種實際的方式進行合作。希拉里宣布參選而在1月20號,前總統柯林頓的妻子希拉里在其個人網站上宣布參加2008美國總統大選。她的競選標語是:我來了,為勝利而來。雙方斗爭激烈由於雙方在黨內支持者眾多,一場激烈的搶票大戰必不可少,絕不遜色於之後的總統選舉。奧巴馬主攻年輕選民,特別是通過網路。在2007年3月,奧巴馬在「Yahoo!Answers」(Yahoo!知識+的美國版)發表題為《?》(如何吸引人參與民主運動?)的問題,回復量超越17,000個。之後他還在社交網站Facebook開了一個帳戶,版面很受歡迎。而希拉里最大的優勢是丈夫柯林頓和本身身為女性,容易吸引女性選民的目光。當一位民意測驗專家馬克·邁爾曼讓10位黑人婦女選出她們心中的政治英雄時,有8個人選了希拉里。奧巴馬初選獲勝,希拉里退選經過一系列的拉票,美國當地時間2008年6月3日,美民主黨總統競選人奧巴馬宣布他在該黨初選中勝出,獲得民主黨總統候選人提名。到了6月7日,希拉里正式宣布停止競選,呼籲她的選民轉而支持黨內初選勝出者奧巴馬成為總統。2、提名副總統及接受黨內提名2008年8月23日,奧巴馬宣布由65歲的德拉瓦州資深參議員喬·拜登(JoeBiden)成為民主黨的副總統候選人。奧巴馬競選網站說:「拜登帶來了大量的外交政策經驗,讓人欽佩的跨黨派陣營合作記錄,還有直接的事模式。」分析認為拜登的外交經驗有助奧巴馬執政,但選擇政壇老手為競選夥伴,將削弱奧巴馬強調變革的正當性。8月28日,奧巴馬在丹佛Invesco露天足球場接受民主黨總統候選人提名,成為美國兩黨歷史上第一位黑人總統候選人。而這一天亦是馬丁·路德在華盛頓林肯紀念堂前演講「我有一個夢」的四十五周年紀念日。奧巴馬在演講中勾畫了他的執政藍圖,涉及經濟、外交、恐怖主義、貧困、氣候變化和疾病等二十一世紀的挑戰。3、投入總統選戰贏得黨內初選後,奧巴馬開始了他的競選活動。特別是針對共和黨傳統州分和搖擺州(特別是票數極多的州),像俄亥俄州、印第安納州、佛羅里達州、賓夕法尼亞州等。取得了不俗的成績,在多個州分的民意調查顯示奧巴馬由之前的落後局面反超共和黨候選人麥凱恩。面對奧巴馬主動出擊傳統「紅州」,且幾乎之後的民意調查都領先於自己,麥凱恩背水一戰,在臨近總統選舉日期,逐漸逼近奧巴馬,但差距仍在5%~10%左右。4、贏得總統選舉2008年11月4日美國東部時間晚間11時,計票結果顯示奧巴馬以349票大幅領先麥凱恩163票當選為美國第56任總統。他也成為美國歷史上首位非裔美國人總統(奧巴馬之父是肯亞公民,奧巴馬之母是美國白人)。之後奧巴馬在競選總部芝加哥發表了題為「美國的變革」的勝選感言,稱美國變革的時代已經到來。他談到了包括勝選的意義、麥凱恩、家庭、外婆的去世、兩黨合作、美國的力量。