『壹』 什麼是大數據時代
大數據時代
(巨量資料(IT行業術語))
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」 「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
產生背景
編輯
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」[2]
影響
編輯
大數據
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。[5] 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。[5]
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。[6]
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
數據價值
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
『貳』 《大數據》閱讀答案
所謂‘大數據’,是指數據規模巨大,大到難以用我們傳統信息處理技術合理擷取、管理、處理、整理」「在‘大數據’時代,我們的知識生產若再固守印刷時代的知識生產理念,沿襲此前的知識生產方式,就會被遠遠地甩在時代後面。我在這里整理了《大數據》閱讀答案,希望能幫助到那您。
大數據
近年來,「大數據」這個概念突然火爆起來,成為業界人士舌尖上滾燙的話題。所謂「大數據」,是指數據規模巨大,大到難以用我們傳統信息處理技術合理擷取、管理、處理、整理。「大數據」概念是「信息」概念的3.0版,主要是對新媒體語境下信息爆炸情境的生動描述。
我們一直有這樣的成見:信息是個好東西。對於人類社會而言,信息應該多多益善。這種想法是信息稀缺時代的產物。由於我們曾吃盡信息貧困和蒙昧的苦頭,於是就拚命追逐信息、佔有信息。我們甚至還固執地認為,佔有的信息越多,就越好,越有力量。但是,在「大數據’時代,信息不再稀缺,這種成見就會受到沖擊。信息的失速繁衍造成信息的嚴重過剩。當超載的信息逼近人們所能承受的極限值時,就會成為一種負擔,我們會不堪重負。
信息的超速繁殖源自於信息技術的升級換代。以互聯網為代表的新媒體技術打開了信息所羅門的瓶子,數字化的信息失速狂奔,使人類主宰信息的能力遠遠落在後面。美國互聯網數據中心指出,互聯網上的數據每兩年翻一番,目前世界上的90%以上數據是近幾年才產生的。2000年,數字存儲信息佔全球數據量的四分之一,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。2007年,只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數據,其餘都是數字數據。到2013年,世界上存儲的數據中,數字數據超過98%。面對數字數據的大量擴容,我們只能望洋興嘆。
「大數據」時代對人類社會的影響是全方位的。這種影響究竟有多大,我們現在還無法預料。哈佛大學定量社會學研究所主任蓋瑞·金則以「一場革命」來形容大數據技術給學術、商業和政府管理等帶來的變化,認為「大數據」時代會引爆一場「哥白尼式革命」:它改變的不僅僅是信息生產力,更是信息生產關系;不僅是知識生產和傳播的內容,更是其生產與傳播方式。
我們此前的知識生產是印刷時代的產物。它是15世紀古登堡時代的延續。印刷革命引爆了人類社會知識生產與傳播的「哥白尼式革命」,它使得知識的生產和傳播突破了精英、貴族的壟斷,開啟了知識傳播的大眾時代,同時,也確立了「機械復制時代」的知識生產與傳播方式。與印刷時代相比,互聯網新媒體開啟的「大數據」時代,則是一場更為深廣的革命。在「大數據」時代,信息的生產與傳播往往是呈幾何級數式增長、病毒式傳播。以互聯網為代表的媒介技術顛覆了印刷時代的知識生產與傳播方式。新媒體遍地開花,打破了傳統知識主體對知識生產與傳播的壟斷。新媒體技術改寫了靜態、單向、線性的知識生產格局,改變了自上而下的知識傳播模式,將知識的生產與傳播拋入空前的不確定之中。在「大數據」時代,我們的知識生產若再固守印刷時代的知識生產理念,沿襲此前的知識生產方式,就會被遠遠地甩在時代後面。
(節選自2013.2.22《文匯讀書周報》,有刪改)
《大數據》閱讀題目:
9.下列對「大數據時代」的特點解說正確的一項是
A.數據規模巨大,信息嚴重過剩,總量已超過了人們的承受極限值而成為社會的負擔。B.信息生產呈幾何級數式增長、病毒式傳播,信息傳播方式不再是自上而下,而是相反。
C.精英與貴族的知識壟斷被沖破,傳統知識主體不再是唯一的知識生產者和傳播者。 D.「機械復制時代」知識生產和傳播方式被顛覆,呈動態、多向和空前的不確定性。 10.下列理解,不符合原文意思的一項是
A.人們在信息稀缺時代形成的佔有信息越多越好、越有力量的認識,將隨著「大數據」時代的到來而改變。
B.人類主宰信息的能力遠遠落後於信息的產生,是因為信息技術的升級換代帶來的數字化信息的失速狂奔。
C.從2000年數字存儲信息佔全球數據量的四分之一,到2013年超過98%,說明了傳統媒體被新媒體取代。
D.印刷革命開啟了知識傳播的大眾時代, 與印刷時代相比,互聯網新媒體開啟的「大數據」時代,則是一場更為深廣的革命。
《大數據》參考答案:
9.D【試題分析:論述類文體閱讀的命題主要從概念、判斷、推理三個角度命題,概念注意「答非所問」「內涵、外延不準」「誤劃類別」「張冠李戴」;判斷類注意「范圍不當」「偷換概念」「曲解文意」;推理注意「強加因果」「強行推理」等錯誤。答題的關鍵是審清題干、找准區位、對讀原文、尋找細微的差別。選項A原文「信息的失速繁衍造成信息的嚴重過剩。當超載的信息逼近人們所能承受的極限值時,就會成為一種負擔,我們會不堪重負」現在是「大數據」時代,但還沒有到「當超載的信息逼近人們所能承受的極限值時」,時間范圍混淆;選項B 原文「新媒體技術改寫了靜態、單向、線性的知識生產格局,改變了自上而下的知識傳播模式,將知識的生產與傳播拋入空前的不確定之中」選項「信息傳播方式不再是自上而下,而是相反」,偷換了文中的概念「拋入空前的不確定之中」為「自下而上」;選項C對應的原文「印刷革命引爆了人類社會知識生產與傳播的‘哥白尼式革命’,它使得知識的生產和傳播突破了精英、貴族的壟斷」讓「知識的生產和傳播突破了精英、貴族的壟斷」是「印刷革命」,選項是「大數據時代」,犯了張冠李戴的錯誤。】
10.C【試題分析:選項「說明了傳統媒體正被新媒體取代」,文中沒有依據,屬於無中生有。】
『叄』 在大數據中精準生活閱讀答案
在大數據中精準生活閱讀答案
①萬物皆互聯,無處不計算。因為互聯網、手機、無線感測器的普及,實時監測、遠程協作、SOHO工作、數據管理已成為平常之事,信息像水電一樣通過網路供應汩汩傳輸,計算機上有形數據轉化為無形的財富,深入並造福於現實生活。
②這標志著雲計算與大數據時代的開啟。智能管理、社交網站、物聯網、IPv6,當新技術風馳電掣般地駛入生活,我們如同搭上高鐵列車,還來不及看清楚窗外的風景,就已呼嘯著越過下一個站台。大數據應用於健康管理,幾乎表徵了新媒體技術層面的全部特徵:電子檔案高度個性化;人工智慧幫助我們細分信息;遠程協同記錄用戶的行為模式;數據挖掘預測人們的未來需要。而智能終端與「可穿戴」計算設備的出現,更使得行為、位置、生理數據等細微變化成為可供記錄和分析的精準對象。
③盡管大數據這個名詞並不新鮮,但社會對於大數據價值的認識尚在深化。20世紀80年代,美國人首先提出了這個概念。雅虎的科學家發現,得益於計算機技術和海量資料庫的發展,個人在真實世界的活動能夠得到前所未有的記錄。隨著新媒體技術的更新,如今,大數據的概念逐漸拓展,涵蓋了從數字圖像、新聞跟帖、文本記錄、視頻文檔、社交平台互動所提供的所有信息。不僅如此,它還被視作一種能力,引發了社會和國家戰略層面的深刻關注。
④大數據之「大」,不僅在於容量,更在於社會對其價值的洞悉:在大數據所重塑的後信息環境中,一個大規模生產、分享和應用數據的世界撲面而來。正如學者維克托·邁爾—舍恩伯格所說,它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到一角,絕大部分隱藏於表面之下。
⑤但即便如此,我們依然可以清楚察覺到大數據給社會帶來的一些改變。從谷歌的流行病分析系統到沈陽渾南居民的數據查詢終端,基於信息的創新成為服務的先導,連接民生,可以救助更廣泛的普通大眾;以雲計算為基礎的信息存儲、分享和挖掘手段,推動著數據的交換、整合和分析,可以幫助人們發現新知,創造新的價值;作為新發明和新服務的源泉,大數據也影響到傳統學科研究的分化,改變了人們的價值取向、知識結構和生活方式。有學者將大數據比作觀察人類自身社會行為的顯微鏡和儀表盤。而我們看到,這個新的測量工具,再一次引領新的繁榮,提供給人們更多的選擇。
⑥作為發掘價值、征服數據的強大引擎,大數據所帶來的更多改變蓄勢待發。站在創新、競爭和生產率提高的前沿,思索大數據對於生活的'意義,如何將數據、信息轉化為知識,擴大人類的理性,實現技術與智能服務的跨越?如何規避風險、應對它對管理世界所提出的挑戰?如何藉助於大數據的力量將人類的觀察和理解推向「精準」,並衍生出有效的解決方案?答案還存在於人類智慧的彼此交融之中。
(選自《人民日報》2016年5月,有刪改。)
1.簡要概括第五段中大數據給社會帶來了哪些改變?(2分)
2.第四段畫橫線的句子運用了哪種說明方法?有什麼作用?(3分)
3.第二段中加點的「幾乎」一詞能否刪去?為什麼?(3分)
4.下面的說法或推斷符合原文意思的一項是()(2分)
A、大數據這個名詞早已出現,社會對於大數據價值的認識也早已深化。
B、我們已經進入大數據時代,可以「精準」規避風險,成功應對所有挑戰。
C、大數據作為一種新的測量工具,將再次引領新的繁榮,提供給人們更多的選擇。
D、大數據之「大」,僅僅是因為它的容量大,數據大。
參考答案:
1.可以救助更廣泛的普通大眾;可以幫助人們發現新知,創造新的價值;改變了人們的價值取向、知識結構和生活方式。
2.打比方。(1分)把大數據的真實價值比作「漂浮在海洋中的冰山」,具體形象地說明了它巨大的價值還未被發現,有待於進一步開發。(2分)。
3.不能刪去。因為「幾乎」是十分接近,差不多的意思,說明了「大數據應用於健康管理」差不多「表徵了新媒體技術層面的全部特徵」,刪除後說法就太絕對了,不符合事實,體現了說明文語言准確、嚴密的特點。
4.C
『肆』 大數據具有哪些特徵.答案
大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》 中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。
(4)大數據時代科技文答案擴展閱讀:
一、具體特徵
容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息。
種類(Variety):數據類型的多樣性。
速度(Velocity):指獲得數據的速度。
可變性(Variability):妨礙了處理和有效地管理數據的過程。
真實性(Veracity):數據的質量。
復雜性(Complexity):數據量巨大,來源多渠道。
價值(value):合理運用大數據,以低成本創造高價值。
二、運用
洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統計學家內特.西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。
麻省理工學院利用手機定位數據和交通數據建立城市規劃。
梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。
醫療行業早就遇到了海量數據和非結構化數據的挑戰,而近年來很多國家都在積極推進醫療信息化發展,這使得很多醫療機構有資金來做大數據分析。