A. 大數據的邊界和大數據生存法則
大數據的邊界和大數據生存法則
「大數據」的洶涌澎湃,讓人們逐漸意識到,由此帶來的,極有可能是一場發生在幾乎所有領域的顛覆性革命。只是,雖然坊間有關大數據的論著很多,但敢於將這種趨勢上升到「主義」高度的,恐怕非史蒂夫·洛爾莫屬。身為在《紐約時報》撰稿長達二十餘年的非虛構寫作者和資深記者、編輯,因為長期從事數據科學報道,洛爾早在十多年前就敏銳地感受到「大數據」即將給人類帶來的變化。而眼前的這本《大數據主義》,不同於此前的大多數同類論著的動人之處在於,它以一個在數據分析行業找到人生價值的年輕人、曾為臉譜網建立了最初的數據科學家團隊的哈佛畢業生傑夫·哈梅巴赫的經歷,以及人類數據時代的標桿——IBM公司的大數據生存法則為主線,在敘事中又穿插了大量相關人物的故事和觀點,勾勒出了近幾年大數據浪潮對人類生活諸多方面的深刻影響。
早在2012年初,史蒂夫·洛爾便先知先覺地以「大數據主義」為題,在《紐約時報》「周日評論」板塊發表了一篇社論,網站點擊量激增,很多讀者還寫了關於這篇文章的評論。《大數據主義》便是對上述主題進一步挖掘的成果。
傑夫·哈梅巴赫,這位曾在華爾街這個聰明人匯集的行業做金融數據分析,之後又加盟臉譜網,在從事數據科學研究的同時也為自己的人生贏得了財務自由。離開臉譜網後,他自己創辦了一家名為Cloudera的公司,自任首席科學家,編寫用於數據科學研究的軟體。2012年夏天,年僅28歲的哈梅巴赫又轉戰醫療業,加入紐約西奈山伊坎醫學院,領導一個數據小組,從事遺傳信息的研究,為探索疾病模型的建立方法和治療手段尋找突破口,這是他認為的目前能將數據科學研究投入應用的最佳途徑。而作為一家有著上百年歷史的科技巨頭,IBM對數據技術的進展同樣甚為關注,他們在較早時候就組建了研究團隊,制定了戰略方針,投入了大量資金,招募大批該領域的專家,團隊人數至今已達2000人。其首席執行官甚至告訴洛爾:「我們把整個公司的前途都押在了大數據技術的應用上。」
大數據生存法則
自1946年計算機問世以來,便不可逆轉地加速改變著人類的生活方式和進程。時至今日,海量存在於互聯網及其他各處、能被人們獲取的信息,早已由千位元組(KB)、兆(MB)、千兆(GB)、太位元組(TB),躍升為拍位元組(PB)、艾位元組(EB)、澤位元組(ZB),乃至堯位元組(YB)。據測算,如果將人類現存的信息全部匯集並存貯起來,需要用到的ipad,疊加起來的厚度可繞地球三分之二圈。正是這驚人的數據總量,使人類在處理信息時能經歷從量變到質變的過程,就如同物質到了納米級別,各種原有的特性都會發生驚人的突變,「大數據」概念的誕生,正是數據存量不斷累積的必然結果。
面對不斷生成的各種數據,尤其同一個系統或平台上生成的數據,盡管以人類的大腦很難理清它們相互之間的關系,對這些數據得以如此產生的前因後果更無法給出合乎邏輯的解釋,但它們之間確實存在著一定的相關性。盡管以人類現有的理解能力看來,這種相關性並不十分清晰,甚至有幾分神秘,但通過總結這一系列數據之間的生成規律,人們仍然可以比過去更為有效地決策,而不是像過去通常所做的那樣,依靠個人直覺或是一些只可意會不可言傳的經驗來做出某個重要決定。因此,許多在過去看來無用的數據,今日都「變廢為寶」了。舉例來說,世界最大零售商沃爾瑪通過對大數據統計和研究發現,男性顧客在購買嬰兒尿片時,通常會順便買上幾瓶啤酒。盡管商家不知其中緣由,但還是果斷推出了啤酒與尿布捆綁銷售的促銷方式,提升了啤酒銷量。由此看來,正是大數據帶來的定量分析方法,為人們的決策帶來了新的參考依據。作為一種創新工具,它還催生了大量相關技術,如社交媒體、感測器信號、基因組信息等,不僅有利於經濟增長,還可以幫助我們重塑構建世界的方式,甚至在一定程度上改變我們世界觀。
盡管大數據技術剛剛起步,但如今可涵蓋的應用領域已十分廣泛:從挖掘數據幫助企業經營決策,到對社交媒體用戶展開細致入微的數據分析,提高網站的廣告點擊率;從利用大數據培育性能前所未有的智能機器人,到推動一些傳統產業的升級換代。此外,還有更為性命攸關的醫療行業的「大數據革命」。例如有人提出,許多慢性疾病並非個體基因引起,而是一種復雜的網路性紊亂,涉及從分子、細胞、組織、器官到人類社群的各個環節。因此他們將一組涉及年齡、病史、生活方式和環境等可能影響疾病的發生發展因素,通過復雜的數學模型,全部轉化為數字,以便試驗性地檢測一個人三年內患上某種疾病的可能性。盡管從定量分析角度看,精密科學,如物理學、化學等學科更為成熟,預測結果也更准確,但人們仍在努力引導醫療行業向定量分析的方向發展,而非僅僅依靠經驗對人的健康狀況定性。
在美國某些研究機構中,大數據應用幾乎可協助建立人類行為模型,幫助人們了解自身各種行為之間的關聯關系,那些不曾為人所知的人類行為的奧秘也將慢慢得到破解。
另一個很有意思的例子,發生在IBM公司研製的智能機器人沃森身上。這個「人」在《危險邊緣》節目中高超的信息處理速度,戰勝了面對人類對手戰無不勝的超級挑戰者,令人想起當年深藍戰勝棋王卡斯帕羅夫的故事。似乎顯得巧合的是,深藍的發明者,同樣是IBM公司,如今它又一次以輝煌戰績證明了在人工智慧領域的領先地位,所不同的是,這次的勝利,離不開大數據技術的鼎力相助。
在IBM沃森實驗室召開的一次學術會議上,人工智慧專家希利斯更提出了一個極具前瞻性的觀點:「機器人必須學會講故事。」在希利斯看來,如果一個計算機系統只會提供答案,而不會「思考」和「解釋」問題,那麼無論運算速度多快,都不會有突破性的前景。這里所說的「講故事」,其實就是在軟體糅合數據、想法、推斷,並形成決策時,對整個過程實施跟蹤,讓人們在使用過程中和過後都能知道計算機是如何一步一步完成其工作的。給出這樣的解釋,就能讓人們知道機器人與我們之間的關系,也就是弄清楚,在整個決策過程中,有哪些部分工作是機器人完成的,有哪些是由人類所做的。
大數據真果真無懈可擊?
既然如此神奇,大數據技術及其應用豈不是理應被當代渴望進步、增長的人們頂禮膜拜·史蒂夫·洛爾並不這樣認為。大數據技術的應用,僅從其可靠性而言,就亟待改進。在近年來一些大公司的錯誤經營行為中,常常可找到大數據應用的影子。此外,伴隨大數據技術滲透進人們生活的,還有個人隱私被泄露的風險。無論社交網路的使用,還是各種隨身軟體中內置的定位裝置,甚至連個人的基因信息,都會在人們並不知情的情況下,被大數據擁有者有意或無意地獲取,從而令個人信息的保護程序受到嚴重威脅。
這方面最典型的例子還要數安客誠公司。這家全美最大的數據代理商,在全球范圍內收集了數億名消費者的相關數據。這些公開或推斷所得的信息包括年齡、種族、性別,黨派,以及諸如對度假的期待、對健康的關注程度等非客觀信息。在將這些數據歸納之後,這家網站就可輕易推斷出大多數美國成年人在這些項目上的相關數據,其深入細致的程度無人可及。《紐約時報》的一位評論員甚至寫道:「訪問者登錄之後就會發現,該網站不僅有大量與自己有關的信息,甚至還有描述詳細的私生活,面對這種情況,他們可能會大吃一驚。」面對這種對個人隱私的嚴重侵犯,除了少數民間的隱私權倡導者提出抗議之外,無論從法律或技術層面,至今仍沒能設計出有效的預防措施加以制止。
更為本質的問題還在於:盡管很多大型現代企業早已進入了「無法計量就無法管理」的時代,但在人類生活的其他方面,仍有許許多多重要的東西無法只用數據就可以說明或解決的。事實上,至少迄今為止,幾乎所有能賦予我們的生活以終極意義的東西,如情感、信仰、人與人之間的愛,還有個體自身庄嚴闊大的精神世界,都絕不可能以數據來涵蓋或表達。因此單純的數據崇拜並非福音,面對人類生活的無數復雜微妙之處,任何形式的「大數據決策」,都有必要用謙卑來調和,以免誤入歧途。
以上是小編為大家分享的關於大數據的邊界和大數據生存法則的相關內容,更多信息可以關注環球青藤分享更多干貨