『壹』 互聯網大數據現關心的是什麼
樓主您好:
首先,我認為大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
其次,想要系統的認知大數據,必須要全面而細致的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。我將分別從雲計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。我將分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
和大數據相關的理論
? 特徵定義
最早提出大數據時代到來的是麥肯錫:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」
業界(IBM 最早定義)將大數據的特徵歸納為4個「V」(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網路日誌、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最後這一點也是和傳統的數據挖掘技術有著本質的不同。
其實這些V並不能真正說清楚大數據的所有特徵,下面這張圖對大數據的一些相關特性做出了有效的說明。
36大數據
古語雲:三分技術,七分數據,得數據者得天下。先不論誰說的,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。
那麼,什麼是大數據思維?維克托·邁爾-舍恩伯格認為,1-需要全部數據樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關系。
阿里巴巴的王堅對於大數據也有一些獨特的見解,比如,
「今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。」
「非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。」
「你千萬不要想著拿數據去改進一個業務,這不是大數據。你一定是去做了一件以前做不了的事情。」
特別是最後一點,我是非常認同的,大數據的真正價值在於創造,在於填補無數個還未實現過的空白。
有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。
? 價值探討
大數據是什麼?投資者眼裡是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。
如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
Target 超市以20多種懷孕期間孕婦可能會購買的商品為基礎,將所有用戶的購買記錄作為數據來源,通過構建模型分析購買者的行為相關性,能准確的推斷出孕婦的具體臨盆時間,這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優惠卷。
Target的例子是一個很典型的案例,這樣印證了維克托·邁爾-舍恩伯格提過的一個很有指導意義的觀點:通過找出一個關聯物並監控它,就可以預測未來。Target通過監測購買者購買商品的時間和品種來准確預測顧客的孕期,這就是對數據的二次利用的典型案例。如果,我們通過採集駕駛員手機的GPS數據,就可以分析出當前哪些道路正在堵車,並可以及時發佈道路交通提醒;通過採集汽車的GPS位置數據,就可以分析城市的哪些區域停車較多,這也代表該區域有著較為活躍的人群,這些分析數據適合賣給廣告投放商。
不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
從大數據的價值鏈條來分析,存在三種模式:
1- 手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。
2- 沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。
3- 既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。
未來在大數據領域最具有價值的是兩種事物:1-擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;2-還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。
Wal-Mart作為零售行業的巨頭,他們的分析人員會對每個階段的銷售記錄進行了全面的分析,有一次他們無意中發現雖不相關但很有價值的數據,在美國的颶風來臨季節,超市的蛋撻和抵禦颶風物品竟然銷量都有大幅增加,於是他們做了一個明智決策,就是將蛋撻的銷售位置移到了颶風物品銷售區域旁邊,看起來是為了方便用戶挑選,但是沒有想到蛋撻的銷量因此又提高了很多。
還有一個有趣的例子,1948年遼沈戰役期間,司令員林彪要求每天要進行例常的「每日軍情匯報」,由值班參謀讀出下屬各個縱隊、師、團用電台報告的當日戰況和繳獲情況。那幾乎是重復著千篇一律枯燥無味的數據:每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少,槍支、物資多少……有一天,參謀照例匯報當日的戰況,林彪突然打斷他:「剛才念的在胡家窩棚那個戰斗的繳獲,你們聽到了嗎?」大家都很茫然,因為如此戰斗每天都有幾十起,不都是差不多一模一樣的枯燥數字嗎?林彪掃視一周,見無人回答,便接連問了三句:「為什麼那裡繳獲的短槍與長槍的比例比其它戰斗略高?」「為什麼那裡繳獲和擊毀的小車與大車的比例比其它戰斗略高?」「為什麼在那裡俘虜和擊斃的軍官與士兵的比例比其它戰斗略高?」林彪司令員大步走向掛滿軍用地圖的牆壁,指著地圖上的那個點說:「我猜想,不,我斷定!敵人的指揮所就在這里!」果然,部隊很快就抓住了敵方的指揮官廖耀湘,並取得這場重要戰役的勝利。
這些例子真實的反映在各行各業,探求數據價值取決於把握數據的人,關鍵是人的數據思維;與其說是大數據創造了價值,不如說是大數據思維觸發了新的價值增長。
? 現在和未來
我們先看看大數據在當下有怎樣的傑出表現:
大數據幫助政府實現市場經濟調控、公共衛生安全防範、災難預警、社會輿論監督;
大數據幫助城市預防犯罪,實現智慧交通,提升緊急應急能力;
大數據幫助醫療機構建立患者的疾病風險跟蹤機制,幫助醫葯企業提升葯品的臨床使用效果,幫助艾滋病研究機構為患者提供定製的葯物;
大數據幫助航空公司節省運營成本,幫助電信企業實現售後服務質量提升,幫助保險企業識別欺詐騙保行為,幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識別預警即將發生故障的設備;
大數據幫助電商公司向用戶推薦商品和服務,幫助旅遊網站為旅遊者提供心儀的旅遊路線,幫助二手市場的買賣雙方找到最合適的交易目標,幫助用戶找到最合適的商品購買時期、商家和最優惠價格;
大數據幫助企業提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業提升廣告投放精準度;
大數據幫助娛樂行業預測歌手,歌曲,電影,電視劇的受歡迎程度,並為投資者分析評估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;
大數據幫助社交網站提供更准確的好友推薦,為用戶提供更精準的企業招聘信息,向用戶推薦可能喜歡的游戲以及適合購買的商品。
其實,這些還遠遠不夠,未來大數據的身影應該無處不在,就算無法准確預測大數據終會將人類社會帶往到哪種最終形態,但我相信只要發展腳步在繼續,因大數據而產生的變革浪潮將很快淹沒地球的每一個角落。
比如,Amazon的最終期望是:「最成功的書籍推薦應該只有一本書,就是用戶要買的下一本書。」
Google也希望當用戶在搜索時,最好的體驗是搜索結果只包含用戶所需要的內容,而這並不需要用戶給予Google太多的提示。
而當物聯網發展到達一定規模時,藉助條形碼、二維碼、RFID等能夠唯一標識產品,感測器、可穿戴設備、智能感知、視頻採集、增強現實等技術可實現實時的信息採集和分析,這些數據能夠支撐智慧城市,智慧交通,智慧能源,智慧醫療,智慧環保的理念需要,這些都所謂的智慧將是大數據的採集數據來源和服務范圍。
未來的大數據除了將更好的解決社會問題,商業營銷問題,科學技術問題,還有一個可預見的趨勢是以人為本的大數據方針。人才是地球的主宰,大部分的數據都與人類有關,要通過大數據解決人的問題。
比如,建立個人的數據中心,將每個人的日常生活習慣,身體體征,社會網路,知識能力,愛好性情,疾病嗜好,情緒波動……換言之就是記錄人從出生那一刻起的每一分每一秒,將除了思維外的一切都儲存下來,這些數據可以被充分的利用:
醫療機構將實時的監測用戶的身體健康狀況;
教育機構更有針對的制定用戶喜歡的教育培訓計劃;
服務行業為用戶提供即時健康的符合用戶生活習慣的食物和其它服務;
社交網路能為你提供合適的交友對象,並為志同道合的人群組織各種聚會活動;
政府能在用戶的心理健康出現問題時有效的干預,防範自殺,刑事案件的發生;
金融機構能幫助用戶進行有效的理財管理,為用戶的資金提供更有效的使用建議和規劃;
道路交通、汽車租賃及運輸行業可以為用戶提供更合適的出行線路和路途服務安排;
……
當然,上面的一切看起來都很美好,但是否是以犧牲了用戶的自由為前提呢?只能說當新鮮事物帶來了革新的同時也同樣帶來了「病菌」。比如,在手機未普及前,大家喜歡聚在一起聊天,自從手機普及後特別是有了互聯網,大家不用聚在一起也可以隨時隨地的聊天,只是「病菌」滋生了另外一種情形,大家慢慢習慣了和手機共渡時光,人與人之間情感交流彷彿永遠隔著一張「網」。
? 大數據隱私
你或許並不敏感,當你在不同的網站上注冊了個人信息後,可能這些信息已經被擴散出去了,當你莫名其妙的接到各種郵件,電話,簡訊的滋擾時,你不會想到自己的電話號碼,郵箱,生日,購買記錄,收入水平,家庭住址,親朋好友等私人信息早就被各種商業機構非法存儲或賤賣給其它任何有需要的企業或個人了。
更可怕的是,這些信息你永遠無法刪除,它們永遠存在於互聯網的某些你不知道的角落。除非你更換掉自己的所有信息,但是這代價太大了。
用戶隱私問題一直是大數據應用難以繞開的一個問題,如被央視曝光過的分眾無線、羅維鄧白氏以及網易郵箱都涉及侵犯用戶隱私。目前,中國並沒有專門的法律法規來界定用戶隱私,處理相關問題時多採用其他相關法規條例來解釋。但隨著民眾隱私意識的日益增強,合法合規地獲取數據、分析數據和應用數據,是進行大數據分析時必須遵循的原則。
說到隱私被侵犯,愛德華?斯諾登應該占據一席之地,這位前美國中央情報局(CIA)雇員一手引爆了美國「棱鏡計劃」(PRISM)的內幕消息。「棱鏡」項目是一項由美國國家安全局(NSA)自2007年起開始實施的絕密電子監聽計劃,年耗資近2000億美元,用於監聽全美電話通話記錄,據稱還可以使情報人員通過「後門」進入9家主要科技公司的伺服器,包括微軟、雅虎、谷歌、Facebook、PalTalk、美國在線、Skype、YouTube、蘋果。這個事件引發了人們對政府使用大數據時對公民隱私侵犯的擔心。
再看看我們身邊,當微博,微信,QQ空間這些社交平台肆意的吞噬著數億用戶的各種信息時,你就不要指望你還有隱私權了,就算你在某個地方刪除了,但也許這些信息已經被其他人轉載或保存了,更有可能已經被網路或Google存為快照,早就提供給任意用戶搜索了。
因此在大數據的背景下,很多人都在積極的抵制無底線的數字化,這種大數據和個體之間的博弈還會一直繼續下去……
專家給予了我們一些如何有效保護大數據背景下隱私權的建議:1-減少信息的數字化;2-隱私權立法;3-數字隱私權基礎設施(類似DRM數字版權管理);4-人類改變認知(接受忽略過去);5-創造良性的信息生態;6-語境化。
但是這些都很難立即見效或者有實質性的改善。
比如,現在有一種職業叫刪帖人,專門負責幫人到各大網站刪帖,刪除評論。其實這些人就是通過黑客技術侵入各大網站,破獲管理員的密碼然後進行手工定向刪除。只不過他們保護的不是客戶的隱私,而大多是丑聞。還有一種職業叫人肉專家,他們負責從互聯網上找到一個與他們根本就無關系用戶的任意信息。這是很可怕的事情,也就是說,如果有人想找到你,只需要兩個條件:1-你上過網,留下過痕跡;2-你的親朋好友或僅僅是認識你的人上過網,留下過你的痕跡。這兩個條件滿足其一,人肉專家就可以很輕松的找到你,可能還知道你現在正在某個餐廳和誰一起共進晚餐。
當很多互聯網企業意識到隱私對於用戶的重要性時,為了繼續得到用戶的信任,他們採取了很多辦法,比如google承諾僅保留用戶的搜索記錄9個月,瀏覽器廠商提供了無痕沖浪模式,社交網站拒絕公共搜索引擎的爬蟲進入,並將提供出去的數據全部採取匿名方式處理等。
在這種復雜的環境裡面,很多人依然沒有建立對於信息隱私的保護意識,讓自己一直處於被滋擾,被精心設計,被利用,被監視的處境中。可是,我們能做的幾乎微乎其微,因為個人隱私數據已經無法由我們自己掌控了,就像一首詩里說到的:「如果你現在繼續麻木,那就別指望這麻木能抵擋得住被」扒光」那一刻的驚恐和絕望……」
和大數據相關的技術
? 雲技術
大數據常和雲計算聯繫到一起,因為實時的大型數據集分析需要分布式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大數據則是電。
雲計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給用戶。
如今,在Google、Amazon、Facebook等一批互聯網企業引領下,一種行之有效的模式出現了:雲計算提供基礎架構平台,大數據應用運行在這個平台上。
業內是這么形容兩者的關系:沒有大數據的信息積淀,則雲計算的計算能力再強大,也難以找到用武之地;沒有雲計算的處理能力,則大數據的信息積淀再豐富,也終究只是鏡花水月。
那麼大數據到底需要哪些雲計算技術呢?
這里暫且列舉一些,比如虛擬化技術,分布式處理技術,海量數據的存儲和管理技術,NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。
雲計算和大數據之間的關系可以用下面的一張圖來說明,兩者之間結合後會產生如下效應:可以提供更多基於海量業務數據的創新型服務;通過雲計算技術的不斷發展降低大數據業務的創新成本。
36大數據
如果將雲計算與大數據進行一些比較,最明顯的區分在兩個方面:
第一,在概念上兩者有所不同,雲計算改變了IT,而大數據則改變了業務。然而大數據必須有雲作為基礎架構,才能得以順暢運營。
第二,大數據和雲計算的目標受眾不同,雲計算是CIO等關心的技術層,是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品,而大數據的決策者是業務層。
詳情:http://ke..com/view/9424571.htm
『貳』 大數據怎樣幫助我們了解氣候變化
大數據怎樣幫助我們了解氣候變化
氣候變化確實威脅著我們的星球,全球都應感受到它的毀滅性後果。美國航空航天局(NASA)氣候模擬中心(NCCS)高性能計算負責人Daniel Duffy博士,介紹了大數據對氣候變化研究工作的至關重要性。
NCCS為大規模的NASA科學項目提供高性能計算、存儲和網路資源。其中許多項目涉及全地球性天氣和氣候模擬。這些模擬生成的海量數據是科學家永遠讀取不完的。因此,益發有必要提供分析和觀察這些模擬產生的大數據集的方法,更深入了解氣候變化等重大科學問題。
大數據和氣候變化:它們是怎樣運作的?
大數據和氣候研究息息相關;沒有海量數據就無法進行氣候研究。
NCCS擁有名曰「探索號超級計算機」的計算機集群,主要目標是提供必要的高性能計算和存儲環境,以滿足NASA科學項目的需求。探索號計算機正在開展一系列不同的科學項目,其中的大部分計算和存儲資源被用於天氣與氣候研究。
探索號計算機是一種高性能計算機,專門為極大規模緊密耦合的應用而設計,是硬軟體緊密結合和相互依存的系統。雖然該計算機沒有被用於從衛星等遙感平台採集數據,但該計算機運行的許多大氣、陸地和海洋模擬都需要觀測數據的輸入。使用探索號計算機的科學家不斷收集輸入其模型的全球性觀測數據。
然而,如果科學無法以有效手段觀測和比對數據,即使向它們提供海量數據也毫無意義。NASA全球建模和模擬辦公室(GMAO)增強性動畫就是這方面的範例,該辦公室利用多方來源的觀測信息驅動天氣預報。
GMAO的GEOS-5數據模擬系統(DAS)將觀測信息與建模信息融合,以生成任何時間內都最為精確和質地統一的大氣圖像。每6小時的累計觀測超過500萬次,並對氣溫、水、風、地表壓力和臭氧層的變數進行比對。模擬觀測分八大類型,每類對不同來源的變數進行測量。
數據處理
氣候變化模型需要具有大量存儲和數據快速接入且數據不斷增加的計算資源。為滿足這一要求,探索號計算機由多個不同類型的處理器組成:79200個英特爾Xeon核心、28800個英特爾Phi核心和103680個NVIDIA圖像處理器(GPU)CUDA核心。
探索號計算機的總計算能力為3.36萬億次,或每秒3,694,359,069,327,360次浮點運算。為使大家更好地理解這一規模的計算能力,該計算機可在一秒鍾內完成活在世上的每個人以每秒將兩個數字相乘的速度連續運算近140個小時的運算量。
除了計算能力外,探索號計算機還具有約33拍位元組(petabyte)的磁碟存儲空間。典型的家庭硬碟容量為一兆兆(terabyte)位元組,因此,該計算機的存儲能力相當於33000個這類磁碟。如果用它存儲音樂,你可以編排一個長度超過67000年而不重復的演奏清單。
NCCS每年都對探索號計算機進行升級。隨著其伺服器和存儲的老化,在四或五年後替換而不是繼續運行部分設備實際上能夠提高效率。例如2014年年底至2015年年初利用升級的計算機群取代了探索號計算機2010年升級的設備。在地面空間、功率和冷卻包絡相同的情況下,升級後的NCCS可將計算能力提高約7倍。退役設備通常會轉變用途,用於內部支持和其他業務或大學等外部站點,包括馬里蘭大學巴爾的摩分校(UMBC)和喬治梅森大學(GMU)。
數據映射:氣候變化與預測
NCCS生成的數據推動了不同重要研究和政策文件的起草工作。
這一數據使人們能夠就我們星球的氣候變化影響進行更知情的對話,並有助於決策機構針對氣候預測制定出適用戰略與行動。例如,該數據已被用於氣候變化專門委員會(IPCC)推出的評估報告。NCCS從事和NASA科學可視化工作室觀測的數據模擬,介紹了IPCC第五次評估報告提出的氣候模型,對氣候和降雨預計在整個21世紀的變化方式做了說明。
於2005年襲擊了美國墨西哥灣沿岸的卡特里娜颶風突顯了准確預報的重要性。雖然它造成了巨大損失,但要不是預警預報給人們留出了適當准備時間,損失就會嚴重得多。如今,NCCS的超級計算機主要負責GMAO全球環流建模,其解析度比卡特里娜颶風時提高了10倍,因而能夠更准確地觀察颶風內部,並有助於對其強度和規模做出更精確的估計。這意味著氣象學家能夠更深入地了解颶風的走向及其內部活動,這對於就卡特里娜颶風這類極端天氣做出成功規劃和准備至關重要。
此外,觀測系統模擬試驗(OSSE)還利用全球氣候模型的輸出成果模擬NASA提出的下一代遙感平台,從而向科學家和工程師提供了虛擬地球,以便在製作新的感應器或衛星之前研究大氣遙測的新優勢。
未來的氣候變化數據
數據是NASA的主要產品。衛星、儀表、計算機甚至人員都可能頻繁進出NASA,但數據尤其是地球觀測數據具有永駐價值。因此,NASA必須不僅讓其他NASA的站點和科學家,而且要讓全球都用上它生成的數據。
僅時時生成的數據量就構成了一大挑戰。在研究系統的科學家都難以使用數據集的今天,NASA以外的人們獲得可用數據更是難上加難。因此,我們開始研究創建一項氣候分析服務(CAaaS),將高性能計算、數據和應用編程介面(API)相結合,以便為在現場與數據共同運行的分析程序提供介面。換句話說,用戶可就他們關心的問題提問,並利用NASA系統的運行進行分析,隨後將分析結果返回用戶。由於分析結果的規模小於生成它的原始數據,這一系統將減少經不同網路傳送的數據量,而更重要的是,API可以大大減少用戶和數據間的摩擦。
以上是小編為大家分享的關於大數據怎樣幫助我們了解氣候變化的相關內容,更多信息可以關注環球青藤分享更多干貨
『叄』 大數據將打開一扇怎樣的門
大數據將打開一扇怎樣的門
作為人類生活的重要基礎,大數據打開了一扇新的大門。而更重要的在於,通過大數據打開的那扇門,人們看到的不只是數據本身,而是在大數據基礎上出現的一種新的人類文明。
近20年來,大數據浪潮已經向我們撲面而來。有人形容,大數據就像一片無邊無際的大海,海面一浪高過一浪,而浪潮之下深不見底。與此同時,從國際零售巨頭沃爾瑪「啤酒和尿布」的經典案例到精準醫療等,大數據在人們生活和工作中的重要性越來越得以凸顯。面對大數據打開的一扇新的大門,我們不能不深入思考:這將是怎樣的一扇大門?又會將我們帶進一個怎樣的世界?
大數據正在把世界變成數據?
從通常的定義看,大數據被認為是不能用傳統資料庫軟體工具獲取、貯存、管理和分析的數據集合。這是大數據的技術定義,但顯然,並沒有涉及大數據浪潮深處最重要的內容。
大數據技術定義最主要的一個著眼點,就是規模大。但是,大數據的關鍵性質不主要是規模大,而是完全不同於作為樣本數據的小數據。通常,樣本數據的獲取總是在先設定明確甚至單一目的的。這種具有在先設定的取樣,一方面可以更好地實現采樣前預設的目標;另一方面就像亞里士多德所說,在選擇了某種可能性的同時,也抹去了無數其他可能性的蓓蕾。
大數據的另一個更重要性質是維度全。通常,我們拍照會選取一個角度,角度一取,數據就固定了。面對一張拍好的平面照片,再要換個角度去觀察已不可能。而大數據則幾乎保留了全緯度。面對大數據,我們可以從不同的角度進行考察。當然,事實上沒有任何大數據是真正「全」的,就像世界上沒有任何事物是十全十美的,但是,就人類的使用需要來說,其維度則可以看作是「全」的。作為樣本數據,小數據是「殘缺」的。就像尼采說抽象的概念是「乾枯的標本」,樣本數據和抽象概念的共同特點都是已經「失活」了。而大數據意味著活數據(動態數據)、全數據。因此,「全數據」是理解大數據的一個富有哲學意蘊的角度。從這個角度,我們可以看到更豐富的內容:大數據是不僅在規模上大,而且在維度上全到就人類使用需要而言的全數據。
大數據特別是其全數據的性質意味著什麼呢?
在大數據的基礎上,物數據化和數據物化構成循環。大數據的核心口號是量化世界。而量化世界為創構世界奠定了基礎。這是因為,物數據化事實上就是物信息化,而物信息化是一個含義更為廣泛的概念,它與小數據基礎上也能出現的物數據化完全不同。同樣,數據物化實質上就是信息物化。信息物化和物信息化兩個方面所構成的循環,使人類進入一個創構的時代。大數據基礎上的創構與築路修橋等工程不一樣。隨著數字技術的發展,創構活動及其產物與人的存在方式越來越密切地聯系在一起。
這里涉及一個新的重要概念,信息。對於信息,已有一百多個定義。其中,控制論創始人維納的定義最為耐人尋味。在維納看來,「信息就是信息,既不是物質也不是能量」。這個定義看上去像是同義反復,但卻富有深意。它表明,信息是一種不同於物能,但又具有和物能並列地位的資源。信息不僅既不是物質也不是能量,而且具有一些物能所不具有的重要性質。比如,物能復製成本呈正比增加,而信息復制的邊際成本遞減;物能越分享越少,而信息越共享越多。信息的這些重要性質,在作為樣本數據的小數據時,顯示不出其重要性,而在具有全數據性質的大數據基礎上,則就非同尋常了。在大數據的基礎上,信息不可能不對人類的文明發展產生極為重要的影響。
如今,作為人類生活的重要基礎,大數據打開了一扇新的大門。而更重要的在於,通過大數據打開的那扇門,人們看到的不只是數據本身,而是在大數據基礎上出現的一種新的人類文明。
關於大數據的特徵,最多的提到了「42v」
關於大數據的特徵,最早是用「3v」概括的。幾年前,人們認為「3v」不足以描述大數據的特徵,又提出了「4v」的描述。到現在,關於大數據特徵,最多的提到了「42v」。不過,對於大數據特徵,目前獲得較多共識的是這「4v」,即大量「volume」、多樣「verity」、高速「velocity」和價值「value」。
「volume」一般理解為大量。大數據首先意味著數據量巨大。小數據時代主要由人工創建數據,而大數據時代則是由機器、網路和人類相互作用生成。大量是大數據的基本特徵,但往往被誤以為大數據就是大,事實上,這個特徵所表達的是大數據規模的整全性。正如前面所談到的,大數據的「大」不是純粹的量的概念,這個「大」的關鍵是全。樣本數據也可以規模很大,但不具有大數據的性質。大數據的「大」事實上是一個質的概念。
「verity」一般理解為多樣。這包括大數據來源的多樣性和類型的多樣性,也包括數據結構的多樣性。但是,「verity」不能簡單地理解為數據來源和類型的多樣性,也不能只是進一步涉及數據的結構化、半結構化和非結構化。由於數據結構的多樣性和復雜性,大數據的這一特徵還意味著數據結構的開放性。數據的結構化、半結構化和非結構化所表達的,不僅僅是數據的結構狀態,更意味著開放的大數據結構。比如,大數據與大自然不同。大自然可以滿足我們的生存需要,但我們面對大自然,作為很有限。而大數據不一樣,在以人類需要為出發點的大數據挖掘中,數據結構開放在數據和人類需要及其發展這一無限空間中,人類則正是在這一無限空間進行滿足自己需要的創構。
「velocity」一般理解為高速。它不僅僅是指技術設備的數據處理速度,更重要的,是指決定於數據處理速度的實時數據流。樣本數據在取樣後就是凍結的,而大數據可以實時獲取所需信息。對於大數據來說,信息是活的,是隨著時間而流動的。正因為如此,對於實時數據流來說,速率就特別重要。高速的數據流更能在時間上與現實過程同步,因而跟人類的生存更密切地聯系在一起。不僅如此,只有高速流動的數據,才能為我們提供無限的可能性。以往由於受速率限制,我們所獲得的數據和所要反映的內容往往是脫節的,而數據流的高速率使我們把握對象的手段越來越完善。事實上,大數據的整全性就包括數據流速這個至關重要的維度。
「value」用以描述大數據的價值。這個「v」所涉及的是大數據最重要的特徵。人們普遍認為,大數據的價值密度低,數據挖掘是「沙裡淘金」。其實,大數據價值特徵的重要性不言自明,但大數據也十分復雜。大數據是否有價值的關鍵,在於能否把握數據背後所揭示的相關關系組合與人的需要及其發展的關系。由於與人的需要及其發展相聯系,由於數據結構是開放的,大數據的價值不再只是簡單地反映大數據與人的自在需要的關系,而更與人的理解能力密切相關。對於同一個結構開放的大數據,在有的人看來是一座寶庫,價值連城;而另一些人則可能視其為一堆垃圾,毫無意義。大數據的價值和意義,很大程度上取決於人們關於大數據相關關系和人的需要及其發展之間關聯的理解,取決於人們的眼光,而歸根結底,取決於對人的需要及其發展的理解和把握。而這顯然是個典型的哲學課題。隨著大數據的發展,不僅哲學等各學科將越來越相互融合,而且將迎來哲學與科學、社會和生活一體化發展的時代。
大數據應用:毫無意義的垃圾,還是價值連城的寶庫?
上述所談到的,大數據究竟是垃圾,還是寶庫,涉及的是大數據的應用。換句話說,既然大家都認為大數據是個好東西,是個有用的東西,那麼,怎麼應用呢?
就目前而言,大數據應用仍然是國際上一個重要而前沿的話題。而大數據中的相關關系和因果關系,是當前大數據應用和分析研究中的重要問題。大數據凸顯了相關關系的巨大魅力,但同時構成了對傳統因果觀念的嚴峻挑戰。
跨國零售企業沃爾瑪「啤酒和尿布」的故事,就是人們津津樂道的大數據應用的一個經典案例。沃爾瑪在大數據基礎上,用「購物籃方法」分析消費者購物行為時發現,一些男性顧客在購買嬰兒尿布時,常常會同時買幾瓶啤酒。原來,美國家庭有了小孩,一般是母親在家照顧孩子,父親外出采購。而為家裡添丁忙碌的年輕父親們在購買尿布時,常常會稍帶給自己買上幾瓶啤酒,既解乏又喜慶。由此,沃爾瑪推出啤酒和尿布擺在一起的促銷方式,吸引了更多有這種需要的顧客到沃爾瑪購物,使尿布和啤酒的銷量都大幅增加。
大數據相關關系在類似行業的成功應用,使人們理所當然地提出還要不要深究因果關系的問題。一些極端的觀點甚至認為:大數據是關於「是什麼」而不是「為什麼」的;大數據會自己說話,因而,只要相關關系,不要因果關系。只要相關關系不要因果關系的觀點,顯然是興奮於大數據相關關系令人驚嘆的實用性。但其實,大數據不僅把握相關關系,而且把握作為其根基的因果關系。
「蛋撻和手電筒」,就是一個典型的例子。與「啤酒和尿布」的案例一樣,沃爾瑪的大數據表明,很多人在買手電筒的同時購買了蛋撻。因而,根據顧客同時購買蛋撻和手電筒的相關性,在貨架上把它們擺放在一起,以提高銷售量。但是,如果知道其背後的因果關系,相關銷售效果顯然會更好。究其原因,有人發現,人們同時購買手電筒和蛋撻的因果關系涉及北美颶風。這是因為,颶風來臨前人們既需要准備手電筒,又需要准備食物。可是,北美颶風是季節性風暴,如果只知道相關關系不知道因果關系,就可能一直把手電筒和蛋撻這兩類不同商品放在同一貨架上。而知道了背後的因果關系,就可以在颶風來臨前把蛋撻和手電筒放在一起,而且還可專設颶風用品位置。
可見,只要相關關系、不要因果關系的觀點,很容易被駁倒。其實,更關鍵的問題,不在於是相關關系還是因果關系更加重要,而在於怎麼理解相關性和因果性之間的關系。
關於這一問題的研究,涉及傳統因果概念的重新刻畫。傳統因果觀只是反映了日常生活和經典物理學中因果關系的表觀現象,「原因的原因的原因……」。一方面,追溯通常會導致最終原因的難題,另一方面,作為原因的現象引起作為結果的現象的簡單模型,具有明顯的內在邏輯矛盾。這樣的因果模型,不僅不能理解大數據的相關關系,更不能建立起大數據相關關系和因果關系的關聯。只有把原因看作是因素相互作用的過程,把結果看作是因素相互作用過程的效應,才能擴展對因果關系的理解,從而適用於大數據相關關系和因果關系問題的認識。由此建立起來的新因果模型具有內容豐富的結構,不僅存在因素相互作用已經完成和因素相互作用進行中的環節,還存在因素尚未進入相互作用的環節。這就呈現出了因果模型的過去時態、進行時態和未來時態。這不僅更有利於人們理解凝固的因果關系,而且在人們面前敞開了創構未來的廣闊空間。
由此,不僅可以看到,相關關系其實有它的因果根據,而且可以對相關關系和因果關系作一個統一的理解。在新的因果模型中,相關關系可以被理解為是因果派生關系,包括因素和結果之間的關系、結果和結果之間的關系以及特別重要的因素和因素之間關系。由於這些因素和結果還包括潛在的,我們還可以看到大數據相關關系的因果根基以及很多耐人尋味的重要內容,包括一些奇特相關關系案例的理解。由於相對於潛在結果,因素關系構成了無限廣闊的可能性空間,由此構成的相關關系內容非常豐富。在潛在因素的無限空間中,根據特定需要,讓特定因素以特定方式進入特定相互作用過程,就能創構出我們所需要的東西。顯然,這種新的因果關系與現實社會更加接近。
大數據將帶來新的信息文明並影響世界權力重構
如果把以往的文明形態都看作是物能文明的話,那麼,人類社會發展到大數據時代所迎來的,則是一種不同於物能文明的信息文明。信息文明的形成和發展,必須有大數據作為基礎。作為一種與物能文明相平行的文明形態,信息文明是一種基於信息本性的共享文明。只有在大數據的基礎上,信息的共享本性才可能充分展開。而且,信息文明的發展,是一個在大數據基礎上的公共信息對稱化過程。
這就要求,一方面,為推動信息文明的發展,必須在公共領域盡可能消除信息不對稱;另一方面,為保持信息文明發展的動力,必須盡可能保護創新專利,而這也只有基於大數據才有可能。作為一種人類文明,信息文明是一種基於信息機制的役物文明。在信息文明時代,人類越來越通過信息控制物能,使物質通過結構的調整,由一種對人類不那麼有價值的材料變成價值更大的材料,從一種不太能滿足人的需要的形態變成一種更能滿足人的需要的形態,使能量從難以利用的形態變成更容易獲得和利用的形態,從而,人類活動更多地是直接與信息打交道而不是傳統的主要與物能打交道。而這些都必須在大數據基礎上進行。如果沒有大數據,信息即使重要,但也只能居於依附的地位。
作為人類文明發展的更高階段,信息文明還是一種基於信息創構的人性文明。正是大數據,也只有大數據,才能為這種創構的文明提供必不可少的信息空間。某種程度上說,信息創構活動是最符合人性的活動,只有到了以大數據為基礎的信息時代,人類歷史才真正步入人性文明的軌道,不僅對物能的控制達到全社會甚至全人類實現「物為人役」的水平,使人類活動從以描述認識為主進入到以創構認識為主;而且,創構時代所需要的全面解放創造力,也意味著社會發展到了這樣的程度,即人性在社會維度獲得程度越來越高的解放的文明水平。由此可見,信息文明與物能文明的區分,本質上不是一種基於社會生產方式的區分,而是一種基於人的存在狀態的人類文明劃分。這意味著,大數據將越來越成為人類生存的重要基礎,也意味著人將越來越以信息方式存在。
人越來越以信息的方式存在,預示著大數據所打開的信息文明大門,也將釋放出一系列新的重要問題。這些重大的問題,既涉及個人生活,也涉及社會發展。
一是信息生態問題。由於人越來越以信息方式存在,信息生態理所當然成了一個越來越重要的基礎性問題。對於人類來說,自然生態或更根本地說物能生態具有切身性,而信息生態則不僅具有切身性,而且更具「切心性」,信息生態更切近人的心靈。因此,在自然生態的基礎上,信息生態將日益為人們所密切關注,成為信息文明時代關乎人類發展的問題。就像在物能文明時代,自然生態是關乎人類生存的問題一樣。
二是人的存在意義問題。沒有物能就沒有信息的存在,物能存在是基礎。但是,在信息文明時代,如果一個人仍然主要以物能方式存在,仍然以基於物能的感官享受作為生活意義的主要來源,一句話,仍然主要滯留於物能存在方式,那麼,很可能將遲早將進入無意義的人群。在信息文明時代,人類的活動主要是信息活動,只有主要以信息方式存在,並且以創構活動作為自己主要活動方式的人,才能進入意義生產的領域。在這個意義上,信息文明的確意味著這樣一種分化:相對無意義的人群和生產意義的人群。這很可能將是信息文明時代發展的必然趨勢。當然,對此人類社會也應當提前思考,如何避免新的社會不公平的出現。
三是國家的發展問題。從人類社會發展史中可以看到一個重要事實:一個大國的真正崛起,通常必須要引領一種新的文明。信息文明時代的到來,必定伴隨著大國的新的崛起,不管是現實的還是潛在的大國。在21世紀,中國要和平發展、成為世界上的大國,就需要引領信息文明。也許,信息文明不可能再像傳統文明時代的世界那樣,由某個國家引領,但不進入引領信息文明國家的行列,任何國家都不可能真正作為大國崛起。而國家的興衰與個人的生存和發展不僅聯系在一起,而且構成一個相互依存和協同發展的循環。
21世紀的競爭,將是信息的競爭。大數據時代的競爭將是信息文明引領的競爭,這意味著,大數據時代,中國要麼在引領信息文明中作為真正的大國,要麼只是作為大國崛起在物能文明層次。這也是從大數據所打開的信息文明大門,我們能越來越清晰看到的最為關切的一個重要內容。
『肆』 大數據觀念 決策當摒棄經驗與直覺
大數據觀念:決策當摒棄經驗與直覺
據統計,人類歷史上90%的數據,都在過去的兩年中產生;今天,數據世界已經增至4.4億萬億位元組,如果將這些龐大的信息量存儲在蘋果iPad平板電腦中,疊加起來的iPad平板電腦,其厚度相當於地球到月球距離的2/3,這或可意味著人類已進入大數據時代。
蒸汽機的發明,使煤、石油成為推動工業革命的重要原材料;現在,計算機的發明和聯網,將使大數據成為推動信息革命的重要原材料。美國作者史蒂夫·洛爾在《大數據主義》一書中,解釋了大數據技術將如何引發一場新的革命,並告訴我們:大數據將在哪些領域大放異彩,又在哪些領域需要保持警惕,以及大數據將把我們帶向何方?
讓大數據大放異彩的領域
大數據應用於很多領域、行業,同時,它還會改變人類的決策方式。大數據主義者認為,所有決策,都應當逐漸摒棄經驗與直覺,並且加大對數據分析的倚重。
讓我們來看一下美國的葯品銷售企業麥克森公司的案例:在經營活動中,麥克森公司產生了龐大的數據,IBM公司利用這些數據,為麥克森公司建立了決策模擬模型。藉助這個模型,麥克森公司可以完成更精準的預測和更高明的決策。麥克森公司經營的一些葯品如抗癌葯品和專用抗生素等,價格極高,需求極不穩定,麥克森公司以前的做法是:靠「猜測法」在幾個分銷中心都儲備這類葯品,再根據需要調貨。通過IBM建立的決策模擬模型得知,盡管空運成本是卡車運送成本的10倍,但如果把這些葯品全部儲存在孟菲斯郊區的中心倉庫,再空運給客戶,這些昂貴葯品的庫存會降低1/2,節省的成本,用於支付高昂的空運費還有結余,並且這些葯品的按時送達率,會由以前的80%上升到99%。最終,麥克森公司通過對大數據的應用,將庫存成本降低了10億美元,效率提高了約13%。
大數據在商品零售業也有光明的前景。世界零售業巨頭沃爾瑪,通過大數據統計與分析,發現男性顧客在購買嬰兒尿片時,常常會順便買上幾瓶啤酒,於是,他們推出將啤酒和尿片捆綁銷售的促銷活動,非常有效地提高了啤酒銷量。另外,沃爾瑪在挖掘歷史采購數據時發現,在預報有颶風通過的地區,消費者購買草莓果醬餡餅的數量是平時的7倍,而颶風到來之前,最暢銷的商品是啤酒。於是,他們在颶風警報到來時,已經儲備下足夠的草莓果醬餡餅和啤酒,這樣既充分滿足了顧客需要,又獲得了較好的銷售業績。
《大數據主義》一書中諸多案例告訴我們,現在及將來,那些價格越來越低廉的電腦與軟體,再加上越來越開放、高效的網路,將意味著更多的企業參與到應用大數據的方法中來,提高效益或制定戰略。
大數據的「黑洞」
當然,大數據在帶給人們便利的同時,也隱藏著一個巨大的「黑洞」——安全問題。例如,美國最大的數據代理商,是總部位於阿肯色州小石城的安客誠公司,該公司已搜集了數億名消費者的數據。該公司宣稱,他們通過官方檔案、購物數據、網上瀏覽習慣等渠道,歸納了消費者的大量信息,從而得出大多數美國成年人的相關數據,比如人們的年齡、種族、性別、黨派、對度假的期望等,其深入細致程度是美國政府和其他互聯網企業所無法比擬的。安客誠是向企業提供消費者信息的傑出供應商,也同時成為隱私權倡導者們最討厭的對象之一。通過技術獲取最大利益的同時,如何保護好人們的隱私權?怎樣找到合適的平衡點?這是需要人類認真思考的重大問題。
到目前為止,「怎樣才能將隱私方面的風險降至最低?」還沒有明確的答案,但已形成了兩個涇渭分明的陣營。一個自稱「開明商業群體」的陣營認為:數據是一種資產,是信息經濟的流通貨幣,因此數據像錢一樣,只有自由流通才能創造最大的價值;他們主張,在制定保護隱私的規則時,關注點應該是「數據的使用」,而不是「數據的收集」。但是,「消費者與隱私權倡導者」陣營對僅通過限制數據使用來保護隱私權,表示懷疑和反對。
阿萊克斯·彭特蘭,是麻省理工學院媒體實驗室的一個團隊負責人,目前,他的團隊正在開展隱私權項目的研究和實驗。他竭力主張「新型數據交易」,其中包含三個基本原則:「你有權擁有你自己的數據,有權管控這些數據的使用,有權選擇你認為合適的方式銷毀或發布這些數據。」2014年,奧巴馬政府的大數據報告也再次呼籲,應當按照彭特蘭提議的原則,加強對消費者數據的管控。與此同時,開發應用於數據管理的隱私保護工具,也成為一個重大的商機。
該書作者還從更宏大的視角,來觀察大數據。他深刻地指出:如同宇宙大爆炸般飛速擴張的「數據世界」,不僅日益成為外在客觀物質的「鏡像」,而且正越來越多地包含人類自身行為的追蹤和記錄,成為人類觀察和認識自我的一面「大鏡子」。在大數據的幫助下,我們將會越來越清晰地看到這個世界的本來面目,也會越來越清晰地認識人類自身
『伍』 大數據是指什麼是指現在網路上存儲的數據量很大還是怎樣的
不看網路,大數據用通俗的話講就是無論你所編程的演算法好或不好,當處理的數據很大的時候,兩個演算法得出的精度是相當的。
『陸』 大數據信息促進營銷模式轉型
大數據信息促進營銷模式轉型
大數據之父」維克托·邁爾舍恩伯格認為,世界的本質就是大數據。
仔細想來,確實如此。隨著大數據時代悄然來臨,數據不再是一個抽象的專業名詞,它已經無孔不入地滲透到我們生活的方方面面。
每當颶風來臨之前,美國沃爾瑪都會將手電筒和蛋撻擺在一起出售,這是因為通過對沃爾瑪的多維數據分析發現,季節性颶風到來之前,手電筒和蛋撻的銷量都會大幅增加,颶風、手電筒、蛋撻之間有著一種神奇的聯系;利用價格調整軟體,零售商可以在一小時內自動修改200萬件商品的價格,這是基於競爭對手價格和銷售額等因素的一種動態定價機制;澳大利亞數字戶外廣告公司通過安裝在數字戶外媒體上的受眾測量設備來實時採集受眾的信息,當測出此時的觀看人為女性,後台中針對女性用戶且給出最高廣告費的廣告將自動播放。
本書中提到的上述案例都是基於大數據的渠道、定價和廣告創新。作為一本關於大數據營銷的教科書,不同於以往教材中只有枯燥晦澀的理論,本書每一章節都配有生動的經典案例,范圍涉及眾多不同領域的領先公司,展示了諸如騰訊、IBM、沃爾瑪等巨頭公司在大數據營銷中最具價值的應用案例。通過對這些案例的詳盡分析,幫助讀者更好地理解大數據營銷的運作理念和方法。
那麼,我們為什麼要了解大數據?大數據究竟能給營銷帶來哪些變革?
信息技術的創新推動著思維模式的變革,大數據帶來的信息風暴開啟了營銷模式的轉型。麥肯錫全球研究院在五年前發布的一份研究報告《大數據:創新、競爭和生產力的下一個新領域》指出,數據已經滲透到當今每一個行業和業務職能領域,成為日益重要的生產因素;而人們對於海量數據的運用預示著新一波生產率增長和消費者盈餘浪潮的到來。
對於市場營銷來說,大數據可以幫助品牌發現機遇(新客戶、新市場、新規律和新策略),迴避風險和潛在威脅,同時也有助於品牌營銷決策的調整與優化。因此,如何利用大數據技術實現更大的營銷價值和效果,是值得不斷思考和探索的領域。
本書作者陽翼十餘年來潛心於營銷領域,做了大量前瞻性的研究工作,有著豐富的理論功底和實踐經驗。不僅在傳統營銷領域頗有建樹,對於大數據時代的新營銷也有著獨到的見解,在廣告、市場、數字營銷等方面提出了諸多有價值的觀點。相信本書能為高校廣告、營銷專業的學生及相關研究人員、從業人士打開一扇洞察大數據營銷的窗口,同時在變革思維方式、培養大數據思維等方面帶來啟迪。