導航:首頁 > 網路數據 > 經濟學人大數據

經濟學人大數據

發布時間:2023-11-30 21:56:14

1. 詳解大數據的思想如何形成與其價值維度

詳解大數據的思想如何形成與其價值維度
比如經濟上,黃仁宇先生對宋朝經濟的分析中發現了「數目字管理」(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事,「向林彪學習數據挖掘」的橋段不論真假,其背後量化分析的思想無疑有其現實基礎,而這一基礎甚至可以回推到2000多年前,孫臏正是通過編造「十萬灶減到五萬灶再減到三萬灶」的數據、利用龐涓的量化分析習慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了數據存儲的革命。磁碟驅動器隨即發明,它帶來的最大想像空間並不是容量,而是隨機讀寫的能力,這一下子解放了數據工作者的思維模式,開始數據的非線性表達和管理。資料庫應運而生,從層次型資料庫(IBM為阿波羅登月設計的層次型資料庫迄今仍在建行使用),到網狀資料庫,再到現在通用的關系資料庫。與數據管理同時發源的是決策支持系統(DSS),80年代演變到商業智能(BI)和數據倉庫,開辟了數據分析——也就是為數據賦予意義——的道路。

那個時代運用數據管理和分析最厲害的是商業。第一個數據倉庫是為寶潔做的,第一個太位元組的數據倉庫是在沃爾瑪。沃爾瑪的典型應用是兩個:一是基於retaillink的供應鏈優化,把數據與供應商共享,指導它們的產品設計、生產、定價、配送、營銷等整個流程,同時供應商可以優化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關於啤酒加尿布,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經理編的,人類歷史上從沒有發生過,但是,先教育市場,再收獲市場,它是有功的。
僅次於沃爾瑪的樂購(Tesco),強在客戶關系管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發生在90年代。00年代時,科研產生了大量的數據,如天文觀測、粒子碰撞,資料庫大拿吉姆·格雷等提出了第四範式,是數據方法論的一次提升。前三個範式是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經典物理學定律),模擬(粒子加速太貴,核試驗太臟,於是乎用計算代替)。第四範式是數據探索。這其實也不是新鮮的,開普勒根據前人對行星位置的觀測數據擬合出橢圓軌道,就是數據方法。但是到90年代的時候,科研數據實在太多了,數據探索成為顯學。在現今的學科里,有一對孿生兄弟,計算XX學和XX信息學,前者是模擬/計算範式,後者是數據範式,如計算生物學和生物信息學。有時候計算XX學包含了數據範式,如計算社會學、計算廣告學。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結》,引起軒然大波。他主要的觀點是有了數據,就不要模型了,或者很難獲得具有可解釋性的模型,那麼模型所代表的理論也沒有意義了。跟大家說一下數據、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中採集了三個點的數據,根據這些數據,可以對客觀世界有個理論假設,用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又採集了兩個點,這時發現三角形、四邊形的模型都是錯的,於是確定模型為五邊形,這個模型反映的世界就在那個五邊形里,殊不知真正的時間是圓形。
大數據時代的問題是數據是如此的多、雜,已經無法用簡單、可解釋的模型來表達,這樣,數據本身成了模型,嚴格地說,數據及應用數學(尤其是統計學)取代了理論。安德森用谷歌翻譯的例子,統一的統計學模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料數據。谷歌甚至能翻譯克萊貢語(StarTrek里編出來的語言)。安德森提出了要相關性不要因果性的問題,以後舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學界不認同《理論的終結》,認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數據,機器可以發現當前知識疆域裡面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴展到新的空間。在人類歷史上,每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。
2010年左右,大數據的浪潮捲起,這些爭論迅速被淹沒了。看谷歌趨勢,」bigdata」這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報告,上升到澤位元組范疇(給大家個概念,現在硬碟是太位元組,1000太=1拍,阿里、Facebook的數據是幾百拍位元組,1000拍=1艾,網路是個位數艾位元組,谷歌是兩位數艾位元組,1000艾=1澤);一家是麥肯錫,發布《大數據:創新、競爭和生產力的下一個前沿》;一家是《經濟學人》,其中的重要寫手是跟老舍同著《大數據時代》的肯尼思?庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經被編出來了,只不過在大數據語境里有了全新的詮釋。
咱們國內,歡總、國棟總也是在2011年左右開始呼籲對大數據的重視。
2012年子沛的書《大數據》教育政府官員有功。老舍和庫克耶的《大數據時代》提出了三大思維,現在已經被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要數據全集不要采樣。現實地講,1.沒有全集數據,數據都在孤島里;2.全集太貴,鑒於大數據信息密度低,是貧礦,投入產出比不見得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.采樣要有隨機性、代表性,采訪火車上的民工得出都買到票的結論不是好采樣,現在只做固定電話采樣調查也不行了(行動電話是大頭),在國外基於Twitter采樣也發現不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的信號,因此在全集數據存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說混雜性由於精確性。擁抱混雜性(這樣一種客觀現象)的態度是不錯的,但不等於喜歡混雜性。數據清洗比以前更重要,數據失去辨識度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結論,少數高質量數據+復雜演算法被大量低質量數據+簡單演算法打敗,來證明這一思維。Peter的研究是Web文本分析,確實成立。但谷歌的深度學習已經證明這個不完全對,對於信息維度豐富的語音、圖片數據,需要大量數據+復雜模型。
最後是要相關性不要因果性。對於大批量的小決策,相關性是有用的,如亞馬遜的個性化推薦;而對於小批量的大決策,因果性依然重要。就如中葯,只到達了相關性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因導致治癒的果。西葯在發現相關性後,要做隨機對照試驗,把所有可能導致「治癒的果」的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是一樣,相關性只是開始,它取代了拍腦袋、直覺獲得的假設,而後面驗證因果性的過程仍然重要。
把大數據的一些分析結果落實在相關性上也是倫理的需要,動機不代錶行為。預測性分析也一樣,不然警察會預測人犯罪,保險公司會預測人生病,社會很麻煩。大數據演算法極大影響了我們的生活,有時候會覺得挺悲哀的,是演算法覺得了你貸不貸得到款,谷歌每調整一次演算法,很多在線商業就會受到影響,因為被排到後面去了。
下面時間不多了,關於價值維度,我貼一些以前講過的東西。大數據思想中很重要的一點是決策智能化之外,還有數據本身的價值化。這一點不贅述了,引用馬雲的話吧,「信息的出發點是我認為我比別人聰明,數據的出發點是認為別人比我聰明;信息是你拿到數據編輯以後給別人,而數據是你搜集數據以後交給比你更聰明的人去處理。」大數據能做什麼?價值這個V怎麼映射到其他3V和時空象限中?我畫了個圖:
再貼上解釋。「見微」與「知著」在Volume的空間維度。小數據見微,作個人刻畫,我曾用《一代宗師》中「見自己」形容之;大數據知著,反映自然和群體的特徵和趨勢,我以「見天地、見眾生」比喻之。「著」推動「微」(如把人群細分為buckets),又拉動「微」(如推薦相似人群的偏好給個人)。「微」與「著」又反映了時間維度,數據剛產生時個人價值最大,隨著時間decay最後退化為以集合價值為主。
「當下」和「皆明」在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結合過往(負軸)、預測未來(正軸),可以皆明,即獲得perpetual智慧。《西遊記》里形容真假孫悟空,一個是「知天時、通變化」,一個是「知前後、萬物皆明」,正好對應。為達到皆明,需要全量分析、預測分析和處方式分析(prescriptiveanalytics,為讓設定的未來發生,需要採取什麼樣的行動)。
「辨訛」和「曉意」在Variety的空間維度。基於大體量、多源異質的數據,辨訛過濾雜訊、查漏補缺、去偽存真。曉意達到更高境界,從非結構數據中提取語義、使機器能夠窺探人的思想境界、達到過去結構化數據分析不能達到之高度。
先看知著,對宏觀現象規律的研究早已有之,大數據的知著有兩個新特點,一是從采樣到全量,比如央視去年「你幸福嗎」的調查,是街頭的采樣,前不久《中國經濟生活大調查》關於幸福城市排名的結論,是基於10萬份問卷(17個問題)的采樣,而清華行為與大數據實驗室做的幸福指數(繼挺兄、我、還有多位本群群友參與),是基於新浪微博數據的全集(托老王的福),這些數據是人們的自然表達(而不是面對問卷時的被動應對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,數據告訴你答案。《中國經濟生活大調查》說「再小的聲音我們都聽得見」,是過頭話,采樣和傳統的統計分析方法對數據分布採用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學,已經有一批數學家、物理學家成了經濟學家、寬客,現在他們也可以選擇成為社會學家。國泰君安3I指數也是一個例子,它通過幾十萬用戶的數據,主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大數據的真正差異化優勢在微觀。自然科學是先宏觀、具體,進入到微觀和抽象,這時大數據就很重要了。我們更關注社會科學,那是先微觀、具體,再宏觀、抽象,許小年索性認為宏觀經濟學是偽科學。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現在都生活在零售商的bucket中(前面說的樂購創造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如「精打細算」、「右鍵點擊一族」(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobody wants to be nobody today。
了解並掌握客戶比以往任何時候都更重要。奧巴馬贏在大數據上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·傑西卡·帕克(《慾望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什麼電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對於企業來說,要從以產品為中心,轉到以客戶(買單者)甚至用戶(使用者)為中心,從關注用戶背景到關注其行為、意圖和意向,從關注交易形成轉到關注每一個交互點/觸點,用戶是從什麼路徑發現我的產品的,決定之前又做了什麼,買了以後又有什麼反饋,是通過網頁、還是QQ、微博或是微信
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟體有幾秒的延遲,而佔美國交易量60-70%的高頻程序化交易則要發現毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震後9分鍾發出海嘯預警,已經太晚。時間還是機會。現在所謂的購物籃分析用的其實並不是真正的購物籃,而是結帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。數據價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現在東莞一出事網路遷徙圖就反映出來了。當然,當下並不一定是完全准確的,其實如果沒有更多、更久的數據,匆忙對網路遷徙圖解讀是可能陷入誤區的。
第四個,皆明。時間有限,就簡單說了。就是從放馬後炮到料事如神(predictiveanalytics),從料事如神到運籌帷幄(prescriptiveanalytics),只知道有東風是預測分析,確定要借箭的目標、並給出處方利用草船來借,就是處方性分析。我們現在要提高響應度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數據過濾雜訊、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖數據結合就能做到精確,GPS在城市的高樓中沒有信號,可以與慣性導航結合。
曉意涉及到大數據下的機器智能,是個大問題,也不展開了。貼一段我的文章:有人說在涉及「曉意」的領域人是無法替代的。這在前大數據時代是事實。《點球成金(Moneyball)》講的是數量化分析和預測對棒球運動的貢獻,它在大數據背景下出現了傳播的誤區:一、它其實不是大數據,而是早已存在的數據思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經理比利·比恩用數量化分析取代了球探。而事實是,在運用數量化工具的同時,比恩也增加了球探的費用,軍功章里有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數結構化量化指標無法刻畫的。大數據改變了這一切。人的數字足跡的無意識記錄,以及機器學習(尤其是深度學習)曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基於大數據的情感分析、價值觀分析和個人刻畫,當這些應用於人力資源,已經或多或少體現了球探承擔的。

2. 大數據時代帶來更理性、更可靠的決策

大數據時代帶來更理性、更可靠的決策_數據分析師考試

究竟是什麼魔力,讓「大數據」這一概念得到全球各國的普遍關注?到底什麼是「大數據」?它能夠在多大程度上改變我們的生活?在我們尋求對這些重要問題的解答時,牛津大學網路學院互聯網研究所教授維克托·邁爾-舍恩伯格出現在我們的視野中;希望我們對他的采訪,可以幫助讀者們找到這些疑問的答案。

最近一段時間,「大數據」的熱潮席捲全球,正如美國《福布斯》雜志所說的那樣,如今,在瀏覽新聞網站或者參加行業會議時,想看不見或聽不到「大數據」這個詞幾乎不可能。去年,美國6個聯邦政府部門宣布將啟動「大數據研發計劃」,投資超過2億美元以改進從海量和復雜的數據中獲取知識的能力。同時,我國科技部發布的「『十二五』國家科技計劃信息技術領域2013年度備選項目徵集指南」也把大數據研究列在首位。眼下召開的全國「兩會」上,有全國人大代表提出要把發展「大數據」上升為國家戰略。

究竟是什麼魔力,讓「大數據」這一概念得到全球各國的普遍關注?到底什麼是「大數據」?它能夠在多大程度上改變我們的生活?眼前對「大數據」的關注度是否已經過高了呢?在我們尋求對這些重要問題的解答時,英國牛津大學網路學院互連網研究所教授維克托·邁爾-舍恩伯格(Viktor Mayer-Schonberger)出現在我們的視野中,討論「大數據」,他如果不是最合適的人選,也起碼是合適人選之一。

20多年來,維克托一直致力於網路經濟、信息與創新、信息監管、網路規范與戰略管理的研究。還在「大數據」這一概念眾說紛紜時,維克托就已進行了系統深入的研究,2010年,他在英國《經濟學人》雜志上和數據編輯肯尼思·庫克耶一起,發表了長達14頁的大數據專題文章。稱他為最早洞見大數據時代發展趨勢的數據科學家之一,並不為過。

《經濟學人》說,在大數據領域,維克托是最受人尊敬的全方位發言人之一;美國《科學》雜志說,若要發起一場關於這個問題的深入討論,沒有比他更好的發起者了。

除了理論研究以外,維克托還非常接近實戰世界,早在上大學期間,他就先後成立了兩家數據安全和製作反病毒軟體的公司,而在他寫就的《大數據時代》一書中,那些最前沿、最嶄新的大數據應用案例,都得益於他多年來緊跟企業與商業應用的步伐。他的咨詢客戶中,不乏微軟、惠普、IBM、亞馬遜、臉書、推特、VISA等大數據先鋒們。

目前,維克托還是歐盟互聯網官方政策背後的重要制定者與參與者,尤為重要的是,他還任職過新加坡商務部、汶萊國防部、科威特商務部等部門,特別熟悉亞洲信息產業的發展與戰略布局。

希望我們通過電子郵件對維克托的采訪,可以幫助讀者們找到這些疑問的答案。

失去微觀層面上的精確度,為的是獲取宏觀層面上的洞察力

文匯報:今天,「大數據」已經成為全球炙手可熱的詞彙,您是從何時開始關注它的?

邁爾-舍恩伯格:多年來,我一直致力於研究數據在信息經濟的發展中所扮演的重要角色,我與肯尼思·庫克耶(Kenneth Cukier,我的合著者)一起發布了一系列相關研究報告。大約三年前,在我自己組織的一次會議上,我倆都意識到「大數據」的存在已經不僅僅是一種炒作或者什麼宏大的宣言了,而將實實在在地改變我們的工作、生活以及整個社會,於是,我們決定就此專題寫一本書。

文匯報:那麼在您看來,究竟什麼是大數據時代?它和傳統數據時代到底有什麼差別?我們知道,像沃爾瑪這樣的公司早在多年前,就已經將大數據運用到了商業實踐中。

邁爾-舍恩伯格:事實上,過去幾個世紀以來,數據已經在科學家們制定決策的過程中扮演了一定的角色,而過去幾十年間,這一做法又延伸到了一些公司的決策制定過程。但在大數據時代之前,數據是非常匱乏的,我們擁有的數據非常少。因此,我們的決策、我們構建的制度都是建立在這樣一種數據匱乏的基礎上。今天,一切變得非常不同,它體現在三個不同的方面,我們稱之為「更多」、「更亂」和「相關性」。

文匯報:這三個特徵也是您在《大數據時代》一書中非常強調的,它們甚至會顛覆我們過去的整個思維方式。您能否具體描述一下這到底是怎樣的過程?

邁爾-舍恩伯格:好的。我所說的「更多」,是指圍繞任何一個我們想要調查的特定問題,或者是需要我們回答的疑問,我們都可以比過去任何時候獲取更多的數據。在大數據時代,我們可以利用海量的數據得到非常詳盡的見解,這是傳統方法所不能做到的。

可以這么說,大數據時代和傳統數據時代的區別,就像解析度在200萬像素的舊數碼照片,一下子提高到2400萬像素那樣。後者是一個非常非常大的文件,它可以提供更多細節。它可以讓我們不斷放大,看清楚小到顆粒狀的細部,而具有較低解析度的圖像在這些細節方面就會非常模糊。

基因信息就是一個很好的例子。美國有一家叫23andMe的新公司提供個人的DNA測試分析,以發現一些疾病徵兆。它的成本只有兩三百美元,並提醒客戶關注會發展成嚴重疾病的個人癖好。但是公司並不對每個客戶的全基因組進行測序,而是針對已知特徵的位點(經研究得知因某種疾病存在,而可能會出問題的DNA片段)進行比對。這意味著,當一個新的特徵被研究發現時,23andMe公司就不得不再次對客戶的DNA進行測序並建立更完整的檔案。

蘋果公司的史蒂夫·喬布斯嘗試了非常不同的方法。他得了癌症後,就有了自己全部的基因密碼,數十億的鹼基對測序。這花費了他超過10萬美元的成本,但這可以讓醫生完整地洞察他的基因密碼。每當葯物由於喬布斯的癌症病變而失去有效性,他們就可以根據喬布斯特定的基因信息,尋找到有效的替代葯物。遺憾的是,這也沒有保住喬布斯的命,但是在這一過程中獲得的數據,已經延長了他的生命。

由於技術創新,現在收集大量信息的成本變得越來越低。數年前,史蒂夫·喬布斯花費了六位數的金額才做到的事情,今天,不到1000美元就可以獲得同樣的服務了。

而「更亂」指的是,在小數據時代,因為數據是如此稀少,我們可以確保自己收集的每一個數據點都是非常准確的。相比較而言,大數據往往是凌亂和質量參差不齊的。但是,相比以高額代價來保證測量和收集少量數據的精確性,在大數據時代,我們將接受這種雜亂,因為我們通常需要的只是一個大方向,而不是努力了解一種現象的細枝末節。我們並不是要完全放棄精確性,我們只是放棄對精確性的熱衷。我們失去微觀層面上的精確度,為的是獲取在宏觀層面上的洞察力。

電腦翻譯就是其中一個例子。1990年代,IBM的研究人員使用了一套非常精確的文件(加拿大議會記錄的法語和英語版)來訓練計算機。盡管計算機完全按照規則行事,但基於此的翻譯質量卻非常低。然後,谷歌在2006年開始介入這一領域,他們沒有使用來自加拿大政府的幾百萬句標准翻譯,而是使用隨手可得的任何語言。他們在整個互聯網上,利用數十億頁質量參差不齊的翻譯,這些翻譯不怎麼標准——但是,這是一個小的權衡——他們能夠使用的數據大大增加了,結果翻譯質量反而提高了。與更少、更標準的數據相比,更多凌亂的資料完勝了。

「更多」和「更亂」組合到一起,產生了第三個特點,「相關性」,這也是大數據帶給我們的最根本性的轉變。我們的思維將從因果關系轉向相關關系。至今為止的整個人類歷史里,全世界的人們都在尋找事件發生的原因,探尋「為什麼」。但我們對原因的執著探索往往帶領我們走向錯誤的方向。所以,我們建議,在大數據時代,在許多情況下,我們可以僅僅尋找「是什麼」,而不必完全理解「為什麼」。例如,對於大數據的分析中,我們可以發現機器震動中一些非常微小的變化,這些變化表明機器將很快損壞。這使我們能夠在部分機器零件報廢前更換它們,這被稱為「預測性維護」,它可以節省不少錢。但除了提高消費效率,「相關性」還可以做更多的事情。

比如對早產兒而言,即使他們長大成人,這些小寶寶仍舊是非常脆弱的,哪怕是遇上很小的感染。醫生卡羅琳·麥格雷戈研究如何給這些嬰兒最好的生存機會。使用大數據分析,每分鍾可以搜集這些嬰兒超過一千個數據點,麥格雷戈發現一個令人震驚的事實:每當這些早產兒出現非常穩定的標志時,他們的身體其實並不穩定,正在准備發病。有了這方面的知識,她就能在一個非常早期的階段,確定嬰兒是否需要葯物治療,從而挽救更多孩子的生命。

這是典型的大數據應用:醫生麥格雷戈通過更全面的感測器,可以比以往搜集到更多的數據。她也接受,在這種情況下,並不是所有的數據都是准確的,從而也會導致她分析中存在不精確的可能。她把「為什麼」這個問題放在一邊,而用一種更務實的方式來提供幫助,她尋找「是什麼」,這才是一個更好的預見感染的辦法。

我們應該記住:大數據也可以挽救生命。

正確使用大數據,可以改善醫療、教育水平,促進人類發展

文匯報:大數據時代的到來,是否將會引領新一輪的產業革命?我們應該怎樣客觀地看待它的價值?

邁爾-舍恩伯格:大數據將會極大地改變社會生活的方方面面,但是它的價值能否等同於工業革命,這個問題目前還不好說。我個人猜想可能不能,原因是在19世紀初工業革命剛剛開始的時候,經濟發展還處於非常低的水平上,所以相對來說,當時的人們從工業化過程中所能獲得的生活水平的提升是非常巨大的,今天則非常不一樣了。

我們真正想強調的是,大數據時代將推動我們從根本上改變企業的運作方式,以及我們在社會中的生活方式。大數據可以提高人類制定決策的能力,這種提高將是大幅度的。有了大數據,我們不是簡單地提高經濟效率,而是將挽救人類生命,延長我們自己的壽命。我們還將改善教育,促進發展。同樣的道理,我們必須要小心。大數據同樣也有「陰暗面」,正如我們在書中討論的那樣。如果應用錯誤,大數據也可能會化為一個強有力的武器。因此,我們必須確保正確使用大數據。

文匯報:您提到了大數據時代的「陰暗面」,它的到來會加深數字化鴻溝嗎?

邁爾-舍恩伯格:大數據是一個強大的工具。因此,如果我們使用了錯誤的方式,它就可能會加深數字鴻溝。但是,如果我們用得好,相信大數據就可能會改善我們的生活,尤其是對那些不那麼幸運的人而言。在這一點上,你可以把它想像成火、電或是抗生素等等。

文匯報:也就是說,您對大數據的價值認知,是基於一個更長時段的歷史發展。

邁爾-舍恩伯格:如果以非常廣闊的視角來看人類歷史,我認為,人類一直想要理解世界。起初,許多人的「知識」是基於迷信和預感。知識的發展非常慢,人們需要非常深層次的思考,再通過實踐進行檢驗,以確保知識是可用的。

但即使如此,我們的知識仍舊不是百分之百可靠的。例如,19世紀,路易·巴斯德一直在研究狂犬病疫苗,當時有一個被狗嚴重咬傷而染上狂犬病的小孩,父母擔心孩子會死去,懇求巴斯德試試他的試驗性疫苗。巴斯德照做了,孩子活了下來。隨後的慶祝活動上,巴斯德以一個英雄的身份出現,他挽救了年輕孩子的性命。但是事實的確如此嗎?今天,通過更深入的研究,我們知道,在被類似病狗咬到的兒童中,只有25%會感染狂犬病。所以75%的兒童哪怕使用了無效的疫苗,仍舊可以存活下來。這個故事告訴我們,我們以為自己生活在非常科學的世界中,但其實,我們擁有的數據非常少。一種新的治療方法在被證明安全之前,需要做幾十個甚至幾百個醫學實驗來進行測試。但這仍舊太少,人們還是會受到傷害,因為我們依靠的數據太少。在大數據時代,我們可以告別數據匱乏,做出的決策將更理性,更基於事實,當然也更可靠。這是大數據時代帶給我們的希望——更好的決策將會代替我們過往那些可疑的迷信和不可靠的人類預感。

文匯報:我們看到,麥肯錫公司2011年就發布報告推測,如果把大數據用於美國的醫療保健,一年可產生潛在價值3000億美元,用於歐洲的公共管理可獲得年度潛在價值2500億歐元;服務提供商利用個人位置數據可獲得潛在的消費者年度盈餘6000億美元;利用大數據分析,零售商可增加運營利潤60%,製造業設備裝配成本會減少50%。「數據創造價值」的預測已經非常振奮人心。在您看來,大數據是否只是一門價值不菲的生意?

邁爾-舍恩伯格:不,大數據可以做更多。醫療方面,我們前面已經提過,只是分析一些重要的徵兆,早產嬰兒的感染出現明顯症狀的數小時前,醫生就可以預見其生病。

同樣,通過大數據分析,我們也可以找出學校教科書中的哪一部分對學生而言效果最好,也可以找出效果不好的部分。到現在為止,我們只能按照人類的預感,即教師自己判斷學生在理解特定課程時是否會有疑問;但在大數據時代,我們有實際的數據可以參考,例如數據顯示,電子書籍的某些頁面被看過許多遍,因為它讓學生感覺費解,據此可以調整我們的教材。這將從根本上改變教育。

或者舉公共政策為例:Inrix是為智能手機提供導航軟體的公司,它還提供實時的交通數據。之所以能做到這一點,是因為每個用戶本身都成為了交通流量狀況的感測器,把位置和速度信息都發回Inrix公司。這樣一來,就可以給行進在交通堵塞路段周圍的客戶提供良好服務。Inrix公司有一大堆人們的活動數據,這還將有助於城市規劃者了解大家的通勤模式,人們從哪裡出發去工作,然後返回,並建設基礎設施,如道路和鐵路。這是最有效的應用。節省錢的同時,也有利於整個社會的管理。

文匯報:大數據對於商業決策、學術研究乃至國家治理的作用是顯而易見的;但是對日常生活中的普通人而言,他們一定會從中受益嗎?為什麼在大數據時代,還是有不少人主張遠離過載的信息和數據、返璞歸真回到傳統的社群生活之中呢?個人生活空間一定得從「簡單平面」轉變到「多維存在」才有意義嗎?

邁爾-舍恩伯格:千百年來,人類已經經歷的世界,都是在少量數據的基礎上產生很多想法的世界。海員們結束長途航行後回來,地圖才會在這一次經驗的基礎上進行重新繪制。這顯然不會很精確。經過試驗和犯錯的周而復始,人類發展得非常緩慢。但是,當我們只有非常少的數據時,這是理所當然的結果。今天,我們有這么多的數據,難怪人類會不堪重負。但是,現在大數據可以提供幫助。如果人類不太善於消化這些過多的信息,大數據分析可以幫助我們將信息進行過濾,並進一步可視化,使我們能夠輕松地加以使用。

人們尚未普遍具備與大數據時代相匹配的思維和技能

文匯報:有專家認為,大數據的未來是數據的APP(加速並行處理)而非基礎構架;也就是說,僅僅有數據平台和基礎構架是無法創造長期價值的。對此您怎麼看?

邁爾-舍恩伯格:我們認為,大數據時代將至少需要和過去時代一樣多的人的獨創性。同時,巨大的資源才是未來時代的金礦,那些擁有這些數據資源的人將獲得的回報是不可想像的。

文匯報:大數據時代,數據都是透明的,我們如何在保護個人隱私、商業機密和國家安全之間取得平衡?您所謂的「互聯網遺忘運動」會是最佳葯方嗎?

邁爾-舍恩伯格:大數據時代所面臨的挑戰是,我們發現了隱藏在數據背後的價值,所以,保留這些數據,然後一遍遍地重復使用數據,往往成為一種明智的選擇。同時,現行的保護個人隱私的法律,特別在西方,針對的是一個傳統數據的世界,而不是一個大數據世界。這就需要我們在保護隱私的規則方面作出調整。我們建議,可以通過調整相關保護規則來實現這一目標,正像你所提到的,我們可以在一定時間以後,選擇遺忘這些數據。

文匯報:大數據時代是一個海量數據有待處理的時代,同時又是一個海量無用信息需要刪除的時代。這是否就是您在《刪除》一書中強調我們要有所取捨的原因所在?

邁爾-舍恩伯格:是。在某種程度上,大數據本身也可以加強隱私的保護。因為如果有一百萬個數據點,一個單獨的數據點就不再那麼重要了,這和傳統數據時代非常不一樣。隨著時間的推移,忘記其中一些數據,並不會破壞整個大數據的運行和使用。

文匯報:大數據現在在全球究竟發展到了什麼階段?處理大數據的技術是否已經在全世界范圍內普及?

邁爾-舍恩伯格:管理和處理大數據的技術都已經存在了,而且並不是非常昂貴。但是,有一樣東西目前仍舊非常缺乏,那就是我們的思維——以理解數據背後所隱藏的巨大價值,以及提取這種價值的專門技能。今天,全球范圍內,人們還沒有普遍具備這種思維和技能,但是我相信,在未來,這種情況會發生改變。我們預計,世界各地的許多大學將提供針對大數據分析的課程,來培訓大數據時代所需要的技能。

文匯報:歷次產業技術革命,中國似乎都是學習者和模仿者;和上幾輪產業技術革命不同的是,大數據時代,中國幾乎和歐美發達國家同時開始技術研發,中國人口又居世界首位,將會成為產生數據量最多的國家。您看好中國在新時代的發展前景嗎?中國在大數據時代是否有創新和領先的可能?

邁爾-舍恩伯格:是的,我們對此非常樂觀。中國很可能成為大數據這一領域的先驅。在大數據時代,中國有很多優勢:中國人都受過良好的教育,特別是在數學和統計方面(這是非常重要的)。中國是一個巨大的多元化社會,這會創造大量機會來創造大數據這一資源,並建立大數據應用。同樣的道理,對於大數據的蓬勃發展,我們還需要相匹配的思維方式,有嘗試新事物和持續創新的願望,以實證事實來作為我們決策的依據。因此,和許多其他社會一樣,大數據時代的確也會給中國帶來非常大的變化。

以上是小編為大家分享的關於大數據時代帶來更理性、更可靠的決策的相關內容,更多信息可以關注環球青藤分享更多干貨

3. 大數據的歷史

一、大數據的陷阱作文

李娜再度奪得大滿貫,超越了張德培的華人大滿貫紀錄,非舉國體制下的奇跡造就了舉國的愉悅。

在總結李娜成功因素的時候,也再次看到了這樣的言論:是大數據起到了重要的作用。但這次李娜奪冠,最靠譜的解釋就是李娜在卡洛斯的幫助下大大提升了心理層面的戰鬥力。

在技術層面領先的前提下,李娜在整場比賽中克服了節奏問題,她具備了一顆冠軍的心臟。2012年9月6日,代表亞洲網球至高水平的中國選手李娜在美國迎戰名將小威廉姆斯。

當時,IBM公司在綜合了美網過去8年的全部比賽數據之後,為參賽球員制定了「Keys to the march」的比賽制勝策略。李娜一方獲得贏球的關鍵包括3個指標:1.一發得分率超過69%;2.4-9拍相持中得分利率要超過48%:3.發球局30-30或40-40時得分率要超過67%。

比賽結果是,李娜潰敗。比賽結束後,IBM高調地宣布李娜僅僅完成了三項制勝策略中的項,而小威廉姆斯則完成了自己三項制勝策略中的兩項。

於是,很多人就順著IBM的思路問,李娜為什麼不照著BM的策略去打球?其實,當當事人的主觀願望不積極的時候,大數據對他們來說不過是噪音而已。同樣,數據也會因為主觀意願具有欺騙性。

我們很多時候都會被誤導,認為大數據的作用是讓歷史提示未來。其實不然。

在網球這樣的領域里,歷史數據甚至常常會成為陷阱。有意思的是,在另一場女子網球比賽中,一位球員做到了IBM為其制定的三項指標中的兩個,她卻失敗了。

而勝利的一方,只完成了一個指標。

二、大數據時代發展歷程是什麼

可按照時間點劃分大數據的發展歷程。

大數據時代發展的具體歷程如下:2005年Hadoop項目誕生。 Hadoop其最初只是雅虎公司用來解決網頁搜索問題的一個項目,後來因其技術的高效性,被Apache Software Foundation公司引入並成為開源應用。

Hadoop本身不是一個產品,而是由多個軟體產品組成的一個生態系統,這些軟體產品共同實現全面功能和靈活的大數據分析。從技術上看,Hadoop由兩項關鍵服務構成:採用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務,以及利用一種叫做MapRece技術的高性能並行數據處理服務。

這兩項服務的共同目標是,提供一個使對結構化和復雜數據的快速、可靠分析變為現實的基礎。2008年末,「大數據」得到部分美國知名計算機科學研究人員的認可,業界組織計算社區聯盟 (puting munity Consortium),發表了一份有影響力的白皮書《大數據計算:在商務、科學和社會領域創建革命性突破》。

它使人們的思維不僅局限於數據處理的機器,並提出:大數據真正重要的是新用途和新見解,而非數據本身。此組織可以說是最早提出大數據概念的機構。

2009年印度 *** 建立了用於身份識別管理的生物識別資料庫,聯合國全球脈沖項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。同年,美國 *** 通過啟動://Data.gov網站的方式進一步開放了數據的大門,這個網站向公眾提供各種各樣的 *** 數據。

該網站的超過4.45萬量數據集被用於保證一些網站和智能手機應用程序來跟蹤從航班到產品召回再到特定區域內失業率的信息,這一行動激發了從肯亞到英國范圍內的 *** 們相繼推出類似舉措。2009年,歐洲一些領先的研究型圖書館和科技信息研究機構建立了夥伴關系致力於改善在互聯網上獲取科學數據的簡易性。

2010年2月,肯尼斯ž庫克爾在《經濟學人》上發表了長達14頁的大數據專題報告《數據,無所不在的數據》。庫克爾在報告中提到:「世界上有著無法想像的巨量數字信息,並以極快的速度增長。

從經濟界到科學界,從 *** 部門到藝術領域,很多方面都已經感受到了這種巨量信息的影響。科學家和計算機工程師已經為這個現象創造了一個新詞彙:「大數據」。

庫克爾也因此成為最早洞見大數據時代趨勢的數據科學家之一。2011年2月,IBM的沃森超級計算機每秒可掃描並分析4TB(約2億頁文字量)的數據量,並在美國著名智力競賽電視節目《危險邊緣》「Jeopardy」上擊敗兩名人類選手而奪冠。

後來 *** 認為這一刻為一個「大數據計算的勝利。」 相繼在同年5月,全球知名咨詢公司麥肯錫(McKinsey&pany)肯錫全球研究院(MGI)發布了一份報告——《大數據:創新、競爭和生產力的下一個新領域》,大數據開始備受關注,這也是專業機構第一次全方面的介紹和展望大數據。

報告指出,大數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。

報告還提到,「大數據」源於數據生產和收集的能力和速度的大幅提升——由於越來越多的人、設備和感測器通過數字網路連接起來,產生、傳送、分享和訪問數據的能力也得到徹底變革。2011年12 月,工信部發布的物聯網十二五規劃上,把信息處理技術作為4 項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。

2012年1月份,瑞士達沃斯召開的世界經濟論壇上,大數據是主題之一,會上發布的報告《大數據,大影響》(Big Data, Big Impact) 宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。2012年3月,美國奧巴馬 *** 在白宮網站發布了《大數據研究和發展倡議》,這一倡議標志著大數據已經成為重要的時代特徵。

2012年3月22日,奧巴馬 *** 宣布2億美元投資大數據領域,是大數據技術從商業行為上升到國家科技戰略的分水嶺,在次日的電話會議中, *** 對數據的定義「未來的新石油」,大數據技術領域的競爭,事關國家安全和未來。並表示,國家層面的競爭力將部分體現為一國擁有數據的規模、活性以及解釋、運用的能力;國家數字 *** 體現對數據的佔有和控制。

數字 *** 將是繼邊防、海防、空防之後,另一個大國博弈的空間。2012年4月,美國軟體公司Splunk於19日在納斯達克成功上市,成為第一家上市的大數據處理公司。

鑒於美國經濟持續低靡、股市持續震盪的大背景,Splunk首日的突出交易表現尤其令人們印象深刻,首日即暴漲了一倍多。Splunk是一家領先的提供大數據監測和分析服務的軟體提供商,成立於2003年。

Splunk成功上市促進了資本市場對大數據的關注,同時也促使IT廠商加快大數據布局。2012年7月,聯合國在紐約發布了一份關於大數據政務的白皮書,總結了各國 *** 如何利用大數據更好地服務和保護人民。

這份白皮書舉例說明在一個數據生態系統中,個人、公共部門和私人部門各自的角色、動機和需求:例如通過對價格關注和更好服務的渴望,個人提供數據和眾包信息,並對隱。

三、大數據時代的產生背景

進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

它已經上過《 *** 》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。 數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。

正如《 *** 》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是 *** ,所有領域都將開始這種進程。」

四、大數據時代是什麼意思

大數據時代:最早提出大數據時代到來的是全球知名咨詢公司麥肯錫, 大數據在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。

大數據提出的背景:進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《 *** 》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。

數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。正如《 *** 》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。

哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是 *** ,所有領域都將開始這種進程。」 (3)經濟學人大數據擴展閱讀 大數據影響 現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。

隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。

大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。 在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。

有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。

這些數據的規模是如此龐大,以至於不能用G或T來衡量。大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量)。

發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬…… 截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB) EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。

而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。

而到了2020年,全世界所產生的數據規模將達到今天的44倍。 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。

然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。這樣的趨勢會持續下去。

我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。

大數據的精髓 大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制); B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可。

適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力; C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大。

五、為什麼大數據如此重要

大數據是一種現代雲基礎架構,它包含了多種與其他人連接和共享信息的方法。它推動了「物聯網」的發展,如通過社交網站連接人、通過共享朋友或網路來尋找人們之間互相認識的可能性。大數據的背後運行著人工智慧,而它對於大多數人而言是完全透明的,人們不知道背後有這樣的技術。大數據位於人們日常使用的智能手機之後,然後人們通過它給移動互聯網貢獻信息,即使他們並沒有意識到這一點。

為什麼大數據如此重要?

第一,對大數據的處理分析正成為新一代信息技術融合應用的結點。移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。

第二,大數據是信息產業持續高速增長的新引擎。面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。

第三,大數據利用將成為提高核心競爭力的關鍵因素。各行各業的決策正在從「業務驅動」 轉變「數據驅動」。

總結

在大數據時代到來的時候,要用大數據的思維去發掘大數據的潛在價值。大數據的意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。從前我們所了解的數據是冷冰冰的、死氣沉沉的,被存到冷備份默默地等著人拿出來用,我們對待數據的感覺十分消極,要先想清楚其用處才開始分析應用。現在,數據時代來臨了,人們正在試圖點燃數據,使其變熱,賦予生命。所謂「活數據」,是動態的數據,流通的數據,因互動而產生,因產生而互動,是自然演化的數據,要用大數據的思維去考慮這些數據怎樣才能帶來效益。未來大數據的發展前景非常好,與大數據相關的職業比如數據挖掘師,數據分析師等必定會有廣闊的發展空間。

六、如何實現大數據量資料庫的歷史數據歸檔

這個問題是這樣的:

首先你要明確你的插入是正常業務需求么?如果是,那麼只能接受這樣的數據插入量。

其次你說資料庫存不下了 那麼你可以讓你的資料庫上限變大 這個你可以在資料庫裡面設置的 裡面有個資料庫文件屬性 maxsize

最後有個方法可以使用,如果你的歷史數據不會對目前業務造成很大影響 可以考慮歸檔處理 定時將不用的數據移入歷史表 或者另外一個資料庫。

注意平時對資料庫的維護 定期整理索引碎片

4. 大數據三分鍾演講稿範文

大數據三分鍾演講稿範文(一)
大數據,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。

Facebook

中國的大數據

大數據的特點:

具體來說,大灶野數據具有4個基本特徵:

一是數據體量巨大。網路資料表明,其新首頁導航每天需要提供的數據超過

1、5PB(1PB=1024TB),這些數據如果列印出來將超過5千億張A4紙。有資料證實,到目前為止,人類生產的所有印刷材料的數據量僅為200PB。

演繹歷史僅需133天

二是數據類型多樣。現在的數據類型不僅是文本形式,

更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。

三是處理速度快。

數據處理遵循「1秒定律」,可從各種類型的數據中快速獲得高價值的信息。四是價值密度低。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。

有用數據僅為3600分之一面臨大數據時代的到來,你准備好了嗎?

大數據時代到來

最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」

進入20XX年,大數據(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。

2、數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。正如《紐約時報》20XX年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」

大數據應用案例:

1、醫療行業

在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。

2、能源行業智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭困敗安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這汪辯顫個預測後,可以降低采購成本。

3、通信行業

電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。中國移動通過大數據分析,對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情,結合自己的經歷,移動推出夜間流量包。

4、零售業

零售企業也監控客戶的店內走動情況以及與商品的互動。它們將這些數據與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助某零售企業減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。

大數據三分鍾演講稿範文(二)
既然說到大數據,就得先了解大數據地定義。什麼是大數據。試想如果未來我們一個人擁有的電腦設備超過現在全球現在計算能力的總和,一個人產生的數據量超過現在全球數據量的總和,甚至你的寵物小狗產生的信息量都超過現在全球數據量的總和,世界會發生什麼呢?那麼就先來看一些官方網站給出的大數據的定義。

為導出對事業起作用的數據。對於大數據商務有目的性的定義:「利用大數據解決經濟和社會的問題。提高業務附加的價值。或者是支援事業」大數據不只指它的規模是多少,還有這些數據是由那些數據構成的,還有可以怎樣利用大數據。由此是與到現在的系統是不同的。 用被賣出的數據基礎管理工具或者是到現在為止處理數據的應用程序,來處理巨大困難的復雜數據集合,這樣的詞語。

再來看兩個中文的。

那麼大數據到底是啥。其實就是很多數據。它是把很多信息用數據的方式儲存起來,然後不斷累積,一直到這些數據大的沒辦法用簡單進行利用。大數據並不是很神奇的事情。就如同電影《永無止境》提出的問題:人類通常只使用了20%的大腦,如果剩餘80%大腦潛能被激發出來,世界會變得怎樣?在企業、行業和國家的管理中,通常只有效使用了不到20%的數據(甚至更少),如果剩餘80%數據的價值激發起來,世界會變得怎麼樣呢?特別是隨著海量數據的新摩爾定律,數據爆發式增長,然後數據又得到更有效應用,世界會怎麼樣呢?發揮想像去思考一下。

那麼大數據是怎麼形成的呢?

以前我們關注的都是交易系統和業務系統產生的數據,通過數據倉庫去分析展現,其實終端,尤其是個人各種流水操作,例如購買物品清單,上網瀏覽歷史,照片,微博等也有,但是不關注,而大數據時代,更多的是關注這些大量的數據,期望分析這些數據來發現價值,因此大數據其實以前在系統,終端,個人等等都在產生,只是沒有加以利用而已,現在要分析這些數據從中發現價值。這才是大數據形成的原因和意義。數據再多,但如果被屏蔽或者沒有被使用,也是沒有價值的。中國的航班晚點非常多,相比之下美國航班准點情況好很多。這其中,美國航空管制機構一個的好做法發揮了積極的作用,說起來也非常簡單,就是美國會公布每個航空公司、每一班航空過去一年的晚點率和平均晚點時間,這樣客戶在購買機票的時候就很自然會選擇准點率高的航班,從而通過市場手段牽引各航空公司努力提升准點率。這個簡單的方法比任何管理手段(如中國政府的宏觀調控手段)都直接和有效。

先說一下這個列印的課本,它裡面舉了兩個例子。對於福島核電站的事,以及對於便利店的優勢,都是利用了大數據。比如說超市,要進好多貨,然後有的買的人少可能就堆積,即使減價處理也不一定能賣得掉,從而造成虧損。那麼便利店,就會根據平時周圍生活的人們來選擇性的進貨。在上班族公寓附近就多進快餐,在老年人或者中年人多一點的地方,就進一些生活用品。對於福島核電站,如果將監測核電站的信息及時收集,並且分析就可能發現它有問題,可能會泄露,進而去解決問題避免損失。這就是預測未來可能發生的事故,這樣的話可以有效的避免。再比如說,天文學家們研究天體的運動軌跡,發現更多的行星。將這些數據收集在一起就是大數據,對這些數據分析整理,就有可能計算出,未來某個行星可能會撞上地球。然後採取一些必要的措施,來將這種毀滅性的打擊消除。如何認清現在呢?比如說在醫學上,通過醫療設備對細胞進行觀察,並根據其他測試進而推測出該細胞是不是癌細胞。如果把判斷的依據變成數據化,輸入到電腦中,並且再賦予她一定的學習能力,比如給他一個癌細胞,他會記住這些細胞的特徵,久而久之,他的准確度會越來越高。在醫學上的作用也會越快越明顯。這就是對他的應用進行簡單的了解。之後趙飛會更深入更仔細的講一下這方面的內容。

那麼,大數據對我們帶來的都是好的么。不是的。就比如剛剛那個醫學的例子。研究出的機器會讓診斷癌細胞的工作人員逝去工作。就像是80年代工廠逐漸自動化一樣,工人失業會

很嚴重。如果你是一匹馬,那麼你肯定不喜歡工業革命。

接下來說一下大數據現在面臨的難題,就是如何利用好這些大數據,進而為人們服務,造福我們。就個例子就拿LSST來說。他是一個廣域的天文望遠鏡,是由多個國家參與研發,現在在智利的一個山上,20XX年開始動工,並在20XX年啟用查爾斯·西蒙尼和比爾·蓋茲分別捐贈20XX萬美金和1000萬美金給LSST計劃。LSST計劃至今仍尋求美國國家科學基金會能撥發將近4億美金的贊助費。。它每三天可以拍攝整個天一次。到20XX年,它會搭載一個超級數碼相機,拍攝出的照片達到32億像素。這樣的照片需要1500塊高清電視屏才能展示出來。LSST的照相機每年要拍攝超過人員所能分析的超過20萬張影像。如果利用好了這些數據會是很大的一筆財富,但是目前還沒有一個很有效的解決方法。沒有那麼多人力能去分析它,也沒有那樣的設備直接分析。所以這堆數據就是沒用的數據,沒有價值的。所以大數據是很有潛力的一門科學。接下來跟大家一起看一段TED的演講視頻。

演講人是肯尼斯-庫克耶《經濟學人》數據我,曾任職於《華爾街日報》(亞洲版)和《國際先驅論壇報》。他是美國外交關系協會成員,CNN、BBC和NPR的定期商業和技術評論員之一。對大數據有很深的研究,聽一下他是如何評價大數據的。看完這個演講之後,在有請趙飛帶來對大數據更深入的認識。

5. 「大數據之父」 數據是創新的驅動力

「大數據之父」:數據是創新的驅動力

「有時候不一定是理念驅動世界的變化,可能是實實在在的數據,在數據的基礎上產生理念,新的理念是創造性破壞的核心,而數據則是創新的驅動力。」「大數據之父」維克托·邁爾-舍恩伯格26日下午廣州中山大學[微博]黃埔論壇上作《大數據時代的變革與創新》主題演講時說。

作為牛津大學網路學院互聯網治理與監管專業教授,舍恩伯格是開大數據系統研究先河的學者,《經濟學人》曾評論說,在大數據領域,他是最受人尊敬的權威發言人。他有多達一百多篇論文發表在《科學》《自然》等著名學術期刊上,是《大數據時代》和《刪除:大數據取捨之道》等暢銷書的作者。

在當天的演講中,舍恩伯格指出,我們盡其所能去觀察這個世界,而這個觀察的過程實際上就是一個搜集數據的過程。通過搜集數據,我們進一步理解數據,通過理解數據我們理解了世界。

搜集數據、分析數據需要花費大量的時間、精力、財力,舍恩伯格進一步說道:「我們是否可以搜集最有必要的數據,然後對這些數據進行擠壓,從大量的數據中擠出最精華的東西來,然後在此基礎之上進行意義的構建?也就是說,我們從大數據中可以提取小數據,數據對我們來說成為了一種可以應用的、有價值的資產。」

今天的世界變得如此廣闊,其中所包含的信息海量的,過去20年中,我們數據的量翻了100倍,而且現在還在不斷地增長,在短短的4年內世界已經從一個模擬化的世界變成了數字化的世界。

舍恩伯格表示,這一變化意味著我們要理解我們的生活方式,就必須從過去小數據的世界走入真正的大數據時代。我們要思考數據搜集的方法和機制,要從最需要的數據中來。對所搜集到的數據進行轉化,成為了我們做出決策的一種最好方式。

他認為,數據的價值在於它可以循環使用、多次使用。「過去,人們對數據的使用只是冰山一角,只是有了問題才去搜集數據,然後分析數據,回答問題,然後把數據扔掉。」他指出,事實上,冰山下的那一塊才是數據更大的價值所在,也是我們能夠推動更多創新的地方。

他以特斯拉[微博]汽車、打車軟體Uber以及谷歌[微博]曾經斥巨資收購的NEST等為例指出,這些產品取得巨大成功,不僅僅是因為他們產品本身,更在於他們都是一個數據收集平台,「這意味著你只要能夠充分的使用信息,你就可以用數據來進行創新,進行突破,而且創造出一個新的環境。」

大數據給人們帶來了一個全新的社會,大家都在使用大數據提高決策能力,然而,舍恩伯格也提醒人們,在分析數據、解釋數據的時候,必須了解它的局限性,要非常小心,避免濫用數據。「問題不在數據本身,問題在我們對數據的使用上。

以上是小編為大家分享的關於「大數據之父」 數據是創新的驅動力的相關內容,更多信息可以關注環球青藤分享更多干貨

6. 大數據時代讀後感

《大數據時代》是國外大數據系統研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為“大數據商業應用第一人”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發布了長達14頁對大數據應用的前瞻性研究。以下是這本書的讀後感範文,歡迎閱讀!

大數據時代讀後感(一)

我們不再熱衷於尋找因果關系,而應該尋找事物之間的相關關系。這個命題是我讀這本書最大的感觸。個人認為也是這本書最核心的思想。從頭說起吧,首先,書提出一個顛覆我以前認知的命題--”並非原子而是信息才是一切的本源“,將世界看做信息,看做可以理解的數據的海洋,為我們提供了一個從未有過的審視下是的視角。它是一種可以滲透到所有生活領域的世界觀。這個命題是在書的最後一部分中的某一段中描寫的。我之所以把它放在最前面來講,因為我覺得,這是談數據化世界的前提,自然也是談論大數據的前提啦。書的中間部分有一節講到數據化和數字化的區別。經過我自己腦子的整理,把數據化世界這個命題列為大數據思維的第二步。寫到這里,我不由得反省下,我是不是有領悟到書的精髓所在(我認為的精髓),就是第一句話。因為回顧我整個思路,還是按照舊模式的因果關系思考模式思考問題。書中另一個吸引我的地方就是,有很多觀點的論述,會從哲學的高度論述。雖然,自己肚子沒多少墨水,但是讀這些描述的時候,就會發現自己會更好的理解作者提出的命題。比如書中有一段文字

當我們說人類是通過因果關系了解世界時,我們指的是我們再理解和解釋世界各種現象時使用的兩種基本方法:一種是通過快速、虛幻的因果關系,還有一種就是通過緩慢、有條不紊的因果關系。大數據會改變這兩種基本方法在我們認識世界時所扮演的角色。

在附上一些事例的時候,用作者提供的”本質“去看待時,很容易理解,確實是這么回事。好了,那麼大數據到底改變了我們什麼呢,作者給出3點,

大數據的精髓在於我們分析信息時的三個轉變,這些轉變講改變我們理解和組建社會的方法。

第一個轉變就是,在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(樣本=總體)

第二個轉變就是,研究數據如此之多,以至於我們不再熱衷於追求精確度

第三個轉變因前兩個轉變而促成,即我們不再熱衷於尋找因果關系,而應該尋找事物之間的相關關系。大數據告訴我們”是什麼“而不是”為什麼“。在大數據時代,我們不必知道現象背後的原因,我們只要讓數據自己發聲。

正如大家所知道的那樣,人類的大腦具備這樣的功能,它會把新輸入的刺激或信息與”過去的經驗或積累的部分知識“相對照,然後進行調整並接受下來。如果眼前新的現實與大腦中儲存的固有信息無法協調,便會在無意識中拒絕接受新的現實(當作沒有看見);或者通過自己一知半解的知識任意推測,使自己認識到的情況偏離實際(產生錯覺)。這是人的一種本能,目的在於使自己保持冷靜。

所以作者稱之為revolution。

講了這么多,那麼大數據到底給我們帶來什麼。在這里,我只想談我感觸最深的,其他的有興趣的可以自己去了解。當然,書中提了很多,最多的就是,XXX公司或者個人利用大數據創造了多大的財富了,拋開這些表面的不說,最讓我動心亦或者是害怕的是---預測。這是大數據帶來最核心的東西,動心的理由無須贅述,計算機會告訴你什麼時候買什麼雙色球可以中頭獎,想想心裡是不是有一點小激動咧。當然這只是我打的一個比較誇張的比喻。至於害怕呢,書中有段話我很喜歡

公平正義的基礎是人只有做了某事才需要對它負責,畢竟,想做而未做不是犯罪,社會關系於個人責任的基本信條是,人為其選擇的行為承擔責任。如果大數據分析完全准確,那麼我們的未來會被精準的預測,因此在未來,我們不僅會失去選擇的權利,而且會按照預測去行動。如果精準的預測成為現實的話,我們也就失去了自由意志,失去了自由選擇的權利。既然我們別無選擇,那麼我們也就不需要承擔責任。這不是很諷刺嗎。

扯到這里,順便扯一下,書中另一段關於自由意志的描述

在哲學界,關於因果關系是否存在的爭論已經持續了幾個世紀。畢竟,如果凡事皆有因果的話,那麼我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果。而這個結果又是由其他原因導致的。以此循環往復,那麼就不存在人的自由意志這一說了。——所有的生命軌跡都只是受因果關系的控制了。因此,對於因果關系在世間所扮演的角色,哲學家們爭論不休,有時他們認為,這是與自由意志相對立。

書中舉了個例子,舉了部電影《少數派報告》,當我看到這里的時候,”哎喲,我居然看過這部電影,想想心裡還是有點小激動“,有興趣的可以去看下,大概就是講警察通過預測來提前抓捕犯人,不過不是通過大數據,是通過超人類的方式。當你什麼舉動都可以被預測,相當於你完全暴露在太陽光下,換成你,你害怕不。

最後,附上兩段結語,一段是書中的一段話,另一段是我自己瞎編的。

大數據並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。

大數據終將會影響到我們,也像其他技術一樣會是一把雙刃劍,用得好,動心,濫用,害怕。如同核技術一樣,用的話,造福地球,濫用,給個金剛石地球你,照樣爆。我相信,未來的大數據的發展會如作者所說的,是一場生活、工作與思維的革命。

大數據時代讀後感(二)

去年的“雲計算”炒得熱火朝天的,今年的“大數據”又突襲而來。彷彿一夜間,各廠商都紛紛改旗換幟,推起“大數據”來了。於是乎,各企業的CIO也將熱度紛紛轉向關注“大數據”來了。有一張來自《程序員》微博的漫畫很形象。我覺得這張圖,很真實地反映了現實中小企業雲計算,大數據的現狀。

不過話又還得說回來,《大數據時代》是本好書。

當然,很多IT知名人士也大力推薦,寫了好多讀後感來表述對這本書的喜歡沒看此書之前,對所謂大數據的概念基本上是一頭霧水,雖則有了解關注過現在也比較火熱的BI,覺得也差不多,可能就是更多的數據,更細致的數據分析與數據挖掘。看過此書後,感覺到之前的想法,只能算是中了一小半吧---巨量的數據,而另一前:著眼於數據關聯性,而非數據精確性,或許才是大數據與現時BI最大的不同,不僅僅是方法,更多的時思想方法。不過坦白講,到底是數據的關聯性重佳,還是數據的精確性更好,還真的需要時間來檢驗一下,至少從現在的數據分析方法來論,更多的傾向於數據的精確性。看完此書,我心中的一些問題:

1.什麼是大數據?

查了查網路,是這樣定義的:大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的'的資訊。大數據的4V特點:Volume、Velocity、Variety、Veracity--這個好像是IBM的定義吧。

以個人的觀點來看:數據海量,存儲海量都是大數據的基本原型吧。

2.大數據適合什麼樣的企業?

誠然,大數據的前提是海量的數據,只有擁有巨量的數據資源,方能從中查找出數據的關聯性,才可以讓通過

專業化的處理,讓其為企業產生價值。針對電信運營,互聯網應用這樣海量用戶的數據的大企業,也是在應用大數據的道路上擁有得天獨厚的條件,但是針對中小企業呢?銷售訂單數據?若非百年老店,估計數據也是少得可憐,5,能用的可能只有消費者數據了吧。貌似大多數廠商,用來舉例的也就是消費都購買行為分析為最多。同樣,在公共事業類的政府機構,大數據的作用也許也能很好的發揮。反而感覺在大多數中小型企業應用大數據,似乎有點大題小作。書中說:大數據是企業競爭力。誠然,數據是一個企業的核心無形資源(利用得好的話),但是否所有的數據,或都換則方式說:所有的企業都以大數據為競爭力,是否真的合適么?是否在中小企業中,會顯示得小題大做呢?

3.大數據帶來的影響

當一波又一波的IT技術熱潮源源不斷地向我們鋪面而來的時候,你甚至都沒有做好准備,你都要開始迎接它所給你帶來的影響了。經過物聯網,雲計算的推波助瀾下,大數據開始登場了。但它到底給我們帶來了什麼呢?

1)預測未來書中以Google成功預測了未來可能發生流感的案例來開篇,表明通過大數據的應用,可以為我們的生活起一個保駕護航的指向標。實質很簡單,技術改變世界。

2)變革商業大數據所帶來的商機,同時會衍生出一系列與大數據相關的商業機遇與商業模式,數據的潛在價值會源源不斷地發揮作用可以容易想到的是未來有專門的數據收集,數據分析,數據生成的一條數據產業鏈產生。影響最大的,當然是IT公司

3)變革思維書中所說:因為有海量的數據作基礎,未來,我們可能更關注數據的相關,而非精細度。對這條,本人還是持保留意見的。

大數據時代讀後感(三)

如今說起新媒體和互聯網,必提大數據,似乎不這樣說就OUT了。而且人雲亦雲的居多,不少談論者甚至還沒有認真讀過這方面的經典著作——舍恩佰格的《大數據時代》。維克托·邁爾——舍恩伯格何許人也?他現任牛津大學網路學院互聯網研究所治理與監管專業教授,曾任哈佛大學肯尼迪學院信息監管科研項目負責人。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業,他是歐盟互聯網官方政策背後真正的制定者和參與者,他還先後擔任多國政府高層的智囊。這位被譽為:大數據時代的預言家“的牛津教授真牛!那麼,這位大師說的都是金科玉律嗎?並不一定,讀大師的作品一定要做些功課才好讀懂,如果能做足功課又具備相應的理論功底,就能與之進行一場思想上的對話。

舍恩伯格分三部分來討論大數據,即思維變革、商業變革和管理變革。在第一部分”大數據時代的思維變革“中,舍恩伯格旗幟鮮明的亮出他的三個觀點:一、更多:不是隨機樣本,而是全體數據;二、更雜:不是精確性,而是混雜性;三、更好:不是因果關系,而是相關關系。對於第一個觀點,我不敢苟同。一方面是對全體數據進行處理,在技術和設備上有相當高的難度。另一方面是不是都有此必要,對於簡單事實進行判斷的數據分析難道也要採集全體數據嗎?我曾與香港城市大學的祝建華教授討論過。祝教授是傳播學研究方法和數據分析的專家,他認為一定可以找到一種數理統計方法來進行分析,並不一定需要全部數據。聯繫到舍恩伯格第二個觀點中所說的相關關系,我理解他說的全體數據不是指數量而是指范圍,即大數據的隨機樣本不限於目標數據,還包括目標以外的所有數據。我認為大數據分析不能排除隨機抽樣,只是抽樣的方法和范圍要加以拓展。

我同意舍恩伯格的第二觀點,我認為這是對他第一個觀點很好的補充,這也是對精準傳播和精準營銷的一種反思。”大數據的簡單演算法比小數據的復雜演算法更有效。“更具有宏觀視野和東方哲學思維。對於舍恩伯格的第三個觀點,我也不能完全贊同。”不是因果關系,而是相關關系。“不需要知道”為什麼“,只需要知道”是什麼“。傳播即數據,數據即關系。在小數據時代人們只關心因果關系,對相關關系認識不足,大數據時代相關關系舉足輕重,如何強調都不為過,但不應該完全排斥它。大數據從何而來?為何而用?如果我們完全忽略因果關系,不知道大數據產生的前因後果,也就消解了大數據的人文價值。如今不少學者為了闡述和傳播其觀點往往語出驚人,對舊有觀念進行徹底的否定。

世間萬物的復雜性多樣化並非非此即彼那麼簡單,舍恩伯格也是這種二元對立的幼稚思維嗎?其實不然,讀者在閱讀時一定要看清楚他是在什麼語境下說的,不要因囫圇吞棗的淺讀而陷入斷章取義的誤讀。比如說舍恩伯格在提出”不是因果關系,而是相關關系。“這一論斷時,他在書中還說道:”在大多數情況下,一旦我們完成了對大數據的相關關系分析,而又不再滿足於僅僅知道‘是什麼’時,我們就會繼續向更深層次研究的因果關系,找出背後的‘為什麼’。“[i]由此可見,他說的全體數據和相關關系都在特定語境下的,是在數據挖掘中的選項。

大數據研究的一大驅動力就是商用,舍恩伯格在第二部分里討論了大數據時代的商業變革。舍恩伯格認為數據化就是一切皆可”量化“,大數據的定量分析有力地回答”是什麼“這一問題,但仍然無法完全回答”為什麼“。因此,我認為並不能排除定性分析和質化研究。數據創新可以創造價值,這是毫無疑問的。舍恩伯格在討論大數據的角色定位時仍把它置於數據應用的商業系統中,而沒有把它置於整個社會系統里,但他在第二部分大數據時代的管理變革中討論了這個問題。在風險社會中信息安全問題日趨凸顯,數據獨裁與隱私保護成為一對矛盾。如何擺脫大數據的困境?舍恩伯格在最後一節”掌控“中試圖回答,但基本上屬於老生常談。我想,或許凱文·凱利的《失控》可以幫助我們解答這個問題?至少可以提供更多的思考維度。正如舍恩伯格在結語中所道:”大數據並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。“謝謝舍恩伯格!讓大數據討論從自然科學回到人文社科。由此推斷,《大數據時代》不是最終答案,也不是標准答案,只是參考答案。

此外,在閱讀此書之前還必須具備一些數據科學的基本知識和基本概念,比如說什麼叫數據?什麼叫大數據?數據分析與數據挖掘的區別,數字化與數據化有什麼不同?讀前做些功課讀起來就比較好懂了。

7. 大數據時代發展歷程是什麼

可按照時間點劃分大數據的發展歷程。

8. 大數據時代的變革思維

大數據時代的變革思維
信息時代,數據深刻影響著銀行的未來發展。在全球龐大的人群和應用市場下,探索以大數據為基礎的解決方案,深入洞察復雜且充滿變化的市場成為了企業提高自身競爭力的重要手段。僅憑直觀感受,任何人都能感覺到大數據時代已經來了。
維克托 邁爾舍恩伯格——《大數據時代》一書作者,牛津大學網路學院互聯網研究所治理與監管專業教授,英國新聞周刊《經濟學人》曾經將維克托邁爾-舍恩伯格定義為大數據領域最受人尊敬的權威發言人之一。2010年,維克托 邁爾舍恩伯格就已經開始對該領域進行了系統而深入的研究,並在《經濟學人》上和數據編輯肯尼思庫克耶一起,發表了長達14頁的大數據專題文章,成為最早洞見大數據時代發展趨勢的數據科學家之一。
大數據時代的思維變換
維克托 邁爾舍恩伯格在《大數據時代》中最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道「是什麼」,而不需要知道「為什麼」。這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。
這本書的價值體現在三個方面:第一,關於大數據的思維變換,重在大數據變革時代的價值與觀念變化;第二,關於大數據影響商業變革的三個要素:即數據、技術與創新思維之間的互動;第三,是關於大數據泛化下的治理與隱私。
與中國企業相比,美國企業知道大數據價值並且能挖掘大數據的隱藏價值,從而獲得最大利益,可以說他們已經建立了大數據思維,從而促使他們不斷創新挖掘更好的數據。「美國收集的數據要比我們多得多,他們不光搜集可以理解的數據,他們也收集不能理解的數據,並且會花大量資源來存儲這些數據,讓數據一直有價值。」在維克托邁爾舍恩伯格看來,大多數企業還把大數據作為一種在市場營銷手段,但是大數據還可以幫助人們改變商業模式以及盈利模式,這才是大數據最大的價值所在。「美國與中國相比,最不同一點就在於他們有大數據思維,懂得如何利用大數據的價值,但這並不代表中國無法逾越美國,中國的優勢在於掌握數據量比較大,而在大數據時代『大』也是非常重要的。」
城市的發展需要大數據,沒有數據的輔佐城市就不會得到最優化的發展方案,大數據能幫助政府領導者進行更好的決策,尤其是公共政策的決策。城市需要知道如何建立基礎設施來收集數據,同時要利用大數據開拓思路,讓數據來說話,並且藉助多方力量,即便是大數據方面的專家,但是並不一定有最正確的決定或最有效的方法來利用大數據,所以政府在這方面需要多聽取私人企業或機構的意見,大數據時代合作、溝通、廣泛吸納意見是非常重要的。
維克托 邁爾舍恩伯格以倫敦為例談道:「倫敦政府其實是從一家私人企業買了關於人們交通模式的數據,讓政府驚訝的是人們的行動路線跟他們想像的完全不一樣,所以在這一方面的幫助他們更好的優化交通,包括高速公路、停車場,以減少城市擁堵。」
誰是大數據「贏家」?
大數據所面臨困境並不在技術方面,而是在數據流動方面。大數據時代,一個人的智慧不能幫助我們更好的利用大數據價值,所以要讓數據流動起來,讓不同的部門和不同的公司都參與進來,進而優化數據。
「更多的人會認為大數據只是用在企業營銷方面,但是如果讓他們知道大數據可以幫助孩子更好的學習、更好的生活居住條件,以及能夠解決城市交通、居住等問題,他們慢慢發現大數據的好處,他們就會關心大數據。」維克托邁爾舍恩伯格談道,「一方面,人們要信任大數據,不要害怕大數據暴露隱私,需要建立完善的大數據保護。不信任就導致人們不願意讓其他機構知道數據,如果不能使用這些數據就更談不上大數據的價值。所以只有讓他們信任數據,才能挖掘大數據價值。另一方面,一定要接受大數據使用限制問題,不要賦予大數據過多的意義。」
維克托 邁爾舍恩伯格理解的大數據贏家,並不是指本來就已經很成功而且在大數據時代同樣成功的的公司,「我認為大數據的最大贏家應該是一些默默無聞的公司,因為大數據而發生飛躍性的變化,所以大數據時代最大贏家不可能是那些已經掌握大量數據的大公司,而是新興創業、年輕人來工作的小公司,幫助他們在大數據時代成為非常有競爭力的企業。所以數據好比一座金山,但是數據在那裡放著,這座金山就不會屬於你,我們需要做的是了解並挖掘這些『金子』,成為大數據的贏家。」維克托邁爾 舍恩伯格如是說。
大數據是看待現實的新角度,不僅改變了市場營銷、生產製造,同時也改變了商業模式。數據本身就是價值來源,這也就意味著新的商業機會,沒有哪一個行業能對大數據產生「免疫能力」,適應大數據才能在這場變革中繼續生存下去。

閱讀全文

與經濟學人大數據相關的資料

熱點內容
拳皇2012安卓60 瀏覽:631
范縣官方微信 瀏覽:156
app在哪裡查詢分數 瀏覽:181
環評文件公示期多少天 瀏覽:812
解除指紋支付密碼 瀏覽:337
白千萬大數據平台是什麼 瀏覽:300
pdf安裝後打開文件自動退出 瀏覽:493
游戲卸載後怎麼刪掉數據 瀏覽:72
少兒編程加盟網站哪個好 瀏覽:133
蘋果7下載不了東西 瀏覽:304
列印機一次性可以打多少份文件 瀏覽:864
qq個人說明關於惡魔 瀏覽:508
美圖秀秀溶圖教程貼吧 瀏覽:240
如何備份access資料庫 瀏覽:188
小米平板2win10編程 瀏覽:232
txt文件占內存多少 瀏覽:453
java論文3000字 瀏覽:121
linuxftp看不到文件 瀏覽:929
安卓手機被偷了密碼嗎 瀏覽:351
舊手機怎麼將裡面數據清理干凈 瀏覽:686

友情鏈接