㈠ 詳解大數據的思想如何形成與其價值維度
詳解大數據的思想如何形成與其價值維度
比如經濟上,黃仁宇先生對宋朝經濟的分析中發現了「數目字管理」(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事,「向林彪學習數據挖掘」的橋段不論真假,其背後量化分析的思想無疑有其現實基礎,而這一基礎甚至可以回推到2000多年前,孫臏正是通過編造「十萬灶減到五萬灶再減到三萬灶」的數據、利用龐涓的量化分析習慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了數據存儲的革命。磁碟驅動器隨即發明,它帶來的最大想像空間並不是容量,而是隨機讀寫的能力,這一下子解放了數據工作者的思維模式,開始數據的非線性表達和管理。資料庫應運而生,從層次型資料庫(IBM為阿波羅登月設計的層次型資料庫迄今仍在建行使用),到網狀資料庫,再到現在通用的關系資料庫。與數據管理同時發源的是決策支持系統(DSS),80年代演變到商業智能(BI)和數據倉庫,開辟了數據分析——也就是為數據賦予意義——的道路。
那個時代運用數據管理和分析最厲害的是商業。第一個數據倉庫是為寶潔做的,第一個太位元組的數據倉庫是在沃爾瑪。沃爾瑪的典型應用是兩個:一是基於retaillink的供應鏈優化,把數據與供應商共享,指導它們的產品設計、生產、定價、配送、營銷等整個流程,同時供應商可以優化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關於啤酒加尿布,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經理編的,人類歷史上從沒有發生過,但是,先教育市場,再收獲市場,它是有功的。
僅次於沃爾瑪的樂購(Tesco),強在客戶關系管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發生在90年代。00年代時,科研產生了大量的數據,如天文觀測、粒子碰撞,資料庫大拿吉姆·格雷等提出了第四範式,是數據方法論的一次提升。前三個範式是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經典物理學定律),模擬(粒子加速太貴,核試驗太臟,於是乎用計算代替)。第四範式是數據探索。這其實也不是新鮮的,開普勒根據前人對行星位置的觀測數據擬合出橢圓軌道,就是數據方法。但是到90年代的時候,科研數據實在太多了,數據探索成為顯學。在現今的學科里,有一對孿生兄弟,計算XX學和XX信息學,前者是模擬/計算範式,後者是數據範式,如計算生物學和生物信息學。有時候計算XX學包含了數據範式,如計算社會學、計算廣告學。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結》,引起軒然大波。他主要的觀點是有了數據,就不要模型了,或者很難獲得具有可解釋性的模型,那麼模型所代表的理論也沒有意義了。跟大家說一下數據、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中採集了三個點的數據,根據這些數據,可以對客觀世界有個理論假設,用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又採集了兩個點,這時發現三角形、四邊形的模型都是錯的,於是確定模型為五邊形,這個模型反映的世界就在那個五邊形里,殊不知真正的時間是圓形。
大數據時代的問題是數據是如此的多、雜,已經無法用簡單、可解釋的模型來表達,這樣,數據本身成了模型,嚴格地說,數據及應用數學(尤其是統計學)取代了理論。安德森用谷歌翻譯的例子,統一的統計學模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料數據。谷歌甚至能翻譯克萊貢語(StarTrek里編出來的語言)。安德森提出了要相關性不要因果性的問題,以後舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學界不認同《理論的終結》,認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數據,機器可以發現當前知識疆域裡面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴展到新的空間。在人類歷史上,每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。
2010年左右,大數據的浪潮捲起,這些爭論迅速被淹沒了。看谷歌趨勢,」bigdata」這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報告,上升到澤位元組范疇(給大家個概念,現在硬碟是太位元組,1000太=1拍,阿里、Facebook的數據是幾百拍位元組,1000拍=1艾,網路是個位數艾位元組,谷歌是兩位數艾位元組,1000艾=1澤);一家是麥肯錫,發布《大數據:創新、競爭和生產力的下一個前沿》;一家是《經濟學人》,其中的重要寫手是跟老舍同著《大數據時代》的肯尼思?庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經被編出來了,只不過在大數據語境里有了全新的詮釋。
咱們國內,歡總、國棟總也是在2011年左右開始呼籲對大數據的重視。
2012年子沛的書《大數據》教育政府官員有功。老舍和庫克耶的《大數據時代》提出了三大思維,現在已經被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要數據全集不要采樣。現實地講,1.沒有全集數據,數據都在孤島里;2.全集太貴,鑒於大數據信息密度低,是貧礦,投入產出比不見得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.采樣要有隨機性、代表性,采訪火車上的民工得出都買到票的結論不是好采樣,現在只做固定電話采樣調查也不行了(行動電話是大頭),在國外基於Twitter采樣也發現不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的信號,因此在全集數據存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說混雜性由於精確性。擁抱混雜性(這樣一種客觀現象)的態度是不錯的,但不等於喜歡混雜性。數據清洗比以前更重要,數據失去辨識度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結論,少數高質量數據+復雜演算法被大量低質量數據+簡單演算法打敗,來證明這一思維。Peter的研究是Web文本分析,確實成立。但谷歌的深度學習已經證明這個不完全對,對於信息維度豐富的語音、圖片數據,需要大量數據+復雜模型。
最後是要相關性不要因果性。對於大批量的小決策,相關性是有用的,如亞馬遜的個性化推薦;而對於小批量的大決策,因果性依然重要。就如中葯,只到達了相關性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因導致治癒的果。西葯在發現相關性後,要做隨機對照試驗,把所有可能導致「治癒的果」的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是一樣,相關性只是開始,它取代了拍腦袋、直覺獲得的假設,而後面驗證因果性的過程仍然重要。
把大數據的一些分析結果落實在相關性上也是倫理的需要,動機不代錶行為。預測性分析也一樣,不然警察會預測人犯罪,保險公司會預測人生病,社會很麻煩。大數據演算法極大影響了我們的生活,有時候會覺得挺悲哀的,是演算法覺得了你貸不貸得到款,谷歌每調整一次演算法,很多在線商業就會受到影響,因為被排到後面去了。
下面時間不多了,關於價值維度,我貼一些以前講過的東西。大數據思想中很重要的一點是決策智能化之外,還有數據本身的價值化。這一點不贅述了,引用馬雲的話吧,「信息的出發點是我認為我比別人聰明,數據的出發點是認為別人比我聰明;信息是你拿到數據編輯以後給別人,而數據是你搜集數據以後交給比你更聰明的人去處理。」大數據能做什麼?價值這個V怎麼映射到其他3V和時空象限中?我畫了個圖:
再貼上解釋。「見微」與「知著」在Volume的空間維度。小數據見微,作個人刻畫,我曾用《一代宗師》中「見自己」形容之;大數據知著,反映自然和群體的特徵和趨勢,我以「見天地、見眾生」比喻之。「著」推動「微」(如把人群細分為buckets),又拉動「微」(如推薦相似人群的偏好給個人)。「微」與「著」又反映了時間維度,數據剛產生時個人價值最大,隨著時間decay最後退化為以集合價值為主。
「當下」和「皆明」在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結合過往(負軸)、預測未來(正軸),可以皆明,即獲得perpetual智慧。《西遊記》里形容真假孫悟空,一個是「知天時、通變化」,一個是「知前後、萬物皆明」,正好對應。為達到皆明,需要全量分析、預測分析和處方式分析(prescriptiveanalytics,為讓設定的未來發生,需要採取什麼樣的行動)。
「辨訛」和「曉意」在Variety的空間維度。基於大體量、多源異質的數據,辨訛過濾雜訊、查漏補缺、去偽存真。曉意達到更高境界,從非結構數據中提取語義、使機器能夠窺探人的思想境界、達到過去結構化數據分析不能達到之高度。
先看知著,對宏觀現象規律的研究早已有之,大數據的知著有兩個新特點,一是從采樣到全量,比如央視去年「你幸福嗎」的調查,是街頭的采樣,前不久《中國經濟生活大調查》關於幸福城市排名的結論,是基於10萬份問卷(17個問題)的采樣,而清華行為與大數據實驗室做的幸福指數(繼挺兄、我、還有多位本群群友參與),是基於新浪微博數據的全集(托老王的福),這些數據是人們的自然表達(而不是面對問卷時的被動應對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,數據告訴你答案。《中國經濟生活大調查》說「再小的聲音我們都聽得見」,是過頭話,采樣和傳統的統計分析方法對數據分布採用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學,已經有一批數學家、物理學家成了經濟學家、寬客,現在他們也可以選擇成為社會學家。國泰君安3I指數也是一個例子,它通過幾十萬用戶的數據,主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大數據的真正差異化優勢在微觀。自然科學是先宏觀、具體,進入到微觀和抽象,這時大數據就很重要了。我們更關注社會科學,那是先微觀、具體,再宏觀、抽象,許小年索性認為宏觀經濟學是偽科學。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現在都生活在零售商的bucket中(前面說的樂購創造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如「精打細算」、「右鍵點擊一族」(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobody wants to be nobody today。
了解並掌握客戶比以往任何時候都更重要。奧巴馬贏在大數據上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·傑西卡·帕克(《慾望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什麼電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對於企業來說,要從以產品為中心,轉到以客戶(買單者)甚至用戶(使用者)為中心,從關注用戶背景到關注其行為、意圖和意向,從關注交易形成轉到關注每一個交互點/觸點,用戶是從什麼路徑發現我的產品的,決定之前又做了什麼,買了以後又有什麼反饋,是通過網頁、還是QQ、微博或是微信。
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟體有幾秒的延遲,而佔美國交易量60-70%的高頻程序化交易則要發現毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震後9分鍾發出海嘯預警,已經太晚。時間還是機會。現在所謂的購物籃分析用的其實並不是真正的購物籃,而是結帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。數據價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現在東莞一出事網路遷徙圖就反映出來了。當然,當下並不一定是完全准確的,其實如果沒有更多、更久的數據,匆忙對網路遷徙圖解讀是可能陷入誤區的。
第四個,皆明。時間有限,就簡單說了。就是從放馬後炮到料事如神(predictiveanalytics),從料事如神到運籌帷幄(prescriptiveanalytics),只知道有東風是預測分析,確定要借箭的目標、並給出處方利用草船來借,就是處方性分析。我們現在要提高響應度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數據過濾雜訊、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖數據結合就能做到精確,GPS在城市的高樓中沒有信號,可以與慣性導航結合。
曉意涉及到大數據下的機器智能,是個大問題,也不展開了。貼一段我的文章:有人說在涉及「曉意」的領域人是無法替代的。這在前大數據時代是事實。《點球成金(Moneyball)》講的是數量化分析和預測對棒球運動的貢獻,它在大數據背景下出現了傳播的誤區:一、它其實不是大數據,而是早已存在的數據思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經理比利·比恩用數量化分析取代了球探。而事實是,在運用數量化工具的同時,比恩也增加了球探的費用,軍功章里有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數結構化量化指標無法刻畫的。大數據改變了這一切。人的數字足跡的無意識記錄,以及機器學習(尤其是深度學習)曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基於大數據的情感分析、價值觀分析和個人刻畫,當這些應用於人力資源,已經或多或少體現了球探承擔的。
㈡ 大數據的歷史
李娜再度奪得大滿貫,超越了張德培的華人大滿貫紀錄,非舉國體制下的奇跡造就了舉國的愉悅。
在總結李娜成功因素的時候,也再次看到了這樣的言論:是大數據起到了重要的作用。但這次李娜奪冠,最靠譜的解釋就是李娜在卡洛斯的幫助下大大提升了心理層面的戰鬥力。
在技術層面領先的前提下,李娜在整場比賽中克服了節奏問題,她具備了一顆冠軍的心臟。2012年9月6日,代表亞洲網球至高水平的中國選手李娜在美國迎戰名將小威廉姆斯。
當時,IBM公司在綜合了美網過去8年的全部比賽數據之後,為參賽球員制定了「Keys to the march」的比賽制勝策略。李娜一方獲得贏球的關鍵包括3個指標:1.一發得分率超過69%;2.4-9拍相持中得分利率要超過48%:3.發球局30-30或40-40時得分率要超過67%。
比賽結果是,李娜潰敗。比賽結束後,IBM高調地宣布李娜僅僅完成了三項制勝策略中的項,而小威廉姆斯則完成了自己三項制勝策略中的兩項。
於是,很多人就順著IBM的思路問,李娜為什麼不照著BM的策略去打球?其實,當當事人的主觀願望不積極的時候,大數據對他們來說不過是噪音而已。同樣,數據也會因為主觀意願具有欺騙性。
我們很多時候都會被誤導,認為大數據的作用是讓歷史提示未來。其實不然。
在網球這樣的領域里,歷史數據甚至常常會成為陷阱。有意思的是,在另一場女子網球比賽中,一位球員做到了IBM為其制定的三項指標中的兩個,她卻失敗了。
而勝利的一方,只完成了一個指標。
可按照時間點劃分大數據的發展歷程。
大數據時代發展的具體歷程如下:2005年Hadoop項目誕生。 Hadoop其最初只是雅虎公司用來解決網頁搜索問題的一個項目,後來因其技術的高效性,被Apache Software Foundation公司引入並成為開源應用。
Hadoop本身不是一個產品,而是由多個軟體產品組成的一個生態系統,這些軟體產品共同實現全面功能和靈活的大數據分析。從技術上看,Hadoop由兩項關鍵服務構成:採用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務,以及利用一種叫做MapRece技術的高性能並行數據處理服務。
這兩項服務的共同目標是,提供一個使對結構化和復雜數據的快速、可靠分析變為現實的基礎。2008年末,「大數據」得到部分美國知名計算機科學研究人員的認可,業界組織計算社區聯盟 (puting munity Consortium),發表了一份有影響力的白皮書《大數據計算:在商務、科學和社會領域創建革命性突破》。
它使人們的思維不僅局限於數據處理的機器,並提出:大數據真正重要的是新用途和新見解,而非數據本身。此組織可以說是最早提出大數據概念的機構。
2009年印度 *** 建立了用於身份識別管理的生物識別資料庫,聯合國全球脈沖項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。同年,美國 *** 通過啟動://Data.gov網站的方式進一步開放了數據的大門,這個網站向公眾提供各種各樣的 *** 數據。
該網站的超過4.45萬量數據集被用於保證一些網站和智能手機應用程序來跟蹤從航班到產品召回再到特定區域內失業率的信息,這一行動激發了從肯亞到英國范圍內的 *** 們相繼推出類似舉措。2009年,歐洲一些領先的研究型圖書館和科技信息研究機構建立了夥伴關系致力於改善在互聯網上獲取科學數據的簡易性。
2010年2月,肯尼斯庫克爾在《經濟學人》上發表了長達14頁的大數據專題報告《數據,無所不在的數據》。庫克爾在報告中提到:「世界上有著無法想像的巨量數字信息,並以極快的速度增長。
從經濟界到科學界,從 *** 部門到藝術領域,很多方面都已經感受到了這種巨量信息的影響。科學家和計算機工程師已經為這個現象創造了一個新詞彙:「大數據」。
庫克爾也因此成為最早洞見大數據時代趨勢的數據科學家之一。2011年2月,IBM的沃森超級計算機每秒可掃描並分析4TB(約2億頁文字量)的數據量,並在美國著名智力競賽電視節目《危險邊緣》「Jeopardy」上擊敗兩名人類選手而奪冠。
後來 *** 認為這一刻為一個「大數據計算的勝利。」 相繼在同年5月,全球知名咨詢公司麥肯錫(McKinsey&pany)肯錫全球研究院(MGI)發布了一份報告——《大數據:創新、競爭和生產力的下一個新領域》,大數據開始備受關注,這也是專業機構第一次全方面的介紹和展望大數據。
報告指出,大數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。
報告還提到,「大數據」源於數據生產和收集的能力和速度的大幅提升——由於越來越多的人、設備和感測器通過數字網路連接起來,產生、傳送、分享和訪問數據的能力也得到徹底變革。2011年12 月,工信部發布的物聯網十二五規劃上,把信息處理技術作為4 項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。
2012年1月份,瑞士達沃斯召開的世界經濟論壇上,大數據是主題之一,會上發布的報告《大數據,大影響》(Big Data, Big Impact) 宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。2012年3月,美國奧巴馬 *** 在白宮網站發布了《大數據研究和發展倡議》,這一倡議標志著大數據已經成為重要的時代特徵。
2012年3月22日,奧巴馬 *** 宣布2億美元投資大數據領域,是大數據技術從商業行為上升到國家科技戰略的分水嶺,在次日的電話會議中, *** 對數據的定義「未來的新石油」,大數據技術領域的競爭,事關國家安全和未來。並表示,國家層面的競爭力將部分體現為一國擁有數據的規模、活性以及解釋、運用的能力;國家數字 *** 體現對數據的佔有和控制。
數字 *** 將是繼邊防、海防、空防之後,另一個大國博弈的空間。2012年4月,美國軟體公司Splunk於19日在納斯達克成功上市,成為第一家上市的大數據處理公司。
鑒於美國經濟持續低靡、股市持續震盪的大背景,Splunk首日的突出交易表現尤其令人們印象深刻,首日即暴漲了一倍多。Splunk是一家領先的提供大數據監測和分析服務的軟體提供商,成立於2003年。
Splunk成功上市促進了資本市場對大數據的關注,同時也促使IT廠商加快大數據布局。2012年7月,聯合國在紐約發布了一份關於大數據政務的白皮書,總結了各國 *** 如何利用大數據更好地服務和保護人民。
這份白皮書舉例說明在一個數據生態系統中,個人、公共部門和私人部門各自的角色、動機和需求:例如通過對價格關注和更好服務的渴望,個人提供數據和眾包信息,並對隱。
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。
它已經上過《 *** 》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。 數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《 *** 》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是 *** ,所有領域都將開始這種進程。」
。
大數據時代:最早提出大數據時代到來的是全球知名咨詢公司麥肯錫, 大數據在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
大數據提出的背景:進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《 *** 》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。正如《 *** 》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是 *** ,所有領域都將開始這種進程。」 (2)奧巴馬認為大數據擴展閱讀 大數據影響 現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。
大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。 在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。
有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。
這些數據的規模是如此龐大,以至於不能用G或T來衡量。大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量)。
發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬…… 截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB) EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。
而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。
而到了2020年,全世界所產生的數據規模將達到今天的44倍。 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。
然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。這樣的趨勢會持續下去。
我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。
大數據的精髓 大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制); B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可。
適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力; C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大。
大數據是一種現代雲基礎架構,它包含了多種與其他人連接和共享信息的方法。它推動了「物聯網」的發展,如通過社交網站連接人、通過共享朋友或網路來尋找人們之間互相認識的可能性。大數據的背後運行著人工智慧,而它對於大多數人而言是完全透明的,人們不知道背後有這樣的技術。大數據位於人們日常使用的智能手機之後,然後人們通過它給移動互聯網貢獻信息,即使他們並沒有意識到這一點。
為什麼大數據如此重要?
第一,對大數據的處理分析正成為新一代信息技術融合應用的結點。移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
第二,大數據是信息產業持續高速增長的新引擎。面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。
第三,大數據利用將成為提高核心競爭力的關鍵因素。各行各業的決策正在從「業務驅動」 轉變「數據驅動」。
總結
在大數據時代到來的時候,要用大數據的思維去發掘大數據的潛在價值。大數據的意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。從前我們所了解的數據是冷冰冰的、死氣沉沉的,被存到冷備份默默地等著人拿出來用,我們對待數據的感覺十分消極,要先想清楚其用處才開始分析應用。現在,數據時代來臨了,人們正在試圖點燃數據,使其變熱,賦予生命。所謂「活數據」,是動態的數據,流通的數據,因互動而產生,因產生而互動,是自然演化的數據,要用大數據的思維去考慮這些數據怎樣才能帶來效益。未來大數據的發展前景非常好,與大數據相關的職業比如數據挖掘師,數據分析師等必定會有廣闊的發展空間。
這個問題是這樣的:
首先你要明確你的插入是正常業務需求么?如果是,那麼只能接受這樣的數據插入量。
其次你說資料庫存不下了 那麼你可以讓你的資料庫上限變大 這個你可以在資料庫裡面設置的 裡面有個資料庫文件屬性 maxsize
最後有個方法可以使用,如果你的歷史數據不會對目前業務造成很大影響 可以考慮歸檔處理 定時將不用的數據移入歷史表 或者另外一個資料庫。
注意平時對資料庫的維護 定期整理索引碎片
㈢ 大數據發展的三個必要條件
大數據發展的三個必要條件_數據分析師考試
近年來,關於大數據的討論在技術、應用和模式等多個層面展開,已被認為代表著產業發展的方向。但與互聯網公司的諸多實踐相比,被認為具有數據資源先天優勢的電信運營商卻走在了後面,即便放眼全球,電信運營商的大數據應用案例也是屈指可數。移動寬頻和固網寬頻快速發展、OTT的強勢崛起決定了電信運營商必須充分利用自身掌握的數據資源,另闢蹊徑,從而實現網路價值的最大化。因此,電信運營商應用大數據是必然的,而且市場前景十分廣闊。
為了加快大數據的「落地」步伐,幫助業界各方特別是電信運營企業更好地了解大數據,認清大數據戰略發展的重要性,分析發展道路上面臨的難題和障礙,促進大數據產業鏈的成熟,推動大數據的應用推廣。從今天開始,《人民郵電》報特邀來自中興通訊、電信研究院以及三大運營商等單位的專家,推出「掘金大數據」系列報道,以饗讀者。
大數據概念的橫空出世,有賴於短短幾年出現的海量數據。據統計,互聯網上的數據每兩年翻一番,而目前世界上90%以上的數據都是最近幾年才產生的。當然,海量數據僅僅是「大數據」概念的一部分,只有具備4個「V」的特徵,也就是Volume(海量)、Velocity(高速)、Variety(多樣)、Value(價值),大數據的定義才算完整,而最後一個Value(價值),恰恰是決定大數據未來走向的關鍵。
大數據發展的三個必要條件
大數據的發展需要三方面的必要條件:數據源、數據交易、數據產生價值的過程。近年來,社交網路的興起、物聯網的發展和移動互聯網的普及,微信、微博、智能手機、電商大行其道,誕生了大量有價值的數據源,比如位置、生活信息等數據,數據源的出現奠定了大數據發展的基礎。大數據時代到來的重要標志,則是大批專業級「數據買賣商」的出現,以及圍繞數據交易形成的貫穿於收集、整理、分析、應用整個流程的產業鏈條。大數據發展的核心,則是使用戶從海量的非結構化數據和半結構化數據中獲得新的價值,數據價值是帶動數據交易的原動力。
IBM、甲骨文、SAP近年紛紛斥巨資收購數據管理和分析公司,在這些互聯網巨頭的帶動下,數據分析技術日漸成熟。2013年6月,愛德華·斯諾登將「棱鏡」計劃公之於眾,「棱鏡門」事件一方面說明大數據技術已經成熟,另一方面也佐證了現在阻礙大數據發展的不是技術,而是數據交易和數據價值。
大數據技術的發展促進了雲計算的落地,雲計算的部署完成又反過來加大了市場對數據創造價值的期待。大數據概念提出之後,市場終於看到了雲計算的獲利方向,雲計算市場彷彿在一夜之間爆發,在過去一兩年間幾乎已經被國內大方案商、大集成商瓜分殆盡——各地的一級系統集成商與當地政府合作,建雲數據中心,建智慧城市;各大行業的巨頭們在搭建各自行業的混合雲標准,搭建行業雲平台;公有雲也來了,各大IT巨頭想盡辦法申請中國的公有雲牌照。雲計算從概念到落地用了5年時間,最終促成這一切的就是大數據,或者說是市場對數據價值的期待。藉助於國內智慧城市概念的大規模普及,雲計算基礎設施已基本准備就緒,一方面具備了大數據應用的硬體基礎,另一方面迫於回收雲計算投資的壓力,市場急需應用部署,大數據恰如雪中送炭,被市場寄予厚望。
現在,一切的矛頭都指向了「數據如何創造價值?」
56數據創造價值的基石6是數據整合和開放
大數據服務創業公司Connotate對800多名商業和IT主管進行了調查。結果顯示,60%受調查者稱「目前就說這些大數據投資項目肯定能夠帶來良好回報尚為時過早」。之所以如此,是由於當前大數據缺乏必需的開放性:數據掌握在不同的部門和企業手中,而這些部門和企業並不願意分享數據。大數據通過研究數據的相關性來發現客觀規律,這依賴於數據的真實性和廣泛性,數據如何做到共享和開放,這是當前大數據發展的軟肋和需要解決的大問題。
2012年美國大選奧巴馬因數據整合而受益。在奧巴馬的競選團隊中有一個神秘的數據挖掘團隊,他們通過對海量數據進行挖掘幫助奧巴馬籌集到10億美元資金;他們通過數據挖掘使競選廣告投放效率提升了14%;他們通過製作搖擺州選民的詳細模型,每晚實施6.6萬次模擬選舉,推算奧巴馬在搖擺州的勝率,並以此來指導資源分配。這個數據挖掘團隊,對奧巴馬成功連任功不可沒。奧巴馬競選團隊相比羅姆尼競選團隊最有優勢的地方就是對大數據的整合。奧巴馬的數據挖掘團隊也意識到這個全世界共同的問題:數據分散在過多的資料庫中。因此,在前18個月,奧巴馬競選團隊就創建了一個單一的龐大數據系統,可以將來自民意調查者、捐資者、現場工作人員、消費者資料庫、社交媒體,以及「搖擺州」主要的民主黨投票人的信息整合在一起。這個整合後的巨大資料庫不僅能告訴競選團隊如何發現選民並獲得他們的注意,還幫助數據處理團隊預測哪些類型的人有可能被某種特定的事情所說服。正如競選總指揮吉姆·梅西納所說,在整個競選活中,沒有數據做支撐的假設很少存在。
2012年3月,美國奧巴馬政府宣布投資2億美元啟動「大數據研究和發展計劃」,將大數據研究上升為國家意志,對大數據的整合帶來深遠影響。一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分。國內智慧城市的建設目標之一就是實現數據的集中共享。
數據創造價值需要合作共贏的商業模式
隨著雲計算、大數據技術和相關商業環境的不斷成熟,越來越多的「軟體開發者」正在利用跨行業的大數據平台,打造創新價值的大數據應用,而且這一門檻正在不斷降低。因為首先,數據擁有者樂於做這樣的事情,他們能夠以微乎其微的成本獲取額外的收入,提高利潤水平;其次,大數據設備廠商樂於做這樣的事情,因為廠商需要應用來吸引消費者購買設備,發展合作共贏的夥伴關系勢必比單純銷售設備要有利可圖,一些具有遠見的廠商已經開始通過提供資金、技術支持、入股等方式來扶持這些「軟體開發者」;第三,行業細分市場的數據分析應用需求在不斷加大,對於整個大數據產業鏈來說,創新型的行業數據應用開發者必將是未來整個大數據產業鏈中最為活躍的部分。
在必然到來的大數據時代,有三種企業將在「大數據產業鏈」中處於重要地位:掌握海量有效數據的企業,有著強大數據分析能力的企業,以及創新的「軟體開發者」。社交網路、移動互聯網、信息化企業、電信運營商都是海量數據的製造者,Facebook公司手中掌握著8.5億用戶,淘寶注冊用戶超過3.7億,騰訊的微信用戶突破3億,這些龐大用戶群所提供的數據,正在等待時機釋放出巨大的商業能量。可以預測,在不久的將來,Facebook、騰訊、電信運營商等海量數據持有者要麼自我發展成為數據分析提供商,要麼與IBM、ZTE等企業密切對接成為上下游合作企業,大數據產業鏈將在某個爆發點到來之際,以令人驚訝的速度成長壯大。
警惕大數據的危害
大數據時代,傳統的隨機抽樣被「所有數據的匯攏」所取代,人們的思維決斷模式,已可直接根據「是什麼」來下結論,由於這樣的結論剔除了個人情緒、心理動機、抽樣精確性等因素的干擾,因此將更精確、更有預見性。不過,由於大數據過於依靠數據的匯集,一旦數據本身有問題,就很可能出現「災難性大數據」,即因為數據本身的問題,而導致錯誤的預測和決策。
大數據的理論是「在稻草堆里找一根針」,而如果「所有稻草看上去都挺像那根針」呢?過多但無法辨析真偽和價值的信息和過少的信息一樣,對於需要作出瞬間判斷、一旦判斷出錯就很可能造成嚴重後果的情況而言,同樣是一種危害。大數據理論是建立在「海量數據都是事實」的基礎上,而如果數據提供者造假呢?這在大數據時代變得更有害,因為,人們無法控制數據提供者和搜集者本人的偏見與過濾。擁有最完善資料庫、最先接受「大數據」理念的華爾街投行和歐美大評級機構,卻每每在重大問題上判斷出錯,這本身就揭示了「大數據」的局限性。
不僅如此,大數據時代造就了一個資料庫無所不在的世界,數據監管部門面臨前所未有的壓力和責任:如何避免數據泄露對國家利益、公眾利益、個人隱私造成傷害?如何避免信息不對等,對弱勢群體的利益構成傷害?在有效控制風險之前,也許還是讓大數據繼續待在「籠子」里更好一些。
大數據的經濟價值已經被人們所認可,大數據的技術也已經逐漸成熟,一旦完成數據的整合和監管,大數據爆發的時代即將到來。我們現在要做的,就是選好自己的方向,為迎接大數據的到來,提前做好准備。
以上是小編為大家分享的關於大數據發展的三個必要條件的相關內容,更多信息可以關注環球青藤分享更多干貨
㈣ 大數據時代發展歷程是什麼
可按照時間點劃分大數據的發展歷程。
㈤ 哪一年 奧巴馬 將大數據上升為國家意志
2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。
㈥ 美國總統奧巴馬宣布啟動"大數據研究和發展計劃是哪一年
2011年初,美國政府發布了《美國創新戰略:確保美國經濟增長與繁榮》報告。該報版告不僅對奧巴馬上任以權來美國政府採取的所有創新舉措進行了系統歸納,同時也對美國未來科技發展做出了戰略規劃和部署。這意味著美國已經將創新的重心轉移到促進經濟增長與繁榮,以創新「贏得未來」。
㈦ 人類進入數據化生存時代 大數據蘊含大價值
人類進入數據化生存時代 大數據蘊含大價值_數據分析師考試
移動互聯技術的普及,將每一個人都納入到互聯網之中,並隨之產生海量的數據。那麼,這些數據意味著什麼,對人類有何價值?這就是當前計算機領域最熱門的「大數據」研究。10月20日,中國計算機學會大數據專家委員會成立,在隨後的「大數據」論壇上,與會嘉賓認為,人類已經進入了一個「數據化生存」的時代,「大數據」中蘊含著巨大的價值,並且已經在日常生活中發揮著潛移默化的作用。
據經濟之聲《天下財經》報道,「數據」是什麼?數據就是資源,它像空氣和水、石油和煤炭一樣,就在你的周圍自然而然的存在著,你每一次點擊滑鼠,每一次刷卡消費,其實就已經參與到了數據的生成,可以說,每一個人既是數字的生產者,也是數據的消費者。英國帝國理工學院教授、海量數據分析專家郭毅可就是這種理念的堅定支持者。
郭毅可:以前數據不是人類的資源,現在數據是一種自然資源,和水、油、氣一樣,沒有數據不能生活,這就是數據。
其實,數據一直存在,但為什麼現在人們會如此重視它?美國羅格斯-新澤西州立大學商學院教授熊暉認為,這是因為當前的技術手段為「大數據」的收集和分析提供了保障。
熊暉:現在這個大數據,我們第一次有了這么精細的觀測手段,比如說,以前我們不可能知道每一個人的地理信息,現在我可以非常精細的知道你每時每刻在什麼地方出現,然後就可以產生非常精細化的數據,可以用來描述人、社會和整個環境的行為,這些東西我們了解的更深了,可以幫助我們減少社會的復雜度。
今年3月,美國奧巴馬政府宣布了「大數據研究和發展計劃」,並設立了2億美元的啟動資金,希望增強收集海量數據、分析萃取信息的能力,認為這事關美國的國家安全和未來競爭力,鼓勵大學培養下一代的「大數據科學家」。
如果拋開政府行為,「大數據」分析其實早已經在商業領域大顯身手。金蝶國際軟體集團首席科學家張良傑介紹,他們參與搭建的全國中小企業信息平台,上面匯集了4000萬家企業,通過對這些企業海量數據的挖掘和分析,能夠對經濟運行狀況做出准確的預警,有助於國家相關部門做出應對決策。此外,張良傑還舉例說,在微觀經濟領域,「大數據」的作用也越發凸顯。
張良傑:(美國一家公司)把天氣預報的信息和數據,利用跟天氣相關的大數據,在亞馬遜的雲平台上做處理,然後可以幫助農業的種植者能夠很好地保障他們的收益。另外一個領域就是在企業的管理上,大數據可以幫助他們做決策。
在金融領域,「大數據分析」早已經成為一種流派,在美國華爾街,對沖基金、股票分析、高頻數據交易等領域,數據分析師都是最搶手的人才;在中國,阿里巴巴旗下的金融業務,也開始利用電子商務數據來發放「信用貸款」,發展勢頭迅猛。
中科院虛擬經濟與數據科學研究中心副主任石勇,是人民銀行徵信系統的建立者之一,他介紹,「徵信系統」也是大數據的一種應用,是一個國家金融業務開展的基礎。
石勇:在座的每一個人在銀行做的任何事,包括在ATM上取錢,數據都在裡面,現在各個商業銀行都在用你們的信用評分(這個模型就是我們算出來的)來做貸款處理,這個重要性就不用講了,美國引發次貸危機的三大指標之一就是信用評分,我們連信用評分都沒有,怎麼把經濟工作搞好?
還有學者預測,誰擁有了數據以及對數據的發掘能力,誰就將佔領下一個十年全球經濟發展的制高點。但是目前,我國大數據應用剛剛起步,基於大數據的商業模式還在萌芽階段,從需求來看,很多產業對大數據的使用還沒有意識,而供給一方,由於技術和人才儲備上的落後,也缺乏深厚的數據分析手段來支撐需求。
此外,在制度層面,中國工程院院士、中國計算機學會大數據專家委員會主任李國傑提醒,當前我國大量的基礎數據掌握在政府部門手中,今後要想不輸在起跑線上,政府部門就要有更開放的姿態分享手中的數據。
李國傑:政府部門的數據共享一直是個軟肋,國外有數據公開法等法律的規定,政府采購的信息要共享等等,相對來說執行的比價好,而中國由於部門的色彩(比較重),這些大數據怎麼共享利用這是要解決的大問題,也呼籲政府要盡快實現數據的共享,實現數據的開發。
以上是小編為大家分享的關於人類進入數據化生存時代 大數據蘊含大價值的相關內容,更多信息可以關注環球青藤分享更多干貨
㈧ 大數據應用現狀 從發現價值到創造價值
大數據應用現狀:從發現價值到創造價值
從發現價值到創造價值, 大數據將成為「互聯網+」 產業升級的驅動力。 過去,數據的價值主要應用在決策領域,典型應用是商業智能(BI, Business Intelligence)在企業經營管理層面的應用, 即通過數據收集、管理和分析等方法,將數據轉化為知識, 發現數據的價值,進而提供決策支持。隨著數據體量的不斷增加和處理數據能力的提升, 大數據已經成為一類新的資產, 其應用場景正在不斷擴寬,除了決策支持、 提高效率等發現價值功能之外,大數據還能創造價值的功能: 一方面,大數據可以幫助提供傳統模式下所無法提供的產品, 滿足用戶需求, 例如大數據完善個人徵信體系,幫助金融機構提供消費金融產品;又如千方旗下的掌城科技通過浮動車模型提供實時交通信息服務;另一方面,大數據還可以創造需求, 例如,大數據可以助力實現人工智慧, 這是新技術創造的新需求。
大數據延伸 BI 內涵, 提高企業效率
大數據分析結果為企業經營決策提供支持,幫助企業提高效率,這實際上是傳統 BI 范疇的延伸。 在人口紅利逐漸消失的背景下, 我國企業傳統的粗放型模式受到了 越來越大的挑戰, 互聯網與產業結合背景下的大數據應用將有助於提升企業經營管理效率,助力企業經營從粗放型向集約型轉型, 實現產業升級。
大數據促進商業智能的加速發展,這是因為:第一,大數據的分析過程和結果更具有靈活性、可靠性和價值性;第二,大數據的存在提高了企業的商業智能意識, 引導企業主動尋求商業智能的幫助。一些大型企業往往擁有幾十個甚至數百個信息系統,其所包含的大量數據反映了企業的日常經營情況,若能加以分析和利用,將為企業創造巨大的價值。
目前,大數據應用可以幫助企業實現戶關系管理、盈利能力分析、控製成本、衡量績效等功能:
客戶關系管理(CRM):通過客戶信息統計,使企業有針對性的根據客戶需求來定製產品和服務,提高客戶忠誠度,還可以通過分析偏好挖掘潛在客戶;
贏利能力分析:幫助企業分析利潤來源、各類產品贏利能力、費用支出是否與銷售成正比等;
控製成本:根據統計信息優化流程,如降低庫存、減少損耗等,助於企業控製成本;
績效管理:利於商業智能確立對員工的期望,幫助他們跟蹤並管理其績效。
麥肯錫調查顯示, 數據挖掘的商業價值巨大, 大數據在美國醫療行業每年能提高 0.7%的生產力,創造約 3000 億美元的價值;在歐洲公共管理部門 ,每年能提高 0.5%的生產力,創造 2500 億歐元的價值;在美國零售業,每年能提高 0.5%-1.0%的生產力 和 60%的凈利率。
大數據滿足需求, 市場空間巨大
大數據可以幫助提供過去所無法提供的產品, 滿足用戶需求。 這種模式在傳統產業中比較常見, 過去,一些行業的用戶需求雖然存在, 但是由於缺乏有效的技術手段,導致市場參與者無法提供合適的產品迎合市場需求。大數據技術興起後,將帶動一系列創新產品推出市場, 這在各行各業都能找到案例,考慮到傳統產業的廣度,這將是是一個正在挖掘的巨大市場。
以交通領域的實時交通信息服務和車險定價為例,這兩個細分領域的需求本來就存在,但在大數據興起之前,傳統模式無法提供最優的產品,而大數據技術下的產品優化可以更好的滿足需求,提高用戶體驗。
千方科技旗下掌城科技通過大數據技術提供實時交通信息服務。 掌城科技通過向計程車公司和公交車公司購買數據、 向政府部門臵換數據、利用千方自有數據的形式匯集城際交通數據, 基於浮動車的演算法模型,對數據進行二次開發,以建立實時交通信息服務平台。 目前, 掌城科技運營著北京、上海等全國 30 余個大中城市的實時路況信息,准確率極高。 目前,千方已將交通數據收集從城際交通擴大至整個陸路交通和航空等領域,目標通過大數據技術提供更加全面的公眾智慧出行服務。
大數據技術將參與車險定價,使定價更加科學。隨著車聯網的興起,OBD(On-BoardDiagnostic車載診斷系統)等聯網的車載設備,成為車聯網中的智能節點,連接運動中的人、車和道路環境,讀取行車數據,從而分析出車輛能耗、故障等車況信息以及駕駛者的行車習慣:通過G-sensor監測車主的諸如急剎車、急加速和急轉彎等危險行為,通過破解Can-bus協議監測車主的諸如轉彎不打燈、駐車不拉手剎等不良駕駛習慣,通過GPS獲取車輛的位臵信息和里程數據,這些數據將改善車險定價技術與核保政策,提升精準定價能力。
大數據創造需求,拓寬市場邊界
大數據創新產品拓寬市場邊界, 供給創造需求。 大數據創造價值功能, 除了提供產品滿足市場已經存在的需求外, 基於大數據的新產品還將創造新供給,帶動新需求, 打破原有的市場邊界,想像空間巨大:
一方面大數據能夠前所未有的精準洞悉現在,深入挖掘現有商業價值:
例如 Airbnb 擁有海量的獨有數據,包括旅遊地、用戶評論、房源描述、社區信息等, Airbnb還有一支隊伍去各地和當地人交流,搜集所有的相關歷史數據。當用戶在搜尋一個住宿的地方時, Airbnb 利用大數據分析通過 Airbnb 社區告訴未來的客人哪裡是更好的住宿地,甚至能夠幫助用戶更深入地了解某個地點,包括地理信息無法描述的文化或宗教上的區分。 Uber 則是利用地理位臵和其用戶的綜合數據,大大縮短司機開著空車去接下一位乘客的時間和乘客等待的時間。
另一方面大數據能夠空前准確的預測未來,從而能獲得前瞻性的商業價值:
例如社交數據分析公司 Topsy 准確預測了 iPhone 4S 上市後的市場表現,同時還成功預測美國大選結果和奧斯卡頒獎結果。它在商業分析、市場銷售、新聞等領域擁有很高價值,因而蘋果以 2 億多美元的價格收購 Topsy。
大數據產業鏈分析
大數據產業鏈的主要參與方
大數據產業鏈可以分為四個部分: 數據採集和整合、數據存儲和運算、數據分析和挖掘、數據應和消費。數據採集和整合是指通過技術手段從互聯網、 移動終端、 物聯網、 應用軟體等採集數據,然後把數據按照一定的規則進行存儲和運算,再按照需求調用數據並進行智能分析和挖掘,將數據轉化成價值信息或者產品,為決策支持、提升效率、 創新產品提供依據。
數據資產開始成為核心資源
擁有數據,大數據時代的王者。在大數據時代, 數據資產已經成為核心資源, 2012 年,奧巴馬政府明確提出 將「大數據戰略」上升為國家意志,並將數據定義為「未來的新石油」, 因此,擁有數據可謂是大數據時代的王者。 擁有數據的機構可以分為三類:
一是既有數據、 又有大數據思維的互聯網公司,如阿里巴巴、騰訊、京東、 Google、 Amazon等,在互聯網端積累了大量的數據資源,而且此類公司 IT 起家, 對大數據有天生敏銳的嗅覺, 大數據技術也相對成熟, 因此,互聯網公司 可謂是最早使用大數據的機構,成為大數據應用的先行者;
二是傳統軟體公司轉型互聯網,通過 SaaS 模式為用戶提供服務, 例如用友軟體推出暢捷通,以雲模式為小微企業提供財務管理應用, 也可以認為是既有數據、 又有大數據思維的模式;
三是擁有數據,缺乏大數據思維的機構,這類機構手裡掌握著大量的數據,但是沒有能力自己有效利用, 例如金融機構、 運營商、政府部門等。
使用數據,數據變現的推動者。對於手裡掌握大量數據,但沒有能力變現的機構而言,需要專業的第三方公司提供大數據服務,主要是各類 IT 咨詢機構和行業應用軟體廠商,尤其是行業應用軟體廠商, 在各自的領域具有天然的卡位優勢: 軟體公司提供了行業應用軟體和相關的運營維護, 行業應用軟體本身就是重要的數據來源,軟體公司 屬於不擁有數據,但可以接觸到數據的機構, 且天然擁有大數據思維和大數據技術,以及良好的行業客戶關系,從信息系統建設延伸到大數據運營順理成章。因此,各個細分行業的應用軟體提供商有望成為傳統擁有數據機構的重要合作夥伴, 助力其探索大數據價值變現。
大數據技術是重要生產力
大數據應用好壞的關鍵除了 數據本身,還在於大數據技術, 大數據技術包括數據採集、數據存取、基礎架構、數據處理、統計分析、數據挖掘、模型預測、結果呈現等環節,涉及的技術環節極廣, 隨著數據體量增大和數據復雜性程度提高,大數據技術本身也處於快速迭代的發展過程中。值得一提的是,大數據技術落地的一大重要因素在於如何實現技術與業務的融合, 這背後需要深厚的業務理解, 對於既有數據、 又有大數據思維的互聯網公司 來說,技術和業務本身是相互驅動、共同發展的, 對於擁有數據,缺乏大數據思維的機構而言, 在行業深耕多難的應用軟體提供商則是最好的選擇。
以上是小編為大家分享的關於 大數據應用現狀 從發現價值到創造價值的相關內容,更多信息可以關注環球青藤分享更多干貨
㈨ 大數據時代,人類生活面臨顛覆
大數據時代,人類生活面臨顛覆
對於IT領域來說,最近有很多非常新的概念,比如雲計算、物聯網,當大家剛剛對這些概念開始有清晰的認知時,又一個全新概念出現了——大數據。什麼是大數據?大數據概念究竟指向何方,大數據背後能怎樣改變我們生活?會不會給我們的生活和工作帶來困擾?
本報與第一財經頭腦風暴節目合作探討大數據時代下的問題。參與這次討論的嘉賓有大數據概念的提出者、牛津大學教授維克托·邁爾·舍恩伯格,微軟亞太研發集團、雲計算操作系統首席架構師徐明強,上海市信息化專家、專業委員會專家、復旦大學計算機學院院長王曉陽,科爾尼管理咨詢全球合夥人孫健,復旦大學現代哲學研究所所長俞吾金,啟明創投合夥人童士豪,著名財經評論員石述思。
1 到底什麼是大數據?
維克托:我認為它就是新黃金,我覺得是21世紀最主要的資源,這種資源對社會、企業、個人是否能成功,還是會受苦受難有著很重要的作用。解釋一下,雖然此前我們都有數據,可把它們整理在一起然後分析是非常昂貴的,因此我們更多的注意力都放在了實體資源上,就是真正的黃金、金塊,像勞動力這種資源。但只有最近我們才靠人的知識、創新來創造財富,更靠前一步,我們可以根據數據來進行,因為數據收集以及分析,成本上升的程度都已經改變了,然後我們的數據就可以達到一定規模。最後,大家所尋求的不管你是一個人、一個公司、一個組織,還是這個社會,無外乎就是這種所謂的新黃金。
為什麼最近黃金的價值會跌得很厲害?因為老黃金不值錢了,沒有新黃金有價值。
童士豪:我的觀點有點類似,第一個是雲,第二個是關系,第三個是未來。像剛才維克托先生提到的,因為雲時代到了,儲存的大量數據的成本非常低,所以能讓大家去利用大數據做工作分析,最近由於很多事情的關系,有更多的關系被理解,所以能去預測未來狀況。用自己的話說,就是在聆聽上花很多時間,看了很多朋友,大家尋找工作機會也好或者是認識對工作有幫助的合作夥伴也好,在這么大的信息里,這么多人把他自己的信息放在上面,就是做了一件事,就是分析。如果你40歲想當創意公司的CEO,你現在20歲,未來20年該怎麼規劃?這就是非常有意思的一件事。
最後可能有不同的可能性,最後會不會給你找到一個最好的方法,那是自己決定的。可能性放在面前,是機會率最高的,怎麼選還是個人決定,所以大數據並沒有抹殺個人的意識。
石述思:大數據首先改變的是我們看待世界的方法,它會對這個時代的很多的價值觀產生劇烈沖擊。舉例來說,因為過去我們東方人特別喜歡一個詞叫因果,我們認為善有善報、惡有惡報,其實根據交管部門調查的數據,在街頭遭遇橫禍的人其實跟道德無關,秦檜的壽命是岳飛的兩倍半,很多貪官在發現之前,那過的確實是令人無限羨慕的生活。因此,通過大數據我們能用一種全新的觀念來看待這個世界,這個世界是有關聯來建構的一個新型的關系,只有科技發展到一定水平,才能達到這樣的高度。
與此同時,在大數據時代,我們該恪守的底線還是要恪守,但它的確在告訴我們真相,因為科學就是在告訴我們真相。我有一個願望,就是剛才講的大數據是新的黃金,我希望它更多地用於社會公益事業,比如,去挽救地震局。這樣能避免很多人道主義的災難和財產的損失,結論是我們過去認為上帝是哲學家或者叫哲人,現在發現他老人家是個老頑童。
2 大數據究竟有沒有對各領域的工作和生活產生影響?
王曉陽:大數據影響了智慧。怎麼理解呢?大數據本身的概念是數據採集和處理,到了一定的程度使我們的社會也好,管理者也好,都能獲益——從城市來講,一個管理者可以聚集這些數據和處理方式,使得我們能用智慧來管理城市,可以從交通管理、公共衛生,還有其他各個方面來管理,這管理是需要數據,數據產生了智慧,然後反過頭來能管理我們的模式。
比如,在公共衛生方面,採集數據到了目前為止其實已經進行了好多年,它的數據採集原來並不是為了大數據來做的,其實是為了一個方便——方便大家去看病。而且你的電子病例等,讓你看病更人性化,或者對醫生來講能更快、更方便地去熟悉病情,但在這種情況下,這個數據一旦採集起來使得我們對整個城市的健康狀況就能進一步了解,所以,剛才講的看病的數據其實是原本的用意,大數據一來其實我們就能看見原來看不見的問題。比如一些比較大趨勢方面的問題,流行病在哪個地方比較多,或者它怎樣流傳的,等等。這些事情我們原來是看不到的,這種情況就是大數據對我們的幫助。
徐明強:先舉個例子,有一個球和一隻螞蟻,球跟螞蟻說,做三維世界的事物太好了,你看這條線上有多少個螞蟻我一眼就看見了,螞蟻說我真的不信,我得按照這條線爬,爬到頭計數器沒有出故障我才知道有多少螞蟻。這能看到三維和二維差了一維,就差了這么大,所以大數據首先它不是數據大,不是同樣的數據多了就變成大數據,而是在原有的二維、原有的資料庫基礎上,再建立一維,給它一個全新的看點。舉例說明,你如果在美國,你是欠了債的,除了債主對你感興趣,還有人會對你感興趣——如果你欠了債,突然你可以還債了,那麼銀行會對你感興趣。在11年前,美國資本一號就發明了一種大數據的應用,它可以找到哪些人是欠了銀行的錢、欠了信用卡的錢,然後它就會觀察你的消費數據,當它發現你可以開始還的時候,他立刻把你再買過來,從此以後他就吃上了你的利息。資本一號這個公司在2001年時,每個季度的增長率是20%,就是因為它大數據的程序,它可以高命中率地發現這個,它是從哪裡找來的數據呢?從沃爾瑪、從各種各樣的消費數據中找到的。從這個實例我們可以看出,大數據這個原有的數據分析商務智能上加了一層,商務智能不能告訴我們別人將要並且能做什麼。
關於我們公司對奧斯卡頒獎的預測,除了對李安的預測沒對,其他都對了。其實,我們的預測是把所有人員都做了一個概率,所以做了19個預測對的,是我們放在第一概率的獲獎人,下面還有4個是第二概率,所以李安導演我們放在第二概率,我們把他放在後面。
這個預測跟大數據很有關系,首先做大數據需要有IQ,智商,就是說,這個模型要非常好。我們公司做IQ的人叫加戴維·羅斯查爾德,是我們研究部門的一個人。還有其他人,我要講講,他這個人的IQ有什麼差別?他這個人的IQ用了一個非常簡單聚合的模式,除了IQ還有什麼呢?智商以後還要有勤商,勤奮的勤。勤商就是說,他非常勤奮地去找數據,要找多種數據,還要找非常實際的數據,所以他在網上、社交網上都有找。有一些找不到的數據,怎麼辦?他找人做調查,然後找人來做,所以他又有智商,又有勤商,夠不夠呢?還不夠,五年前這種事情做不到,為什麼?五年前他要做這樣大量的數據的話,自己作為一個研究生的小預算是做不到的,但雲計算的出現,他就可以做到了。可以延伸這些數據,用很多處理器來處理,現在他就是用了雲做這樣一個計算,最後成功了。
孫健:我寫的是機會加危險,就是危機。我同意維克托的結論,說這是一個新的金礦,或者有說法叫新的機會,但不要忘記那同時會帶來很多危險。如果我們不能很好地去處理大數據的話,特別是像在我們日常工作中接觸到的很多中國企業,它們大多數甚至在最基礎的數據分析方面還比較落後,這就意味著,我們該怎樣很快地過渡到大數據時代去,去面對大數據挑戰,如果准備不好,那我很擔心,這會像以往很多新技術來了以後的情況,很容易造成很多企業邯鄲學步——連走路都還沒學會,就要學跳,一下子邁到大數據時代,企業不知道怎樣真正地讓大數據發揮作用。
在我們的行業里,因為大數據而做了很多產品創新。談到大數據時代的破壞型創新,實際上也是談了同樣的問題,因為在創新的同時,事實上要推導、顛覆原來的很多東西,包括我們咨詢行業的很多服務和產品都要做更新,也要跟上時代。比如,我們有一家很大的全球性零售企業,它每天要處理海量數據,那麼在海量數據之前,雖然有了技術手段,它仍需找到一個很好的切入點,去解決大數據該怎樣應用到業務中,改變業務模式,給業務創新帶來價值。因為要把這個大數據加以更好地利用,再便宜還是投資,還是要改變,硬體、軟體各方面要做配置,甚至對應的組織要做調整,一個企業要做進一步調整才能適應大數據時代的需求,才能讓大數據發揮作用。所以我們做的工作就是幫助企業找到它的價值創造,建立業務模式,來證明在這方面做這樣的投資,讓大數據發揮作用是值得的。
俞吾金:我想提出不同看法,就是因為人類的思維有一個特點,他把覺悟的東西誇大為全球的。比如你看到三隻天鵝是白的,但其實有一千隻天鵝都是白的,可在澳大利亞發現了一隻黑天鵝,就把一切天鵝都是白的這個原理給推翻了,我覺得大數據這個問題是重要的,但如何正確看待它,不能走極端。大數據反映了人們從數量關系去理解生活的一種思維方法,從古代開始就非常重視,當然古代沒有使用大數據這個概念。
數字本身對生活的重要性越來越大。從哲學上看,它有實踐性,比如數學中的π,圓周率,它等於3.1415926……它就把所有大數據都囊括進去了,更容易理解的是三分之一,三分之一的另一種寫法就是0.333333無限被延伸,所以黑客在邏輯學里就強調,這個無限包容在三分之一這個有限中,有限中包含著無限的一個展開,包含所有數據的展開,這就體現了實踐精神。從這個實踐角度看這個數據,我認為大數據在當代的變動中有重要地位,但看它要有眼光,不要誇大也不要縮小。
3 怎麼理解三分之一就把一生所有數據都概括了?
維克托:我不同意俞老師的觀點。數字的歷史很悠久,但是,以前我們對這些數字的處理方式非常有限,光有技術是不夠的,能對數據進行分析,比如像數字,它對你只是一個數字,這個意義不重要,你也可以用一個漢字或一個字母來表示,那從這個角度來看,大數據不過是一個很長很長的數字,你可以用心記住就可以。
但其實,大數據的價值在於,在整個數據的收集過程中,需要運用分析才可以了解。比如,如何進行預防性的維修,如何能夠防止爆發等,我們不是把這個數字簡單地記下來或背下來,而是要通過分析,通過數據統計的分析,通過把它進行整理了解之後分析,這不是你背下來一個數字就可以了,這是非常大的區別。
4 大數據時代究竟會給生活帶來什麼樣的顛覆?
維克托:首先從商業來講,我覺得有三個元素要記住:一個是在商業世界中決策將發生變化,會越來越清楚地證明,要靠數據說話。
在美國,最大的互聯網公司大概是谷歌,每天都有30億搜索請求。有一天他們屏幕上准備用藍色,然後他們就選了一個特別的藍色,但他是要測試41種不同的藍色,來看到底哪一種最受歡迎。他本來想自己來決定:我是首席設計師啊,我就選了一種藍色。但他的老闆說:不行,我需要實證來告訴我們哪一種藍色最受歡迎。但這個谷歌的首席設計師就辭職了,他說我是首席設計師啊,我是最清楚的。通過很多測試發現,有一種藍色的藍是裸眼看到和設計師選的藍色不太區別得開,但另一種通過測試所產生的藍色,更受歡迎,有更多點擊量。通過實證做出來的決策更有效。類似例子有很多,都說我做這行已經幾十年了,我說的肯定沒錯。這種傳統的社會觀念和思維方式會受到挑戰,我們的決策必須要靠數據說話,這是第一點。
第二,就是在我們出去說話時,我們要注意不能誤讀數據,錯誤的數據是不行的。也就是如果原來的材料不對,原料是垃圾,出來的東西肯定也是垃圾,這個公司出這些數據的話都是比較容易理解的,但可能不是你應該熟悉的數據。
第三個是挑戰。就是普通產業,尤其是計算機產業,數據會超越它們,這個可能是有一種挑戰式的說法。如果沒有足夠的數據,你也趕不上一個大量數據的比較平庸的模型,也就是為什麼說數據會超越那些產業。比如機器翻譯這件事,在六七十年代,IBM花了很多錢想用機器翻譯,它要弄一些語言的規則輸入到機器中,但效果不太好,它就有了一個新想法,它不是把一種語言的語法規則輸入機器,而是把加拿大議會中的英法雙語的互譯輸進去,把成千上萬的翻譯資料輸入進去,它就有了大量的累計組織上的資料庫,這個效果就好得多。而谷歌又在這個領域有更多數據,一下子這個翻譯就更成熟、效果更好。可以說,是這個數據使它超越了這個軟體。因為今天這個大數據的力量,可以很容易地獲得想要的資訊,但大概在十年前,需要五十萬個伺服器,大量的儲存以及處理數據的模式,你才能開始一個新業務。今天如果要輸入業務,用雲計算來測試就可以了。比如有一個叫蒂塞德的公司,它有很多產品及價格,它收購一些數據來預測到底一個產品是上架還是下架,雖然他們擁有大量客戶,可這個公司的員工只有13個人,因此它的伺服器有很多,他們擁有大量的數據。可見,這個舞台不僅可以讓大公司來做,而且創新的小公司也能以平等的地位來競爭。
王曉陽:其實講到改變了我們整個思維方式,所謂的就是實驗這個思維,比理論思維更重要,這一點我不是太懂。其實維克托先生剛才舉的例子,是在很多情況下,是我們用數據去驗證以前想要能夠有的東西,有一些智慧確實是在數字里挖掘出來的,這個可能是一個語言來自不同的地方,怎麼講呢?基於在大數據的情況下,其實有一個所謂的循環概念,等於說你有了智慧以後去驗證,驗證數據里又產生了各種各樣的智慧來做這樣的理解,所以從這個角度來講,我覺得是大數據的情況下面,沒有顛覆,而是說一個改進,對我們認知世界的改進。就公共衛生這個話題來說,我們舉的最多的一個例子就是在谷歌,有一個所謂的趨勢預測,它就是用了網民們搜索的詞來預測。
所謂的預測流感,怎麼做?很簡單,就是它去分析了以往的數據,說在流感發生的地域,地域的那個時間大家是用什麼詞去搜索,這樣就可以做統計。做了統計以後,反過頭來用這些搜索詞來預測這個流感,這種情況下是什麼意思?並不見得是說這種數據或大數據的情況就能使我們對這個流感突然有一個新的認識,其實不然,其實是谷歌的那些工程師們有一個想法,認為我們好像流行流感,這和大家有關,而每個人都會用搜索來獲取一些跟流感有關的信息,就有了這樣的關聯。這個關聯怎麼去發現?這就要用數據去發現,用所謂的大數據的做法,去實現我們已有的一些概念的東西,把它實現了之後,就能做預測。所以從這樣的角度講,並不見得是有了大數據,我們就可以把所有的智慧都丟掉,我們不用IQ了,只要數據就好了,這肯定是不行的。一定是IQ加上數據,然後能讓它有個正反的概念,這是大數據所應該乾的事情。
童士豪:我有不同想法,我覺得剛才維克托先生講的一點很有意思,就是對智慧的要求,大數據時代是不一樣的。在大數據時代,對智慧的要求可以低一點,都能產生更好的結果,這是一個有意思的事情。他剛才提了一個例子,之前要做翻譯是很難的,你的規則必須特別強、精簡、完整,才能有60%、70%的准確率。但在大數據時代,我們不用想那些,不用花智慧講那麼復雜的規則和套路,乾脆把幾億個已翻譯好的文章交給電腦,用統計學的方式找到哪種情況下,翻譯的字的另外一個意思是比較對的。這對於智慧的要求其實是降低了,但效果可能會更好。
孫健:可能我們對智慧的理解有歧義。我覺得維克托先生講的我理解,因為他有另一本書叫《Delete》,裡面專門講了這個三重智慧,談了取捨問題。因為隨著存儲技術、網際網路的發展,他講的更多的是知識,知識的要求可以低,但對智慧,我覺得理解不一樣。我理解的智慧是,你判斷一個事物的根本的、真正的洞察能力。就是,你對一個事物的洞察能力還是需要有,不會因為大數據的存在而削弱或不需要了,而恰恰因為大數據的存在才更需要洞察力。
5 大數據時代到底真正來臨了嗎?
王曉陽:大數據時代來不來臨要看你怎麼度量、衡量。現在這個數據的量和種類,以及採集的方式、手段,處理的手段,絕對已經達到了「前無古人,後無來者」的感覺。這個情況下,我們從這個數據採集以及數據處理這個能力方面來講,我們的大數據時代來臨了,但我們使用數據利用數據這個才是剛剛開始,只是剛起步。
而大數據改變我們生活的時代,還沒有完全到來,但為這個我們已經做了很多准備,這是城市的管理問題。我們為大數據時代做了很多准備,比如在數據採集方面已經做了很多准備,怎麼樣利用這個數據來做我們這個智慧城市,這是一個最大的問題。
徐明強:從商業角度來看,我從運用上說,個人認為是來臨了。舉個例子,墨客這樣一個葯材公司,他可以根據天氣性質,比如如果今天冬天特別冷,很多過敏性動物就會冬眠,四五月份突然轉熱時,花粉也開始多了,今年有很多人會過敏,等等,它就通過市場進行營銷,把比如克敏能這種葯材發布出去。
維克托·邁爾·舍恩伯格:美國總統奧巴馬曾說,盡管政府也嘗試,但他總是落後於企業,落後於社會的其他一些群體。所以說搞這種活動能充分激發數據,提供給大眾,而且公司也可以拿這些數據,讓公司能利用這些數據有更多創新。這是一個想法,也許有一些做法,比如商業方法,我認為能通過發揮企業的智慧,發揮像微軟這樣的一些聰明企業的智慧,還是有幫助的,包括和政府的合作來管好社會。
石述思:我有一個感受,當商業巨頭面對屌絲談大數據時,我們都有一種不寒而慄的感覺,因為盡管大數據時代我們每個人都是公平的,我們可以說小公司可以獲得公平競爭待遇,但其實掌握大數據的都是一些巨頭,他們有得天獨厚的優勢來搶我們錢包里的錢,我們很難,因為公司的定義就是在法律允許的范疇中唯利是圖。但我們倒是渴望政府部門能利用大數據為我們提供普惠性的服務,可就像一些智慧城市沒法真正做到智慧管理的案例一樣,所以我對大數據來到中國的前途深表憂慮。還有,即使優秀的公司利用大數據,它也要面對一個現實,比如我們像電視台做廣告的一樣,為什麼現在人依然很多,因為中國貧富差距特別大,如果你掌握了所有消費者的數據,而大多數在今天是無效數據,所以你還是有一個有選擇的大數據的過程,叫有購買力的大數據,所以各種各樣的問題就會出現在我們面前,就是社會本來是我們需要,但它存在很多幕後看不清楚的東西。我們擔心被商業巨頭利用,來完成對消費者進一步的盤剝。
孫健:我覺得從企業角度來看也是同樣的問題。我前面想表達的意思就是,第一我們今天中國很多企業實際上並沒有準備好迎接這個大數據,因為我們現在還停留在比較初級的基礎數據分析時代,我們很多的基礎數據今天都沒有被運用,不要說大數據,就是小數據今天也沒有很好的利用。還有很多假的數據,是因為對這些數據的輸入管理非常不成熟,我自己在工作中接觸很多企業,企業今天做的幾件事大家都在做,有ERP系統,有資料庫,有了數據就往裡面存,但我發覺,有很多中國企業兌現的數據管理沒有規范化的感覺,更沒有很好的利用。這就存在這樣的擔心:最後大數據時代來了以後,我們本來中國企業在這個數據分析的利用上就不擅長,今天有了大數據以後差距會變得更大,以後國際巨頭有一個成熟的數據分析方法,很多健全的商業模式,它會把這個差距變得越來越大。
6 在大數據時代,下一個預言會是什麼,下一個判斷會是什麼?
維克托:接下來怎麼能讓生活比現在更高效,就是要讓城市變得更加智能,這是可行的,為什麼?我強調的是,我們有可能改善我們的公共衛生,改善教育,我們有能力收集數據,公共交通的通化能真正滿足市民的需求,而不只是政客,而且能源消耗也會得到更好的檢測、預測和管理,這樣我們的城市就會更加智能,讓城市的生活更加好。在150年前,曾有預測如果是在城市生活,壽命會更短;在農村生活則壽命長。而150年之後的今天,壽命更加長了,有了大數據我們會更加美好,可是有一個條件,就是那些決策者,他們一定要使用這些數字才可以。
下一步是專家怎麼來做。其實這涉及到在數據時代,數據點是有限的,那麼我們收集的數據,只要我們收集足夠的數據來解決問題就可以了。因為非常復雜、數據點非常少,所以我們的數據點收集起來必須是要高質量的,現在不是這樣的,現在的是更加的多、更加的亂。解釋一下什麼叫更多更亂,更多就是有數據點,關於我們想要研究的一個現象,我們可以更多的進行數據統計,比如在美國,你有DNA基因圖譜,那麼只要2000美金就可以知道你的整個基因圖譜當中的30億這個東西是怎麼組成的,這樣你就可以知道那些30億個精對,現在如果說有一個基因組成可能會導致什麼樣的癌症,就可以查基因圖譜,說我是不容易生這個病的,這是為什麼可以預測是否患癌症的原因。那麼有更多的數據便會存在一定的不準確性,所以,我說更多且更亂,所以這里允許一點點的不準確,或者可以亂一點,這個所謂的亂就是指,不是說每一個數據點都要達到最高的准確度,這個結果就是,不是百分之一百完美,但在大數據這樣一種方向,或者說,我們在正確的數據點上要知道一個方向。知道方向比晚一點知道完美的數據更有效。比如交通預測,也許當下看到的交通預測比實際運用中要晚了20分鍾,可能看起來太晚了,但如果這是預測一個星期的信息,就夠了。
王曉陽:大數據時代對我們這個城市更加理解,所謂的理解就是你知道這個城市裡發生了什麼,這非常重要。在以前,這個城市的管理都是一拍腦袋,有的時候拍腦袋拍出很好的來,拍腦袋也能拍出非常棒的一個城市來,但是有的時候呢?拍腦袋可能太離譜,這種情況下在大數據時代我們怎麼樣利用好,就是我們所講的。而為了政績也可以用大數據來考慮,說這個數字到底對它的政績有沒有好處?就是名義是一個很大的方面,大數據方面不光是理解我們這個城市發生了什麼,而且還能了解我們城市裡的民眾在想什麼?這點對城市管理來說非常重要,城市不光是一個硬體設施,不光是地鐵和高樓,人在裡面非常重要。
以上是小編為大家分享的關於大數據時代,人類生活面臨顛覆的相關內容,更多信息可以關注環球青藤分享更多干貨