㈠ 理解大數據時代的數字鴻溝
理解大數據時代的數字鴻溝
大數據是近幾年來炙手可熱的話題,大數據的優勢以及大數據所帶來的新思潮形成研究熱潮。從隨機抽樣到全體樣本,從要求精確到應對混雜,從追求因果到發現關聯,大數據時代改變著我們的信息環境與信息處理思維模式。但是,並非所有的人都能同時走入大數據時代,如同媒介技術的每一次創新與擴散一樣,敏感的企業和組織是大數據的先行者和實踐者,也是最早的大數據受益者;而普通的個體則在面對大數據時呈現差異,有的在時間上跟進遲緩,有的在數據分析能力上存在欠缺,有的不知道如何尋找開放數據,有的在數據噪音前不知所措。傳統互聯網時代的數字鴻溝尚未完全填平,而在大數據時代新的數字鴻溝又在形成並不斷影響與改變著人們的政治經濟地位。
討論大數據時代的數字鴻溝,需要明確區分「數字差異」與「數字鴻溝」.從詞源上看,兩者意義接近,都是由「Digital Divide」翻譯而來。但從傳播效果或情感色彩上看,數字鴻溝比數字差異更能引起人們的警示。在大數據時代,人們創造數據並被數據所包圍,囿於人的視野及精力,人們在面向數據並做出選擇時必然會出現差異。比如,互聯網提供的個性化的搜索引擎,個性化藏夾等都會導致信息瀏覽的個人化,大數據時代的數字差異不可避免。數字鴻溝比數字差異更能引起人們的警惕,數字鴻溝更強調在認識和機會上的差異。數字差異是知道有機會而不為,數字鴻溝則是想為而沒有能力或機會。同在大數據背景之下,數字鴻溝可能會在擁有數據、分析數據和數據思維三個層面存在數字鴻溝。
三個不同的分析維度
(一)擁有數據的數字鴻溝
大數據時代,「全新」「、革命」「、顛覆性」等術語頻繁出現,但「大數據」這一標簽下所指涉的問題卻由來已久。伴隨著互聯網的勃興,數據的指數增長、信息超載和數據處理問題等一直是人們不得不面對的問題。在大數據時代,數據的掘取、存儲、處理與應用方面的技術有了快速的發展,但是在誰擁有數據這個造成數字鴻溝最基本的問題上,當下關於大數據的討論並未給出讓人滿意的答案。
1.數據開放
對於企業和政府來講,大數據是一筆寶貴的財富,「對大數據的掌握可以轉化為經濟價值的來源」也可以從更為准確的角度了解社會,並進行管理。因此,企業和政府需要從普通公眾那裡搜集數據,數據的傳播是一種自下而上的過程,最先擁有和掌控大數據的也是來自企業和政府的「數字先鋒」.但是,消弭數字鴻溝恰恰需要另一種形式的數據流動,即開放數據---讓數據從企業和政府所有而變成被公眾所共享,這是一個自上而下的過程。在現實生活中,這種自上而下的信息流動處處面臨著阻力:一方面企業把數據當做核心競爭力或者核心機密,並且花費了大量的人力、物力、財力去做數據分析,因此很難實現數據的共享;另一方面政府的數據公開步伐還比較緩慢,公眾獲得有價值的信息依然有難度。
數據開放所形成的數字差異需要開放數據來解決。哪些數據能夠開放,以何種形式向公眾開放,具體的實施者是誰,誰又能為數據開放過程中的「搭便車」行為買單都是需要思考的問題。大數據既可以產生商業價值,同時又兼具公共性的特質,在此過程中,和公眾利益密切相關的數據需要開放,我國早在 2007 年 1 月 17 日就通過了《中華人民共和國信息公開條例》,明確規定原則、范圍、方式、程序和監督保障制度。在大數據時代,政府開放數據的力度應該進一步加大,同時對公眾進行獲取數據的素養教育,實現數據的民有和民享。作為一種公共資源,數據分配的公平性和財富分配的公平性一樣,都會對社會結構產生非常大的影響,政府和企業可以依靠數據存儲與分析技術的發展做「數據銀行」業務,讓每個公民都有機會在「數據銀行」存儲和提取自己想要的數據。國內學者塗子沛在《大數據》一書中,把開放數據放在數據民主的角度去思考,指出開放數據運動會推動「開放政治、開放政府、開放媒體、開放城市等等一系列的運動和口號」.這對消除數據所有權所形成的數字鴻溝,建設一個數據公平的美麗新世界提供了一條可行之路。
2.數據搜集
大數據時代的基礎在於海量數據,究竟多大才是大數據呢?「麥肯錫全球研究所」的最新報告對大數據下了一個定義:「大數據是指大小超出了傳統資料庫軟體工具的抓取、存儲、管理和分析能力的數據群」而且,大數據的標准隨著數據的指數增長也在不斷發生變化。今天,我們在談論大數據時往往以 pb 為單位,海量數據提供了更為詳細的信息,但是也存在一些隱憂,即數據的價值密度太小,因而搜集數據以及在海量數據中尋找有價值信息的成本太高。舍恩伯格在接受《中國經濟周刊》記者謝瑋專訪時說:「在許多方面,我們仍然生活在一個『小數據』時代,在這個時代收集數據非常耗時、昂貴和困難。」大數據時代的數據搜集是一項龐大的工程,而且,大數據還遠遠未達到普通人能夠支付得起的階段。
搜集數據的數字鴻溝在大數據時代似乎沒有減少,反而隨著大數據處理技術的發展而在逐步擴大。對於媒體和企業來講,搜集數據和處理數據都並非易事,著名的《哈佛商業評論》雜志對全球財富1000強的企業應用大數據的情況做了一項科學調研,發現「大多數企業還處於大數據的入門階段,還小具備真正挖掘大數據的能力」,而且,「只有巧%的受訪者認為所在企業的數據可訪問性夠好或者達到世界級水平,只有21%的受訪者認為所在企業的分析能力夠好或者達到世界水平」.顯然,對於普通公眾來說,搜集數據、挖掘數據的難度更大,差異也更大。在搜索引擎主宰信息流向的時代,公眾就因為使用不同的搜索引擎而產生數字鴻溝,使用普通的搜索引擎與使用較為專業的搜索引擎和資料庫之間存在著差異。在大數據時代,公眾不僅要知道如何利用專業的搜索引擎,還需要在海量的信息中迅速尋找最有價值的信息,囿於公眾能力的差異,在搜集階段產生的數字鴻溝將難以避免。而且,互聯網下的數據處於不斷更新的狀態,時效性是非常重要和關鍵的。在對「知識鴻溝」的研究中,西方學者 J.S.艾蒂瑪和 F.G.克萊因曾經提到「上限效果」,指的是隨著時間的推移,知識鴻溝會逐漸減少。但是在互聯網時代,信息的價值和及時性有密切的關系,即使隨著時間的推移公眾在搜集數據上的「鴻溝」逐漸縮小,但是後來者所擁有的數據價值也會大打折扣。媒介環境學派的代表性人物萊文森對信息超載的論述可能會對緩解大數據時代數據搜集所產生的差異提供幫助,他認為建立信息分類法則可以解決信息超載的困擾,比如在圖書上建立圖書分類法則並依據這一法則運作,就能夠解決圖書館的信息超載問題,這一思想對解決長期困擾人類的信息超載具有普遍的啟示意義。
(二)分析數據的數字鴻溝
誰擁有數據會產生差異,而在同等擁有數據的情況下,公眾利用數據的能力不同,也會產生差異。大數據既包含以數量關系為基礎的結構化數據,也包含以定性描述為主的非結構化數據,而且,非結構化數據往往佔有很大的比例。因此,在大數據時代,同樣擁有數據並不代表著同樣能夠利用數據,分析數據和掘取價值上的數字鴻溝依然需要引起我們的警惕。
1.數據刪除
大數據時代是一個信息高度碎片化的時代,信息中的重復、噪音、冗餘和信息中的人為因素(網路水軍)等,都影響到人們對數據的分析與利用,此時,刪除數據與收集數據同樣重要。除《大數據時代:生活工作與思維的大變革》之外,舍恩伯格還有一部影響深刻的著作-《刪除:大數據取捨之道》。在這部著作中,舍恩伯格提醒人們在大數據時代「記憶成為常態,而遺忘成為例外」,因此要注意信息取捨之道;在這個「沒有遺忘的世界裡」,遺忘恰恰成為一種寶貴的信息處理方式與權利數據刪除是一個人性化的問題,隨著「電腦原生代」的成
長,每個人都有著青澀的、尷尬的、甚至小堪回首的過去,互聯網之前人們會嘗試遺忘這些小愉快的過去,但是互聯網的記憶讓每個人小得小而對這樣一個現實:人們可能會為若十年前犯過的錯誤買單。
刪除同樣是一個技術性的問題,在互聯網時代,歷史悠久的數據會逐漸成為「數據垃圾」,不但佔用大量的存儲資源,而且也會影響對當下數據的分析,評估數據與刪除數據成為大數據時代必不可少的數據處理方式。但是具體到個人就會產生一個問題,人不可能像機器一樣去評估和處理,只能按照過往的經驗來處理信息。另一位國外學者蒂奇諾在分析「知識鴻溝」所形成的原因時提到,個人的信息儲備也會產生「知識鴻溝」,即「正規教育和從大眾媒體中獲得的信息會幫助受教育程度較高的人提供理解知識的背景」.大數據時代並未改變人們接受信息的習慣,因此,在大數據時代依然是受教育程度較高的人先學會接受和刪除信息。刪除還有一個頗具哲學意味的意義,在大數據時代,選擇即刪除。人對數據的接受具有零和效果「,朝向一組數據的同時意味著放棄另外的數據,這也是另外一種意義上的刪除,處理掉低質量的過時數據是發現大數據意義的前提。知名學者馬修·E·梅所著的《精簡:大數據時代的商業致勝法則》,同樣也提到大數據時代的信息刪除與精簡問題。在大數據時代,能夠快速在第一時間獲得最有價值數據的企業會逐漸發展起來,而不懂大數據或沉迷於大數據的企業會逐漸落伍。
2.數據可用
大數據時代提供了一個多元、詳細且復雜的數據環境,在大數據時代,一切現實都可以量化為數據。但是如果用大數據來創造價值就需要從海量數據中找出有價值的數據,並把數據還原為現實。因為」,擁有一個數據集,無論它們多大或者多小,其自身都不會帶來任何價值。「大數據的最終價值還是體現在數據的」可用「之上。與此同時,關於數字鴻溝的問題也出現在數據的」可用「上,大數據如同提供了一個美味的堅果,不藉助工具很難打開它,而大數據所使用的」雲存儲、雲計算「又不是任何公眾都能輕易掌握的。少部分人掌握了分析數據與應用數據的能力,還有相當多的大眾面對浩如煙海的大數據不知所措,最終陷入信息超載的焦慮之中。
彌補數據可用的」數字鴻溝「需要讓數據變得直觀而可視,這仍然是一個涉及公共性的話題。把數據還原為現實既需要數據分析的人工智慧技術,也需要人的敏銳的分析與判斷能力,更為關鍵的是,需要把對數據所提示的環境真實地傳達給公眾。政府和媒體要做的依然很多,首先需要數據處理技術的普及,把解讀關於公共事務的大數據當做一個公共事業,如在 20世紀 60 年代,被稱為」人工智慧之父「的約翰·麥卡錫曾預言」有朝一日,計算可能變成公共設施「.其次,媒體要做好數據與現實之間」擺渡人「的角色,不僅要用大數據來分析受眾獲得收益,更要體現媒體的公共性,讓受眾能夠讀懂大數據並受用於大數據。比如,美國記者在報道龍卷風時」將龍卷風破壞房屋的損毀數據,與地圖相重疊,製成大數據地圖。「這樣,受眾既能夠比較精確地了解龍卷風帶來災害的大體區域,又能夠精確理解某個區域龍卷風造成損失的具體情況。
(三)數據思維的數字鴻溝
大數據熱所帶來的重要變化是關於數據思維的變化,關於大數據的討論有很多,但並非有了」大數據「這樣一個概念我們的信息環境就自然而然發生了質的變化,而是在互聯網逐漸走向海量數據的今天,從」數字化生存「轉向」數據化生存「的大數據思維讓人們多了一個認識世界的視角。在大數據技術之外的數字鴻溝來自於人們的思維層面,即人們對待數據的思維存在差異。
1.超越大數據
大數據時代的思維之一是要超越」數據迷思「,把數據當成一種工具而不是一種數據霸權。舍恩伯格在《大數據時代》一書中指出大數據帶來的三種變化:不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。這些變化對於傳統的定量研究方法有極大的影響,可是定量方法的改進並不能取代定性的研究,必須超越數據才能發現數據背後的意義與價值。於是,大數據思維包含了三個層次。第一個層次是發現海量數據,了解海量數據的潛在價值,但並不能很好的利用數據;第二個層次是能夠較好的利用數據,但是往往陷入數據崇拜,解決不了關於意義的問題;第三個層次是能夠利用數據,但是也能夠同時超越數據,發現價值。這三個層次在大數據的發展過程中既是一個歷時的過程,也是一個共識的過程。大數據概念的興起與擴散還需時日,因此在數據思維上三個層次的」數字鴻溝「仍將長期存在。
2.大數據素養
數字鴻溝的減小也需要在硬體與軟體兩個方向上作出努力,在大數據時代仍然如此。從最近幾年的中國互聯網路統計報告來看,硬體的數字鴻溝在逐漸縮小,而軟體的數字鴻溝仍在擴大。消弭數字鴻溝需要政府、企業等開放公共數據並提供利用公共數據的方法,還需要提升全體公民的大數據素養,實現大數據的民有與民享。數據素養也被稱為數據信息素養,主要指人們在科學數據的採集、組織和管理、處理和分析、共享與協同創新利用等方面的能力,以及在數據的生產、管理和發布過程中的道德與行為規范。全面提高全民的數據素養,我們才能自信地迎接大數據時代的到來,並利用大數據為人類創造新的福祉。
㈡ 為什麼說當今時代是大數據時代,那什麼樣的東西可以稱為大數據
大數據,又稱海量數據,是指所涉及的海量數據,無法通過人腦甚至主流軟體工具捕捉、管理、處理和整理成更積極的信息,幫助企業在合理的時間內做出商業決策。大數據已經滲透到我們生活的方方面面。就像空氣和水一樣。雖然我們看不見它,但我們不能沒有它!數據很重要,但孤立的數據很難工作。大數據意味著將許多數據放在一起,並以科學的方式篩選和分析相關數據。然後將其應用到生產過程和生活體驗中。
㈢ 如何更好地利用海量物聯網大數據,挖掘數據背後的商業價值
1、淺談大數據的來源
大數據的來源這個問題其實很簡單,大數據的來源無非就是我們通過各種數據採集器、資料庫、開源的數據發布、GPS信息、網路痕跡(購物,搜索歷史等)、感測器收集的、用戶保存的、上傳的等等結構化或者非結構化的數據。
2、淺談大數據能夠帶給我們什麼
大數據能給我們帶來什麼?很多公司現在都在炒大數據的概念,但是真正能做好的有幾個呢 ?大數據重在積累、強在分析、利於運用。沒有經過多年的有意的數據收集、沒有經過嚴謹細心的數據分析。那麼,如何來談論大數據能給企業或者個人來帶來便捷呢?
大數據能帶給企業的項目立項的數據支撐、精準化營銷、電商的倉位儲備等等。但是針對個人用戶有時候就是麻煩了,因為你隨時都可以接收到很多的營銷簡訊、隱私暴露太多。另外對於個人用戶大數據的好處是可以快速找到自己想要東西、為用戶提供信息服務、獲取消費指導等等。換個角度看問題的話,小編認為應該是利大於弊。
3、大數據是怎麼帶給我們想要的支撐?
龐大的數據需要我們進行剝離、整理、歸類、建模、分析等操作,通過這些動作後,我們開始建立數據分析的維度,通過對不同的維度數據進行分析,最終我們才能得到我們想到的數據和信息。
項目立項前的市場數據分析為決策提供支撐;
目標用戶群體趨勢分析為產品提供支撐和商務支撐;
通過對運營數據的挖掘和分析為企業提供運營數據支撐;
通過對用戶行為數據進行分析,為用戶提供生活信息服務數據支撐和消費指導數據支撐。
4. 如何通過大數據挖掘潛在的價值?
模型對於大數據的含義何在?模型有直觀模型,物理模型,思維模型,復合模型等。我們在進行數據挖掘前需要考慮我們需要用這些數據來干什麼?需要建立怎麼樣的模型?然後根據模型與數據的關系來不斷優化模型。
只有建立了正確的模型才能讓數據的挖掘和分析更有便捷。
㈣ 對大數據的全方位解讀
對大數據的全方位解讀
大數據是當下非常火爆的一個詞,人人都在談論大數據。但大數據的定義是什麼?它到底是如何出現的?它有什麼特別之處?它最大的應用領域在哪裡?它的發展方向是什麼?對於以上問題,其實大多數人是弄不清楚的。
1)大數據時代出現的必然性
大數據和雲計算這兩個詞經常被同時提到,很多人誤以為大數據和雲計算是同時誕生的、具有強綁定關系。其實這兩者之間既有關聯性,也有區別。雲計算指的是一種以互聯網方式來提供服務的計算模式,而大數據指的是基於多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學範式、生活方式和關聯形態上的顛覆性變化的總和。大數據處理會利用到雲計算領域的很多技術,但大數據並非完全依賴於雲計算;反過來,雲計算之上也並非只有大數據這一種應用。
雲計算的起源可以追溯到 2003 年末 Amazon 公司工程師 Chris Pinkham 提交給 CEO Jeff Bezos 的一篇論文中的一個設想:將 Amazon 內部使用的計算基礎設施開放給全世界的開發者。次年 11 月,Amazon 發布了第一版雲計算服務:Simple Queue Service。Simple Queue Service 再往後發展至 2006 年,演變成立今天著名的 AWS(Amazon Web Sercice)。同在 2006 年,Google 公司 CEO Eric Schmidt 首次公開提出了「雲計算」(Cloud Computing)的這一概念,雲計算也在這一年開始變得廣為人知。
大數據這個詞的流行卻晚了好幾年——直到 2009 年,大數據這個說法才逐漸開始在互聯網圈內傳播。但僅僅在互聯網領域流行,仍然不足以引起普遍關注,因為純互聯網經濟畢竟只佔全球經濟總量的很小一部分。而大數據概念真正變得火爆,卻是因為美國奧巴馬政府在 2012 年高調宣布了其「大數據研究和開發計劃」——美國政府希望利用大數據解決一些政府部門面臨的非常重要的問題,該計劃由橫跨 6 個政府部門的 84 個子課題組成。這標志著大數據真正開始進入主流的傳統線下經濟。
大數據出現的時間點自有它深刻的原因。2009 年至 2012 年這段時間正是電子商務在包括中國在內的全球全面開花的幾年。眾所周知,互聯網領域有 3 大類商業模式:廣告、游戲和電子商務。而電子商務又是第 1個真正將純互聯網經濟與傳統經濟嫁接在一起誕生的混合模式。准確地說,正是互聯網與傳統經濟的碰撞,才真正催生出了今天幾乎全民關注的「大數據」。大數據橫跨了互聯網產業與傳統產業,而且大數據真正廣闊的應用領域其實也正是比純互聯網經濟大得多的傳統產業。
從數據量的角度來看,在電子商務模式出現以前,傳統企業的數量增長緩慢。傳統企業的數據倉庫中的數據大多數來自於交易型數據,而交易這種行為處於用戶消費決策漏斗的最底部,這就決定了交易前的各種瀏覽、搜索、比較等用戶行為數據的都量遠遠超過交易數據。電子商務模式使得企業可以採集到用戶的瀏覽、搜索、比較等行為,這就導致企業的數據規至少提升了一個數量級。現在日益流行的移動互聯網以及將來會流行的物聯網又必將使數據量提高兩三個數量級。從這個角度來講,大數據時代是必然會出現的。
從IT產業的發展來看,第一代IT巨頭大多是 2B 的,比如 IBM、Microsoft、Oracle、SAP 這類傳統IT企業;第二代IT巨頭大多是 2C 的,比如 Yahoo、Google、Amazon、Facebook 這類互聯網企業。一個有意思的現象是:大數據時代前,這兩類公司彼此之間基本是井水不犯河水,我們很少看見這兩類公司的老闆們在一起坐而論道;但在當前這個大數據時代,這兩類公司已經開始直接競爭。比如 Amazon 已經開始提供雲模式的數據倉庫服務,直接搶占 IBM、Oracle 的市場。這個現象出現的本質原因是:在互聯網巨頭的帶動下,傳統IT巨頭的客戶普遍開始從事電子商務業務,正是由於客戶進入了互聯網,所以傳統IT巨頭們不情願地被拖入了互聯網領域。如果他們不進入互聯網,他們業務必將萎縮。所以第三代IT巨頭可能會是 2B 與 2C 融合的IT公司。
2)大數據的核心內涵
大數據概念雖然非常火爆,但少有人真正理解大數據的核心內容。一個普遍而且嚴重的誤解就是:大數據= 數據大,即大數據就是量大的數據。事實上,除了數據量大這個字面意義,大數據還有兩個更重要的特徵:
1) 跨領域數據的交叉融合。相同領域數據量的增加是加法效應,不同領域數據的融合是乘法效應
2) 數據的流動。數據必須流動,流動產生價值
對於第 1) 點,百分點推薦系統研究中心實驗結果顯示:百分點公司有 3 家客戶,分別是從事服裝、化妝品和箱包銷售的電商,百分點向這 3 家客戶提供個性化商品推薦服務,即:百分點挖掘用戶的偏好,不同的用戶上同一家電商網站時,向他們展現不同的服裝、化妝品或箱包,從而提高電商的轉化率和客單價。我們做過兩種測試:
a) 將每家網站的數據隔離。當每家網站自身的數據量增加到以前的 4 倍時,推薦效果大約能提高 5%;
b) 將三家網站的數據在去除敏感信息之後進行某種融合。融合後的數據大致是與單家網站的數據的 3 倍,比第一種情況數據量還少。但利用融合後的數據進行數據挖掘時,推薦效果能提升 30%,而且推薦商品並未發生變化,仍然是:用戶上服飾類網站時只看見服裝、上化妝品網站時只看見化妝品、上箱包網站時只看見箱包。
解釋得詳細一點,上述實驗說明:對同一個消費者,如果我們要向其推薦服裝。第一種方法是我們根據他過去的 4 次購買服裝的行為來預測其下一次可能會購買的服飾;第二種方法是我們根據他過去分別購買服裝、化妝品和箱包的各 1 次行為來預測其下一次可能會購買的服飾。兩種方法的基於的用戶行數分別是 4 次和 3 次,但第二種方法的效果明顯更好。
對於第 2) 點,其實 10 多年前傳統企業開始做數據倉庫時,數據倉庫從業者經常強調一個觀點:企業級數據倉庫的目標是讓不同部門的數據流動起來,各個部門數據割裂,數據的價值就得不到發揮。到了今天的互聯網時代,我們發現即使企業已經打通了內部各個部門之間的數據,但與整個互聯網比起來,數據量仍然微乎其微,數據應該以互聯網為媒介在企業之間某種形式的流動。參照「企業級數據倉庫」的概念,現在已經開始出現了「互聯網數據倉庫」的概念:就是企業通過互聯網渠道將與自己相關的外部數據與內部數據進行整合,從而形成「互聯網數據倉庫」。百分點已經在零售與媒體領域比較成功地打造了「開放數據聯盟」,該聯盟的成員可以在公允、安全的情況下基於該聯盟建立起自己的「互聯網數據倉庫」,從而享用海量數據的價值。
3)大數據的應用領域
大數據的起源要歸功於互聯網與電子商務,但大數據最大的應用前景卻在傳統產業。一是因為幾乎所有傳統產業都在互聯網化,二是因為傳統產業仍然占據了國家 GDP 的絕大部分份額。
哪些傳統企業最需要大數據服務呢?至少有 3 類企業:
1) 對大量消費者提供產品或服務的企業
2) 做小而美模式的中長尾企業
3) 面臨互聯網壓力之下必須轉型的傳統企業
第 1) 類企業都需要利用大數據精準分析不同消費者的偏好,提高營銷和服務的質量;第 1) 類企業都需要利用大數據分析精準定位自己的客戶群;第 3) 類企業主要指哪些正在遭受來自互聯網的新玩家沖擊的傳統企業,此類企業自然都需要利用互聯網和大數據作為自我進化的工具。當然,第 3) 類企業與前 2 類企業有重疊。
具體來講,中國最需要大數據服務的行業就是受互聯網沖擊最大的產業,首先是線下零售業,其次是金融業。
受電商的沖擊,國內很多零售巨頭都增長嚴重放緩,甚至遭遇負增長,線下零售已經到了不得不變革的危機關頭。我們也看到了銀泰百貨、王府井百貨、萬達集團這些具有創新意識的傳統巨頭開始利用互聯網和大數據來改造線下商業。其中銀泰百貨以手機為載體、利用 O2O 方式進行雙線數據挖掘的創新非常值得借鑒。
而金融行業就更加特殊:金融業並不銷售任何實體商品,它自誕生起就是基於數據的產業。由於國家管制,金融業在前幾年享受了非常好的政策紅利,內部變革動力不足。而目前金融業已經逐漸開始放鬆管制,新興的金融機構必將利用互聯網以及大數據工具向傳統金融巨頭發起猛烈攻擊。而傳統金融機構在互聯網方面的技術積累和數據積累都不足,要快速應對新進入者的挑戰,必然需要大數據服務。我們也看到了中信銀行信用卡中心、招商銀行信用卡中心已經在開始利用互聯網大數據進行創新。
那麼傳統產業需要什麼樣的大數據服務呢?這主要包括 3 層:
1) 基於大數據的行業垂直應用。每個行業都有自己的特點,所以自然會存在行業應用的需求;
2) 顧客標簽與商品標簽的整理。不管什麼行業,都需要精細化整理自己顧客的屬性標簽以及商品屬性標簽,而且這些標簽必須能夠細化到單個顧客和單個商品。標簽是行業應用的基礎;
3) 企業內部和外部數據的整合與管理。要給顧客和商品打標簽,首先必須整合企業內部和外部數據,尤其是日益重要和龐大的外部數據。
圖:傳統企業需要的大數據服務
第 3 層和第 2 層的方法相對比較通用,行業特殊性相對較少。百分點已經在第 3 層和第 2 層做出了比較成熟的產品,並且也開始在第 1 層做出了一些具體的行業應用產品,比如針對服飾行業的時尚服飾搭配系統。
4)大數據的發展方向
大數據產業未來會向什麼方向發展?隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成「數據供應鏈」。拿鋼鐵產業來講,鐵礦石公司從礦場中挖出礦石,經過粗加工,賣給鋼鐵企業;鋼鐵企業再進行精細一點的加工,將板材、鋼條賣給下游製造業公司;這些製造業公司做出汽車、飛機、門窗、電腦等產品賣給下游公司。這個產業鏈中存在找礦、運輸、加工等諸多環節,每個環節都有對應的企業。
圖:傳統企業的供應鏈
在「數據供應鏈」中,存在數據、數據整合與挖掘工具以及數據應用這 3 大環節。數據就好比礦場的礦石;數據整合與挖掘工具就好比鋼廠的冶煉爐;而精準營銷、服飾搭配等數據應用就好比汽車、電腦等可以出售給消費者的產品。企業在數據供應、數據整合與挖掘、數據應用等所有環節都需要專業的服務。這里尤其有兩個明顯的現象:
1) 外部數據的重要性日益超過內部數據。在互聯互通的互聯網時代,單一企業的內部數據與整個互聯網數據比較起來只是滄海一粟;
2) 能提供包括數據供應、數據整合與加工、數據應用等多環節服務的公司會有明顯的綜合競爭優勢。
5) 什麼樣的大數據企業會勝出
常有大數據從業者以及投資人和我們探討一個問題:大數據產業中,什麼樣的企業會最終勝出?這是一個很難回答的問題,而且即使回答了,三五年內可能都無法判斷其正確性。但從「數據供應鏈」中的各個環節來分析,還是可以得出一些具有參考價值的結論。
1) 數據供應。在互聯網沒有流行的時代,企業做數據倉庫、商業智能、數據挖掘等系統時採用的數據基本都來自於企業內部,企業幾乎無法獲取外部數據,所以很少有專業的數據供應商。互聯網改變了這一局面,將來會有專業的數據供應商。但既然是因為互聯網的出現導致了數據供應商的出現,那麼反過來數據供應商就必須具有很強的互聯網基因;
2) 數據整合與挖掘。數據挖掘工具供應商在非互聯網時代就早已存在。但互聯網時代使得企業的數據量激增、數據類型發生極大變化(不同於傳統的來自於單一領域的結構化數據,互聯網數據以跨域的非結構化數據為主),傳統的數據挖掘工具供應商的技術和方法已經很難適應。要跟上時代的變化,數據挖掘技術與工具應用商必須具備互聯網公司的海量數據處理和挖掘的能力;
3) 數據應用。具體的行業應用與傳統行業的業務關系密切,要做好行業應用,最好需要有服務傳統行業的經驗,了解傳統行業的內部運作模式。這時候僅僅具有 2C 經驗的互聯網基因的公司又稍顯不足。
綜合起來看,如果一家大數據從業公司同時兼備互聯網數據獲取能力、互聯網技術、互聯網執行力,又有做 2B 服務的經驗,那麼這家公司將比較容易取得領先優勢。這個結論其實一點也不奇怪:如本文開篇所述,大數據本來就是互聯網與傳統產業碰撞時的產物。
用「方興未艾」這個詞來形容大數據產業的發展階段都還為時過早,目前的大數據產業只能說是小荷才露尖尖角。國內企業在第 1 代IT產業(硬體和軟體產業)中是明顯落後國外企業的;在第 2 代IT產業(互聯網產業)中,國內企業已經與國外企業差距不大甚至在很多方面超過了國外企業;希望在第 3 代IT產業(雲計算和大數據)浪潮中,國內企業能夠完全趕上並且超過國外企業,我們也認為這是很有可能的。
㈤ 你對大數據有哪些認識
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。 亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。 研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。