① 從谷歌流感趨勢談大數據分析的光榮與陷阱
從谷歌流感趨勢談大數據分析的光榮與陷阱
本文從谷歌流感趨勢2009年前後表現差異談起,討論了大數據分析容易面臨的大數據自大、演算法演化、看不見的動機導致數據生成機制變化等陷阱,以及對我國大數據產業發展的借鑒。本文認為,為健康發展大數據產業,我國需要防範大數據自大風險、推動大數據產業和小數據產業齊頭並進,並強化提高大數據透明度、審慎評估大數據質量等方面的努力。?
一、谷歌流感趨勢:未卜先知?
「谷歌流感趨勢」(Google Flu Trends,GFT)未卜先知的故事,常被看做大數據分析優勢的明證。2008年11月谷歌公司啟動的GFT項目,目標是預測美國疾控中心(CDC)報告的流感發病率。甫一登場,GFT就亮出十分驚艷的成績單。2009年,GFT團隊在《自然》發文報告,只需分析數十億搜索中45個與流感相關的關鍵詞,GFT就能比CDC提前兩周預報2007-2008季流感的發病率。
也就是說,人們不需要等CDC公布根據就診人數計算出的發病率,就可以提前兩周知道未來醫院因流感就診的人數了。有了這兩周,人們就可以有充足的時間提前預備,避免中招。多少人可以因為大數據避免不必要的痛苦、麻煩和經濟損失啊。
此一時,彼一時。2014年, Lazer等學者在《科學》發文報告了GFT近年的表現。2009年,GFT沒有能預測到非季節性流感A-H1N1;從2011年8月到2013年8月的108周里,GFT有100周高估了CDC報告的流感發病率。高估有多高呢?在2011-2012季,GFT預測的發病率是CDC報告值的1.5倍多;而到了2012-2013季,GFT流感發病率已經是CDC報告值的雙倍多了。這樣看來,GFT不就成了那個喊「狼來了」的熊孩子了么。那麼不用大數據會如何?作者報告,只用兩周前CDC的歷史數據來預測發病率,其表現也要比GFT好很多。
2013年,谷歌調整了GFT的演算法,並回應稱出現偏差的罪魁禍首是媒體對GFT的大幅報道導致人們的搜索行為發生了變化。Lazer等學者窮追不舍。他們的估算表明,GFT預測的2013-2014季的流感發病率,仍然高達CDC報告值的1.3倍。並且,前面發現的系統性誤差仍然存在,也就是過去犯的錯誤如今仍然在犯。因為遺漏了某些重要因素,GFT還是病得不輕。
為什麼傳說中充滿榮光的大數據分析會出現如此大的系統性誤差呢?從大數據的收集特徵和估計方法的核心,我們可以探究一二。
二、新瓶裝舊酒:過度擬合
大數據時代的來臨,為數據收集帶來了深刻變革。海量數據、實時數據、豐富多樣的非結構數據,以前所未有的廣度進入了人們的生活。但是不變的是,在統計分析方法上,數據挖掘(Data mining)仍然是統計分析的主要技術。而數據挖掘中最引人注目的過度擬合(overfitting)問題,由於下文提到的各類陷阱的存在,遠遠沒有解決。
我們先用一個故事來解釋何為過度擬合。假設有一所叫做象牙塔的警官學校致力於培養抓小偷的警察。該校宣稱,在他們學校可以見到所有類型的普通人、也能見到所有類型的小偷;到他們學校來學習就能成為世界上最厲害的警察。但是這所學校有個古怪,就是從不教授犯罪心理學。
象牙塔的教學方式是這樣的:將人群隨機分為十組,每組都是既有普通人又有小偷。學員可以觀察到前九組所有人,也知道誰是普通人誰是小偷。學員要做的是,根據自己從前九組中了解到的小偷特徵,從第十組中找出小偷。比如學員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒,那麼在第十組觀察到有人在買尿布時也買啤酒,就作為一個嫌疑條件。完成這個過程之後,學校再將人群打散重新分成十組,如此循環往復,之後學校進行測試。測試方式就是再次將人群隨機分為十組,看誰能最快最准根據前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察,可以派到社會上抓小偷了。
一段時間後,問題來了:象牙塔最棒警察在象牙塔校內總能迅速找到小偷,可一旦出了象牙塔, 該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現,甚至比從來沒有來象牙塔學習的人還要差。
在這個故事裡,象牙塔最棒警察就相當於根據大數據的數據挖掘方法、機器學習之後挑選出來的最優模型。小偷相當於特定問題需要甄選出的對象,比如得流感的人、不幹預就會自殺的人、賴賬的人。前九組的人就相當於用於訓練模型的訓練數據;第十組人則相當於檢驗訓練結果的檢驗數據。不教授犯罪心理學就意味著抓小偷並不需要理解小偷為什麼會成為小偷,類似於在數據分析中只關心相關關系而不關注因果關系。訓練最佳警察的過程,就類似於運用機器學習技術, 採用訓練數據來訓練模型,然後採用檢驗數據來選擇模型,並將預測最好的模型作為最佳模型,用於未來的各類應用中 。
最後,警察在象牙塔內能快速抓小偷而校外不能,就是過度擬合問題。由於在學校通過多次重復練習,學員小偷的特徵已經爛熟於心,因此無論怎麼隨機分,都能快速找到小偷並且不出錯;這就相當於訓練模型時,由於已經知道要甄選人群的特徵,模型能夠對樣本內觀測值作出很好的擬合。由於象牙塔學校判斷小偷的標准主要看外部特徵而不去理解內在原因,比如小偷常戴鴨舌帽,那麼當社會人群里的小偷特徵與象牙塔人群有很大差別時,比如社會上的小偷更常戴禮帽,在象牙塔內一抓一個準的鴨舌帽標准,到社會就變成一抓一個錯了。也就是說,在樣本內預測很好的模型,到樣本外預測很差。 這,就是過度擬合的問題。
從過度擬合角度,可以幫助我們理解為什麼GFT在2009年表現好而之後表現差。在2009年,GFT已經可以觀察到2007-2008年間的全部CDC數據,也就是說GFT可以清楚知道CDC報告的哪裡發病率高而哪裡發病率低。這樣,採用上述訓練數據和檢驗數據尋找最佳模型的方法時標准就很清晰,就是不惜代價高度擬合已經觀察到的發病率。 Lazer 等人發現,GFT在預測2007-2008年流感流行率時,存在丟掉一些看似古怪的搜索詞,而用另外的5000萬搜索詞去擬合1152個數據點的情況。
2009年之後,該模型面對的數據就真正是未知的,這時如果後來的數據特徵與2007-2008年的數據高度相似,那麼GFT也該可以高度擬合CDC估計值。但現實是無情的,系統性誤差的存在,表明GFT在一些環節出了較大偏差而不得不面對過度擬合問題。
從上面的故事可以看到,產生過度擬合有三個關鍵環節。第一,象牙塔學校認定本校知道所有普通人與所有小偷的特徵,也就等於知道了社會人群特徵。第二,象牙塔學校訓練警察,不關心小偷的形成原因,而關注細致掌握已知小偷的特徵。第三,象牙塔學校認為,不論時間如何變化,本校永遠能保證掌握的普通人和小偷的行為特徵不會發生大規模變動、特別是不會因為本校的訓練而發生改變。
在大數據這個新瓶里,如果不避開下面的三個陷阱,就仍然可能裝著數據挖掘帶來的過度擬合舊酒:大數據自大、演算法演化、看不見的動機導致的數據生成機制變化。
三、大數據分析的挑戰
(一)陷阱一:「大數據自大」
Lazer等學者提醒大家關注 「大數據自大(big data hubris)」的傾向,即認為自己擁有的數據是總體,因此在分析定位上,大數據將代替科學抽樣基礎上形成的傳統數據(後文稱為「小數據」)、而不是作為小數據的補充。
如今,大數據確實使企業或者機構獲取每一個客戶的信息、構成客戶群的總體數據成為可能,那麼說企業有這樣的數據就不需要關心抽樣會有問題嗎?
這里的關鍵是,企業或者機構擁有的這個稱為總體的數據,和研究問題關心的總體是否相同。《數據之巔》一書記載了下面這個例子:上世紀三十年代,美國的《文學文摘》有約240萬讀者。如果《文學文摘》要了解這個讀者群的性別結構與年齡結構,那麼只要財力人力允許,不抽樣、直接分析所有這240萬左右的數據是可行的。但是,如果要預測何人當選1936年總統,那麼認定「自己的讀者群」這個總體和「美國選民」這個總體根本特徵完全相同,就會差之毫釐謬以千里了。事實上,《文學雜志》的訂戶數量雖多,卻集中在中上層,並不能代表全體選民。與此相應,蓋洛普根據選民的人口特點來確定各類人群在樣本中的份額,建立一個5000人的樣本。在預測下屆總統這個問題上,採用這個小數據比採用《文學文摘》的大數據,更准確地把握了民意。
在GFT案例中,「GFT採集的搜索信息」這個總體,和「某流感疫情涉及的人群」這個總體,恐怕不是一個總體。除非這兩個總體的生成機制相同,否則用此總體去估計彼總體難免出現偏差。
進一步說,由於某個大數據是否是總體跟研究問題密不可分,在實證分析中,往往需要人們對科學抽樣下能夠代表總體的小數據有充分認識,才能判斷認定單獨使用大數據進行研究會不會犯「大數據自大」的錯誤。
(二)陷阱二:演算法演化
相比於「大數據自大」問題,演算法演化問題(algorithm dynamics)就更為復雜、對大數據在實證運用中產生的影響也更為深遠。我們還是借一個假想的故事來理解這一點。假定一個研究團隊希望通過和尚在朋友圈發布的信息來判斷他們對風險的態度,其中和尚遇到老虎的次數是甄別他們是否喜歡冒險的重要指標。觀察一段時間後該團隊發現,小和尚智空原來遇到老虎的頻率大概是一個月一次,但是從半年前開始,智空在朋友圈提及自己遇到老虎的次數大幅增加、甚至每天都會遇到很多隻。由於大數據分析不關心因果,研究團隊也就不花心思去追究智空為什麼忽然遇到那麼多老虎,而根據歷史數據認定小智空比過去更願意冒險了。但是研究團隊不知道的情況是:過去智空與老和尚同住,半年前智空奉命下山化齋;臨行前老和尚交代智空,山下的女人是老虎、遇到了快躲開。在這個故事裡,由於老和尚的叮囑,智空眼裡老虎的標准變了。換句話說,同樣是老虎數據,半年前老虎觀測數量的生成機制,和半年後該數據的生成機制是不同的。要命的是,研究團隊對此並不知情。
現實中大數據的採集也會遇到類似問題,因為大數據往往是公司或者企業進行主要經營活動之後被動出現的產物。以谷歌公司為例,其商業模式的主要目標是更快速地為使用者提供准確信息。為了實現這一目標,數據科學家與工程師不斷更新谷歌搜索的演算法、讓使用者可以通過後續谷歌推薦的相關詞快捷地獲得有用信息。這一模式在商業上非常必要,但是在數據生成機制方面,卻會出現使用者搜索的關鍵詞並非出於使用者本意的現象。
這就產生了兩個問題:第一,由於演算法規則在不斷變化而研究人員對此不知情,今天的數據和明天的數據容易不具備可比性,就像上例中半年前的老虎數據和半年後的老虎數據不可比一樣。第二,數據收集過程的性質發生了變化。大數據不再只是被動記錄使用者的決策,而是通過演算法演化,積極參與到使用者的行為決策中。
在GFT案例中,2009年以後,演算法演化導致搜索數據前後不可比,特別是「搜索者鍵入的關鍵詞完全都是自發決定」這一假定在後期不再成立。這樣,用2009年建立的模型去預測未來,就無法避免因過度擬合問題而表現較差了。
(三)、陷阱三:看不見的動機
演算法演化問題中,數據生成者的行為變化是無意識的,他們只是被頁面引導,點出一個個鏈接。如果在數據分析中不關心因果關系,那麼也就無法處理人們有意識的行為變化影響數據根本特徵的問題。這一點,對於數據使用者和對數據收集機構,都一樣不可忽略。
除掉人們的行為自發產生系統不知道的變化之外,大數據的評估標准對人們行為的影響尤為值得關注。再以智空為例。假定上文中的小和尚智空發現自己的西瓜信用分遠遠低於自己好友智能的西瓜信用分。智空很不服氣,經過仔細觀察,他認為朋友圈言論可能是形成差異的主因。於是他細細研究了智能的朋友圈。他發現,智能從不在朋友圈提及遇到老虎的事,而是常常宣傳不殺生、保護環境、貼心靈雞湯,並定期分享自己化齋時遇到慷慨施主的事。雖然在現實中,他知道智能喜好酒肉穿腸過、也從未見老和尚稱贊智能的化齋成果。智空茅塞頓開,從此朋友圈言論風格大變,而不久後他也滿意地看到自己的西瓜信用分大幅提高了。
如今,大數據常常倚重的一個優勢,是社交媒體的數據大大豐富了各界對於個體的認知。這一看法常常建立在一個隱含假定之上,就是人們在社交媒體分享的信息都是真實的、自發的、不受評級機構和各類評估機構標准影響的。但是,在互聯網時代,人們通過互聯網學習的能力大大提高。如果人們通過學習評級機構的標准而相應改變社交媒體的信息,就意味著大數據分析的評估標准已經內生於人們生產的數據中,這時,不通過仔細為人們的行為建模,是難以准確抓住的數據生成機制這類的質變的。
從數據生成機構來看,他們對待數據的態度也可能發生微妙的變化。例如,過去社交媒體企業記錄保存客戶信息的動機僅僅是本公司發展業務需要,演算法演化也是單純為了更好地服務消費者。但隨著大數據時代的推進,「數據為王」的特徵越來越明顯,公司逐漸意識到,自己擁有的數據逐漸成為重要的資產。除了可以在一定程度上給使用者植入廣告增加收入之外,還可以在社會上產生更為重要的影響力。這時就不能排除數據生成機構存在為了自身的利益,在一定程度上操縱數據的生成與報告的可能性。比如,在Facebook等社交媒體上的民意調查,就有可能對一個國家的政治走向產生影響。而民意調查語言的表述、調查的方式可以影響調查結果,企業在一定程度上就可以根據自身利益來操縱民意了。
簡而言之,天真地認為數據使用者和數據生成機構都是無意識生產大數據、忽略了人們行為背後趨利避害的動機的大數據統計分析,可能對於數據特徵的快速變化迷惑不解,即便看到模型預測表現差,也難以找到行之有效的克服方法。
四、前車之鑒
目前,我國高度重視大數據發展。2015年8月31日,國務院印發《促進大數據發展行動綱要》,系統部署大數據發展工作。《綱要》認為,大數據成為推動經濟轉型發展的新動力(310328,基金吧)、重塑國家競爭優勢的新機遇,和提升政府治理能力的新途徑。《綱要》指出,2018年底前,要建成國家政府數據統一開放平台,率先在信用、交通、醫療等重要領域實現公共數據資源合理適度向社會開放。與此相應,近年來多地成立了大數據管理局、業界學界對於大數據的分析利用也予以熱烈回應。因此,了解大數據分析的優勢與陷阱,對我國的經濟發展和實證研究具有極其重要的意義;而GFT項目折射出的大數據使用中可能存在的機會與問題,都值得關注。
(一) 防範「大數據自大」帶來的風險
GFT案例表明,如果認為大數據可以代替小數據,那麼過度擬合問題可以帶來巨大的估計誤差。這一點在「大眾創業、萬眾創新」的今天尤其需要關注。這是因為大數據作為目前「創新」最閃亮的新元素被高度推崇的,而我國經濟處於轉型時期的特徵,使企業或者機構面對的微觀數據不斷發生動態變化。如果在數據挖掘中忽略這些變化,往往要面臨過度擬合帶來的損失。
例如,我國P2P網貸行業採用的數據體量雖然大多達不到大數據要求的海量數據,但是不少企業熱衷採用爬蟲等技術從社交媒體挖掘信息用於甄別客戶。這些平台健康狀況,就可能與過度擬合的嚴重程度密不可分。 根據中國P2P網貸行業2014年度運營簡報和2015年上半年的運營簡報,在圖一我們可以推算2006年到2004年間和2015年1-5月間月均新增問題平台數,並與2015年6月新增問題平台數作比較。[1]
新增問題平台的大幅增加原因雖然有多方面,但是從數據分析的角度看,由於還沒有合法的數據共享機制,P2P平台在甄別客戶質量時,往往只依靠自身渠道和從社交媒體等挖掘的數據,並採用數據挖掘方法建立相應建立模型。在數據分析中,不少P2P平台往往疏於查考自身樣本的代表性、也忽略宏觀經濟數據和其他微觀數據所包含的信息。由於互聯網金融公司出現時間短、又主要成長於經濟繁榮期,如果單單依賴有限的數據渠道,數據挖掘與機器學習過程對新常態下個體行為沒有足夠的認識,在經濟下行時仍然根據歷史數據而低估逾期率,導致高估平台健康狀況,最終不得不面對問題平台不斷增加的局面。
(二) 大數據和小數據齊頭並進大勢所趨
大數據和小數據各有優劣。簡而言之,小數據通常不會假定該數據就是總體,因此收集數據前往往需要確定收集數據的目標、根據該目標設計的問卷或者收集方法、確定抽樣框。在數據採集後,不同學者往往可以通過將新收集數據與不同數據的交叉驗證,來評估數據的可信度。小數據在收集上有變數定義清晰、數據生成機制基本可控、檢驗評估成本相對較低等優點,但是缺點是數據收集成本高,時間間隔長、顆粒度較粗。
大數據的優勢就包括數據體量大、收集時間短、數據類型豐富,顆粒度很細。但是,由於大數據往往是一些企業和機構經營活動的附帶產品,因此並不是通過精心論證的測度工具生成。另外,由於大數據的體量很大,交叉驗證數據的可信度、不同學者採用相同數據獨立研究以檢驗數據的前後一致性等工作難度較大。這些特點意味著大數據本身未必有科學研究要求的那樣准確、可靠,在數據分析中就需要對大數據適合研究的問題有較清晰的認識。
在與小數據互為補充推動研究與認知方面,大數據大有可為。將大數據與小數據相結合,可以大大提高數據的顆粒度和預測精度。比如對CDC流感發病率的預測研究發現,將GFT採用的大數據和CDC的歷史數據相結合的模型,其預測能力比單獨運用大數據或者小數據要好很多。
大數據往往可以實時生成,對於觀察特定社區的動態具有小數據無可替代的優勢。比如,美國在「九一一」之後,出於快速准確估計在某個特定小社區活動的人口的需要而啟動了「工作單位和家庭住址縱向動態(LEHD)」項目,該項目將人口普查數據、全國公司數據、個人申請失業保險、補貼、納稅等記錄聯通,可以對社區在短時間內的「新陳代謝」作出較為全面的刻畫。
這類的數據結合研究,對於了解我國社會經濟狀況的動態變化會十分重要。一個可能的應用是,將城市人口、工作狀態、性別、年齡、收入等小數據採集的信息,和實時產生的交通狀況相結合,來預測人們的出行特徵,來解決城市交通擁堵、治理霧霾等問題。另一個可能的應用是,推動人民銀行徵信中心個人徵信系統數據和民間徵信系統大數據的結合,建立高質量的中國個人徵信體系。
另外,我國經濟處於轉型時期,有不少政策亟需快速評估政策果效。以小數據為基礎,利用大數據數據量豐富的優勢,可以通過互聯網做一些隨機實驗,來評估一些政策的效果,也是可能的發展方向。
在過去的十多年中,我國在通過非官方渠道採集小數據、特別是微觀實證數據方面取得了長足進展。在多方努力下,更多經過嚴格科學論證而產生的數據可被公眾免費獲得並用於研究。例如,北京大學的「中國健康與養老追蹤調查」、「中國家庭追蹤調查」,都由經濟、教育、健康、社會學等多領域的專家協同參與問卷的設計和數據採集的質控。在這些努力下,小數據的生成機制更為透明,交叉驗證調查數據的可信度等實證研究的必要步驟也更為可行。
但是,目前在小數據的收集和使用、政府和有關機構的小數據開放運用方面,我國還有很大推進空間。只有在對涉及我國基本國情的小數據進行充分學習研究之後,我國學界和業界才能對經濟政治社會文化等領域的基本狀況有較清晰的把握。而這類的把握,是評估大數據質量、大數據可研究問題的關鍵,對推進大數據產業健康發展有舉足輕重的作用。
因此在政策導向上,為要實現大數據、小數據相得益彰推動經濟發展的目標,在促進發展大數據的同時也要大力發展小數據相關產業,推動小數據相關研究與合作,使大數據與小數據齊頭並進、互為補充。
(三)提高大數據使用的透明度,加強對大數據質量的評估
大數據面臨的透明度問題遠比小數據嚴重。在GFT案例中,Lazer等人指出,谷歌公司從未明確用於搜索的45個關鍵詞是哪些;雖然谷歌工程師在2013年調整了數據演算法,但是谷歌並沒有公開相應數據、也沒有解釋這類數據是如何搜集的。我國大數據相關企業的數據,也鮮有學者可以獲得並用於做研究的例子。
與透明度相關的就是大數據分析結果的可復制性問題。由於谷歌以外的研究人員難以獲得GFT使用的數據,因此就難以復制、評估採用該數據分析結果的可靠性。因此利用大數據的研究難以形成合力,只能處於案例、個例的狀態。
另外還要注意到,如果數據生成機制不清晰,研究結論難以復制,而演算法演化也表明,最終數據往往成為使用者和設計者共同作用的結果。這種數據生成的「黑箱」特徵,容易成為企業或者機構操縱數據生成過程和研究報告結果的溫床。唯有通過推動大數據的透明化、公開化,我們才能在大數據產業發展之初,建立健康的數據文化。
因此,在大數據時代,為了更好利用大數據,需要採取相關措施,增加在大數據生成過程的透明度方面的努力。例如,採取措施推進數據生成企業在妥善處理隱私信息後,定期公布大數據隨機抽樣數據、要求數據生成企業及時公布數據演算法的變更,鼓勵採用大數據的研究實現可復制性、便於交叉驗證等。
五、結語
目前有些流行觀點認為,在大數據時代,技術容許人們擁有了總體因此抽樣不再重要、另外由於數據挖掘術的進展,只需關心相關關系而不必再關心因果關系。而GFT的實例表明,即便谷歌公司用於GFT計算的是數十億的觀測值,也不能認為谷歌公司擁有了流感人群的總體。誤認為數據體量大就擁有了總體,就無法謙卑結合其他渠道的小數據,得到更為穩健的分析結論。而GFT估計的偏誤原因,從來都離不開人們的主動的行為-- 無論是谷歌公司自己認為的GFT的流行導致更多人使用該搜索、還是Lazer等人認為的演算法變化、丟棄異常值。因此,不明白數據生成機理變化的原因而只看相關關系的後果,於谷歌是GFT的計算偏誤丟了臉,而對熱情地投身於採用大數據到創新、創業中的中國民眾和相關機構來說,則可能是不得不面對事先沒有預備的重大經濟損失。
以上是小編為大家分享的關於從谷歌流感趨勢談大數據分析的光榮與陷阱的相關內容,更多信息可以關注環球青藤分享更多干貨
② 大數據的價值及商業模式探尋
大數據的價值及商業模式探尋
大數據的價值谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背後找到更符合用戶興趣和習慣的產品和服務,並對產品和服務進行針對性地調整和優化,這就是大數據的價值。大數據也日益顯現出對各個行業的推進力。 大數據時代來臨首先由數據豐富度決定的。社交網路興起,大量的UGC(互聯網術語,全稱為User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。另外,物聯網的數據量更大,加上移動互聯網能更准確、更快地收集用戶信息,比如位置、生活信息等數據。從數據量來說,目前已進入大數據時代,但現在的硬體明顯已跟不上數據發展的腳步。 以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而現在提及「大數據」,通常是指解決問題的一種方法,即通過收集、整理生活中方方面面的數據,並對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。 雖然大數據目前在國內還處於初級階段,但是商業價值已經顯現出來。首先,手中握有數據的公司站在金礦上,基於數據交易即可產生很好的效益;其次,基於數據挖掘會有很多商業模式誕生,定位角度不同,或側重數據分析。比如幫企業做內部數據挖掘,或側重優化,幫企業更精準找到用戶,降低營銷成本,提高企業銷售率,增加利潤。 未來,數據可能成為最大的交易商品。但數據量大並不能算是大數據,大數據的特徵是數據量大、數據種類多、非標准化數據的價值最大化。因此,大數據的價值是通過數據共享、交叉復用後獲取最大的數據價值。在他看來,未來大數據將會如基礎設施一樣,有數據提供方、管理者、監管者,數據的交叉復用將大數據變成一大產業。據統計,目前大數據所形成的市場規模在51億美元左右,而到2017年,此數據預計會上漲到530億美元。
大數據的商業模式
國內網路廣告投放正從傳統的面向群體的營銷轉向個性化營銷,從流量購買轉向人群購買。雖然市場大環境不好,但是具備數據挖掘能力的公司卻倍受資本青睞。 大數據是一個很好的視角和工具。從資本角度來看,什麼樣的公司有價值,什麼樣的公司沒有價值,從其擁有的數據規模、數據的活性和這家公司能運用、解釋數據的能力,就可以看出這家公司的核心競爭力。而這幾個能力正是資本關注的點。 移動互聯網與社交網路興起將大數據帶入新的征程,互聯網營銷將在行為分析的基礎上向個性化時代過渡。創業公司應用「大數據」告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容等,這正好切中了廣告商的需求。 社交網路產生了海量用戶以及實時和完整的數據,同時社交網路也記錄了用戶群體的情緒,通過深入挖掘這些數據來了解用戶,然後將這些分析後的數據信息推給需要的品牌商家或是微博營銷公司。 實際上,將用戶群精準細分,直接找到要找的用戶正是社交內容背後數據挖掘所帶來的結果。而通過各種演算法實現的數據信息交易,正是張文浩為自己的社交數據挖掘公司設計的盈利模式。目前,這家僅僅五六個人的小公司拿到了天使投資。未來的市場將更多地以人為中心,主動迎合用戶需求,前提就是要找到這部分人群。 在移動互聯網領域,公司從開發者角度找到數據挖掘的方向,通過提供免費的技術服務,幫助開發者了解應用狀況。
③ google為廣告廠商創造了什麼價值
這是純營銷方面的東西,是營銷中一個研究方向,和傳播聯系起來關系並不大,當然你可以寫寫長尾市場傳播策略什麼的,你把上面的東西看懂了在找導師說去,寫導師看不懂的東西好處就是很容易過,因為他根本挑不出問題來。
TheLongTail:長尾理論
TheLongTailEffect:長尾效應
一、「長尾」的由來及含義:
根據維基網路,長尾(TheLongTail)這一概念是由「連線」雜志主編ChrisAnderson在2004年十月的「長尾」一文中最早提出,用來描述諸如亞馬遜和Netflix之類網站的商業和經濟模式。
「長尾」實際上是統計學中PowerLaws和帕累托(Pareto)分布特徵的一個口語化表達。
舉例來說,我們常用的漢字實際上不多,但因出現頻次高,所以這些為數不多的漢字占據了上圖廣大的紅區;絕大部分的漢字難得一用,它們就屬於那長長的黃尾。
Chris認為,只要存儲和流通的渠道足夠大,需求不旺或銷量不佳的產品共同占據的市場份額就可以和那些數量不多的熱賣品所佔據的市場份額相匹敵甚至更大。
二、「長尾」的定義:
「長尾」至今尚無正式定義,ChrisAnderson認為,最理想的長尾定義應解釋「長尾理論」的三個關鍵組成部分:
熱賣品向niches的轉變
富足經濟(theeconomicsofabundance)
許許多多小市場聚合成一個大市場
目前最接近的定義是:
「長尾實現的是許許多多小市場的總和等於,如果不是大於,一些大市場」_JasonFoster
「長尾就是當籍籍無名的變成無處不在的時候你可以得到的」_EricAkawie
「長尾就是80%的過去不值得一賣的東西」_Greg
「長尾講述的是這樣一個故事:以前被認為是邊緣化的、地下的、獨立(藝人?)的產品現
在共同占據了一塊市場份額,足以可與最暢銷的熱賣品匹敵」_BobBaker
最佳口號:
「涓涓細流,匯聚成河」—JoshuaWood
「終結二八定律!」—EricEtheridge
「無物不銷,無時不售!」—JimTreacher
「一個小數乘以一個非常大的數字等於一個大數!」—RajeshJain
三、成功的「長尾」案例:
1、Google是一個最典型的「長尾」公司,其成長歷程就是把廣告商和出版商的「長尾」商業化的過程。
數以百萬計的小企業和個人,此前他們從未打過廣告,或從沒大規模地打過廣告。他們小得讓廣告商不屑,甚至連他們自己都不曾想過可以打廣告。但Google的AdSense把廣告這一門檻降下來了:廣告不再高不可攀,它是自助的,價廉的,誰都可以做的;另一方面,對成千上萬的Blog站點和小規模的商業網站來說,在自己的站點放上廣告已成舉手之勞。
Google目前有一半的生意來自這些小網站而不是搜索結果中放置的廣告。數以百萬計的中小企業代表了一個巨大的長尾廣告市場。這條長尾能有多長,恐怕誰也無法預知。
2、亞馬遜:
一個前亞馬遜公司員工精闢地概述了公司的「長尾」本質:現在我們所賣的那些過去根本賣不動的書比我們現在所賣的那些過去可以賣得動的書多得多。
此外還有很多,諸如維基網路、Netflix等等。
四、長尾的啟示:
1、對一些公司來說,長尾理論是對二八定律的顛覆。在全新的商業模式下,公司的利潤不再依賴傳統的20%的」優質客戶」,而是許許多多原先被忽視的客戶,他們數量龐大,足則正以讓你掙得盆滿缽滿;從公司產品的角度分析,拳頭產品主打市場的老套路將趨末路;
2、許多市場面臨新的契機,長尾電視、長尾音樂、長尾設計還有什麼是或盯粗拖著長尾的?很多,想想看?
3、一衫鎮批博客、播客將從這「長尾」中受益。(中國情況特殊,不在此結論中)
4、長尾中將誕生許許多多的微中心,甚至不排除一些微中心成長成新的中心,如Google。
5、中心永遠都會有,它們並不會因為微中心的崛起就被「去掉」。
轉自:
長尾理論挑戰二八定律
近日在AdAge上看到北美廣播巨頭紛紛有大動作,心想莫非失落的媒體卷土重來?開始關注並嘗試著寫一篇觀察出來。在紛繁復雜的相關行業信息中搜索的過程中,碰到Podcasting(中文暫時有部分嘗鮮者譯為「播客」)這個新概念,基於RSS技術的Podcasting和Blog如出一轍,只是信息載體不同於Blog的文字而是聲音,廣播廠商利用此技術讓受眾能夠輕松下載想聽的內容到攜帶型音樂設備,方便隨時收聽;另一方面,衛星廣播推出訂閱服務,將一些更深入的內容,更獨家的訪問作為收費服務,創造了一定規模的固定忠實用戶,對於廣告主和媒體公司而言,其蘊涵巨大商機。
原來新時期的廣播行業已經慢慢褪去大眾媒體的光彩,搖身一變針對固定細分市場的分眾媒體。XM和Siruis紛紛推出更細分更專業的廣播頻道,而新的廣播公司通過傳媒巨子的合作也粉墨登場。融合了互聯網技術後,廣播行業呈現出一股新氣象。
追根溯源,必然會有理論依據支撐行業現象。於是,長尾理論出現,和二八定律產生直接沖突。所謂長尾理論(TheLongTail),從統計學中一個形狀類似「恐龍長尾」的分布特徵的口語化表述演化而來。查閱維基網路有關「長尾」的條目,得知由一雜志主編ChrisAnderson於去年十月提出,他認為,只要存儲和流通的渠道足夠大,需求不旺或銷量不佳的產品共同占據的市場份額就可以和那些數量不多的熱賣品所佔據的市場份額相匹敵甚至更大。
舉一個市場的例子,亞馬遜網上書店成千上萬的商品書中,一小部分暢銷書占據總銷量的一半,而另外絕大部門的書雖說個別銷量小,但憑借其種類的繁多積少成多,占據了總銷量的另一半。從「長尾理論」模型圖中可以發現,紅色區域和藍色區域的面積大約相等。
《當代廣告》和《廣告和促銷》兩本原版專業教材讓我記住了二八定律,不僅作用於營銷市場。同樣適用於生活中的一些存在競爭的情況。百分之二十的消費者購買百分之八十的某一類商品,而百分之八十的消費者只購買另外百分之二十的商品,廠商便稱那百分之二十的消費者為」品牌忠誠者「,其數量的增加必然帶動另外百分之八十的」品牌搖擺者「的數量,並保持二八比例不變。傳統營銷手段受制於薄弱的技術和高昂的成本,即使NIKE推出制訂運動鞋的服務,也是基於大規模生產的基礎和高出一般水平的價格,而互聯網技術的不斷發展,讓我們看到了二八定律失效的可能性。
國內的三大門戶網站,加上新進的TOM、QQ,和中華網、新華網一起構成網路新聞信息的供應主力部隊,那麼散落在各個BSP(博客服務供應商)上難以計算的博客們是不是就是那條長長的信息尾巴呢?主力網路媒體畢竟規模有限,而博客們的隊伍則繼續壯大,兩者不同的地方只在於訪問率(類比市場銷量,加以思考)而已。再偏門再邊緣的信息也有需要,因此我們可以說,長長的尾巴里有那些紅色區域所不能滿足我們的東西。換言之,如果技術的成熟和成本的保證得以完成,二八定律在互聯網相關產業上便宣告失效。
窄告廣在國內的異軍突起是個很好的例子,窄告靠的不只是噱頭十足的概念,而是創始人張向寧在萬網時期就開始醞釀的上下文廣告盈利模式。主流網路廣告的形式不外乎橫幅式、彈出式、背投式、浮動式等沖擊眼球的動感模式,大部分廣告主都是知名品牌和實力廠家,而上下文廣告很好的運用了同網頁內容的相關性和點擊計費的收費模式,給予成千上萬小企業和個人工作室有效推廣自己到達目標受眾,提高營銷效率。窄告作為中國上下文廣告的代表,成功佔領大半主流網路媒體,如今每月收入100萬元,良好的發展趨勢成了同類產品GoogleAdsense本地化的最大障礙。當然,後者在歐美市場的成功同樣和窄告在中國市場的爆發是同樣道理,隨著」長尾「越拖越長,上下文廣告前景一片光明。
從目前來看,傳統營銷市場還是二八定律的天下,而以RSS技術為基礎的Blog和Podcasting,搜索引擎廣告,上下文廣告,還有網上拍賣行業、網上招聘行業,公關危機在線解決方案都能夠從」長尾理論「中獲益。
轉自:
挖掘Blog長尾的廣告價值
Google最早發現了眾多小站作為廣告平台的價值,利用GoogleAdsense幾乎將整個互聯網都變成了Google的廣告平台。Blog的普及讓這個平台得到了更大程度的擴展,挖掘這條越來越長的尾巴的廣告價值也成了很多人關注的市場機會。
根據Sohu的Blog調查數據,有19.6%的Blogger願意與Blog服務商分享廣告收益,顯然通過Blog廣告獲取收益會頗為吸引人。而Qumana曾經做過一個調查,雖然有不少Blogger都接受在Blog中放置廣告,但能夠靠Blog來賺錢的blogger還只佔較低的比例,我想除了Blog本身的訪問量較低,讀者較少點擊廣告等原因外,廣告與文章的相關性較低也是一個重要的影響因素。
在Qumana的調查中,使用GoogleAdsense的blogger佔了絕大多數。盡管GoogleAdsense是依據Google強項的分詞和搜索進行相關匹配顯示與blog內容相關的廣告,但由於Blogger對於所顯示的廣告內容沒有任何的選擇和決定權,因此可能造成相關性匹配程度並不高,或者出現廣告內容是blogger所不喜歡的公司(比如抵制日貨的blogger網站上出現日貨廣告)等等情況。於是,一些新公司開始進入這一市場,為blogger提供可自主定製的廣告內容。比如Qumana的Adgenta以及FeedWeaver,它們都可以讓blogger們自行決定每篇文章的關鍵字,或者說tag,使文章與廣告的相關性更強,也可以讓blogger有權根據自己對讀者特徵的理解而決定廣告的內容,從而可能讓廣告更吸引讀者,也獲取更高的廣告收益,而且這些廣告不僅僅可以在blog上顯示,也可以添加到RSS中。
Qumana近日還發布了新版的Blogging客戶端工具,讓用戶在本地書寫blog的同時就可以方便地選擇發布的廣告內容、形式、位置等等,為blogger的廣告發布提供了更快捷方便的方式。如果Qumana的廣告內容足夠豐富,收益分享的信譽良好,日後應該能夠吸引到不少blogger加盟。
Blogger這條長長的尾巴的價值,在國外已經得到越來越多人的重視,而國內的廣告業還在執著於門戶網站的廣告投放,什麼時候會有國內的Blog廣告網路出現呢?
轉自:
長尾霍霍互聯網:二八定律失效?
曾讀過一位英國登山者所寫的《觸及巔峰》(TouchingtheVoid)的書么?講述兩名英國登山者在秘魯安第斯山脈的歷險故事。讓人興奮的並不是這本書的內容,而是它成功登上《紐約時報》的圖書暢銷榜、並被改編成電影記錄片背後的故事——這本書出版於1988年,成功卻在10年之後。
這10年間發生了什麼?是什麼力量使它重返市場?在技術的加速發展和創新的不斷涌動下,互聯網發生了不可思議的變革。
一本已被遺忘的書憑借互聯網再度火起來—亞馬遜網站將其列在同類新書的選擇參考之列,並附上了其他讀者的評價留言,使這本早被湮沒在茫茫書海中的作品再次有了面對讀者的機會。這機會不再曇花一現,而是將永遠持續,其發行銷售的渠道將被無限延伸下去。
2004年10月,《連線》雜志主編ChrisAnderson在一篇文章中,首次提出了一個「長尾理論」(Thelongtail)來解釋這一現象:只要渠道足夠大,非主流的、需求量小的商品銷量也能夠和主流的、需求量大的商品銷量相匹敵。這是對傳統的「二八定律」的徹底叛逆。
盡管聽上去有些學術的味道,但事實上這不難理解——人類一直在用二八定律來界定主流,計算投入和產出的效率。它貫穿了整個生活和商業社會。這是1897年義大利經濟學家帕累托歸納出的一個統計結論,即20%的人口享有80%的財富。當然,這並不是一個准確的比例數字,但表現了一種不平衡關系,即少數主流的人(或事物)可以造成主要的、重大的影響。以至於在市場營銷中,為了提高效率,廠商們習慣於把精力放在那些有80%客戶去購買的20%的主流商品上,著力維護購買其80%商品的20%的主流客戶。
在上述理論中被忽略不計的80%就是長尾。ChrisAnderson說:「我們一直在忍受這些最小公分母的專制統治我們的思維被阻塞在由主流需求驅動的經濟模式下。」但是人們看到,在互聯網的促力下,被奉為傳統商業聖經的「二八定律」開始有了被改變的可能性。這一點在媒體和娛樂業尤為明顯,經濟驅動模式呈現從主流市場向非主流市場轉變的趨勢。
亞馬遜網站的一位員工表示,許多從前傳統渠道賣不動的書,在這里的銷量很好。亞馬遜為窄眾群體提供了個性化的選擇機會,對需求量小的商品進行了精細的劃分,從而延展了渠道。這種「無物不銷,無時不售」的模式為消費者提供了無限制的多樣性選擇。相對於傳統的人為界定的有限選擇,這種無限制性的選擇更側重於從客戶的需求出發,注重客戶的體驗。
這種細分也使得蘋果公司的iTunes在線音樂商店獲得了巨大的成功。如果消費者只想聽一首歌曲,為何要強迫其去購買整張CD呢?兩年前,蘋果正是看透了這一商機,在網站上為用戶提供正版單曲銷售。就是這99美分和15美元的差距,使得蘋果目前已經賣出了5億首單曲,同時其MP3播放器iPod的銷售量也藉此在不斷攀升。
根據用戶不同的需求做文章的不僅僅是蘋果公司。為了應對iTunes的99美分策略,同樣覬覦這個市場的雅虎推出了6.99美元包月、60美元包年的下載策略。對此,《華爾街日報》專欄作家沃爾特·莫斯博格評價說:「如果用戶有60美元的零花錢,想嘗試一下音樂下載服務,且所使用的播放器也不是iPod,那麼雅虎或許是一個最好的選擇。」其實,雅虎早在兩年前就已經開始下手,為進軍英國市場,收購了當地人氣旺盛的音樂網站Dotmusic.com和游戲網站GamesDomain.co.uk。
在互聯網商業模式破曉時分,曾有人提出過一個「微支付」的概念,即通過為用戶提供下載音樂和游戲服務盈利,但在當時並沒有得以實現。隨著互聯網技術和模式的不斷成熟,以及在互聯網上創業的中小企業越來越多,這個曾經破滅的希望再度被人們拾起。雅虎目前已經實現了這種微支付體系。
這種通過「小錢賺大錢」的商業模式在電子商務領域也獲取了成功。eBay就是一個經典的例子。作為一家線上拍賣網站,eBay開創了一種買主同時也是賣主的史無前例的商業模式,讓數量眾多的小企業和個人通過它的平台進行小件商品的銷售互動,從而創造了驚人的交易量和利潤。它的成功讓人們看到,只要將尾巴拖得足夠長,就會聚沙成塔,產生意想不到的驚人效果。
Google的成功就在於它找到並鑄就了一條長尾。以占據了Google半壁江山的AdSense為例,它面向的客戶是數以百萬計的中小型網站和個人—對於普通的媒體和廣告商而言,這個群體的價值微小得簡直不值一提,對他們所能提供的那點錢更是看不上眼。但是Google通過為其提供個性化定製的廣告服務,將這些數量眾多的群體匯集起來,形成了非常可觀的經濟利潤。目前,Google的市值已超過800億美元,被認為是「最有價值的媒體公司」,遠遠超過了那些傳統的老牌傳媒。
符合長尾理論的許多市場呈現出新的契機,互聯網為其發展提供了溫床。掀起電信及媒體運營革命浪潮的VoIP、IPTV等產業或許就是下一批長尾的受益者。而對於博客、播客等社會性軟體而言,長尾理論或許也是其尋找商業模式的一個良好的理論支點。
長尾霍霍,一場變革暗涌。(編譯|李洋)
轉自:
ChrisAnderson的長尾理論
說在前面
時下關於長尾的文章很多,但似乎很多人的理解都不一致。剛剛讀過Chris關於LongTail的那篇文章,給了我很多啟發。(Chris正在准備關於長尾的書,將於2006年5月出版。)
長尾的淵源
對於如何抓住長尾市場,Chris提出了三項法則:
Rule1:讓所有的東西都可以獲得。(Makeeverythingavailable)
Rule2:將價格減半,現在讓它更低。(Cutthepriceinhalf.Nowlowerit.)
Rule3:幫我找到它!(Helpmefindit!)
需要指出的是,Chris所謂的長尾是基於互聯網技術的出現以及針對傳媒業來說的。之所以存在長尾,是因為傳統企業難以照顧到的那部分消費者的需求,可以被重新挖掘而產生商機。
同樣的,自從Chris提出長尾以後,很多學者以及從業人士都開始了對此開始了研究。一個名為NicholasCarr』sBlog的作者Carr提出了一個概念:HeadPhake。其中的Phake是Fake的委婉說法。HeadPhake就是「偽主流」的意思。在既然有長尾(LongTail),就有頭部(Head),也就是那些主流商品。而互聯網的技術可以將那些不是主流的商品(如歌曲)與主流商品(歌曲)放在一起,形成消費者一種「誤解」,以為那也是主流。如果這些非主流很好的話,就自然而然成為主流。這就是互聯網的偉大之處。
超女是長尾現象嗎?
根據Chris的觀點,我認為超女並不是所謂的長尾現象。如何判定什麼是長尾現象尚沒有一個標准。但是,一個基本的原則就是長尾就是那些由於傳統商業的限制,以及消費者自身的約束,而忽略的那些市場需求。超女雖然說滿足了中國那種已久的民主情結,但超女原本可以很早就出現的,而不是受到了現實世界的約束。這樣,我們可以說超女的成功是抓住了民眾的心理,是市場操作的成功。它的消費群體長期以來並沒有被忽視,而只是商家沒有提供一個像超女這樣的形式去抓住他們。
長尾第一,品牌第二?
對於長尾的出現,一些朋友提出了品牌的作用將受到削弱,這多是因為當前傳統的營銷並沒有抓住那些被忽略的群體和需求。我想看完Chris的文章後,我們就會發現這種理解是錯誤的。傳統市場由於成本的約束,譬如一家音像店不可能為了區區幾個顧客的需求而讓一些非主流的CD上架,商家只能專注那些足夠規模的需求,品牌在此發揮了作用。而由於互聯網技術的出現,一些未被開發的需求可以被利用了,也就是長尾可以被利用了,這是品牌的作用依然關鍵。為什麼會有人去蘋果的iTune下載歌曲,這就是蘋果的品牌效應。因此,長尾和品牌不是矛盾的,而是兩個不同類別的概念。長尾或者說長尾理論告訴我們,通過技術可以將那些「縫隙市場(NicheMarkets)」再次整合起來,形成利潤來源。而品牌是一種產品受到關注的方式。同樣的,既然有利潤就會有競爭,長尾如果利潤空間足夠吸引人的話,在這些市場的競爭也許可能比主流市場的競爭更為激烈。而誰能夠獲勝?依然是那種能夠形成獨特並持久的「顧客-品牌關系」的公司。
結語
④ 谷歌擁有如此多樣的產品組合,它的核心價值是什麼
谷歌有十大價值觀:
1、以用戶為中心,其他一切水到渠成。
2、心無旁騖、精益求精。
3、快比慢好。
4、網路的民主作風。
5、獲取信息的方式多種多樣,不必非要坐在台式機前。
6、不做壞事也能賺錢。
7、信息永無止境。
8、信息需求,沒有國界。
9、沒有西裝革履也可以很正經。
10、沒有最好,只有更好。
谷歌創始人之一拉里·佩奇指出:「完美的搜索引擎需要做到確解用戶之意,且返用戶之需」。就搜索技術的現狀而言,我們需要通過研究、開發和革新來實現長遠的發展。谷歌致力於成為這一技術領域的開拓者。盡管 谷歌已是全球公認的業界領先的搜索技術公司,但其目標是為所有信息搜尋者提供更高標準的服務。
在谷歌,要求工程師們每周都花一天時間在個人感興趣的項目上。這種近乎強制性的要求造成Google News之類鏈橋的新服務品種出現,根據Nielsen NetRatings的數前喚輪據顯示,這項服務每個月都能吸引710萬瀏覽者,同時也導致了社區網路站點Orkut的出現,已經被整合到整個搜索網站之中。
谷歌里的每一個人都充滿了故事:與你共進午餐的人或許發明了你在使用的編程語言;坐在你隔壁的同事或許為你的研究生課程編寫過教材;和你一起打檯球的那個人或許開發過你的桌面瀏覽器。
公司還提供免費的班車和渡輪服務接載雇員上班,這些交通工具都有無線互聯網服務,方便員工在上慧信下班時也可以工作。
⑤ 谷歌公司的核心品牌價值觀是什麼
谷歌有十大價值觀:
1、以用戶為中心,其他一切水到渠成。
2、心無旁騖、精益求精。
3、快比慢好。
4、網路的民主作風。
5、獲取信息的方式多種多樣,不必非要坐在台敗猜式機前。
6、不做碧敏壞事也能賺錢。
7、信息察慧型永無止境。
8、信息需求,沒有國界。
9、沒有西裝革履也可以很正經。
10、沒有最好,只有更好。
(5)谷歌公司收集的數據有什麼價值擴展閱讀
谷歌經營的主要業務:
1、谷歌搜索引擎。Google搜索引擎主要的搜索服務有:網頁,圖片,音樂,視頻,地圖,新聞,問答。
2、Google Play應用商店。2014年,谷歌計劃面向中國市場上推出Google Play應用商店,希望藉此在中國市場獲得更大的影響力。在當前中國市場上,約有一半用戶使用了谷歌的Android移動操作系統。
3、Google Video。2005年1月25日,谷歌公司推出Google Video服務,該服務可以通過谷歌網站搜索網路上的各種視頻文件,或播出的電視節目。Google Video根據關鍵詞提供相關的視頻內容下載或播放連接,並提供視頻內容的預覽畫面。
4、Google Answers。2002年4月,谷歌啟動了名為「Google Answers」的新服務。Google Answers是傳統搜索功能的擴展-用戶不用自己搜索內容,他們請專家搜索然後付費。顧客問問題,並為問題提供一個相應的價錢,然後研究者們回答他們的問題。
⑥ 大數據是什麼有什麼價值作用
「大數據」是指以多元形式,自許多來源搜集而來的龐大數據組,往往具有實時性。在企業對企業銷售的情況下,這些數據可能得自社交網路、電子商務網站、顧客來訪紀錄,還有許多其他來源。這些數據,並非公司顧客關系管理資料庫的常態數據組。
大數據的應用其實早已滲透到人們生活中的並段廳方方面面:亞馬遜運用大數據為客戶推薦商品信息,阿里用大數據成立了小微金融服務集團,而谷歌更是計劃用大數據接管世界??當下,很多行業都開始增加對大數據的需求。大數據時代不僅處理著海量的數據,同時也加工、傳播、分享它們。不知不覺中,數據可視化已經遍布我們生活的每一個角落,畢竟普通用戶往往更關心結果的展示。伴隨去年底網路地圖採用LBS定位春運的可視化大數據,就引起了學界對新聞創新和大數據可視化的熱議。
1、根據銷售費習慣以及需求為其推薦更加適合的產品,因此相關服務的企業可以利用大數據進行精準營銷,從而實現雙贏互利的作用;
2、當企業遇到瓶頸或者行業遭遇困境的時候,中小微企業可以利用大數據快速反應做好服務轉型;
3、企業戰略布局以及資源配置的環節,可以通過大數據找到更加貼近事實的一句,同時對於面臨互聯網壓力之下必須轉型的傳統企業提供與時俱進的契機。
企業組織利用相關數據和分析,可以幫助它們實現降低成本、提高效率、開發新產品、做出更明智的業務決策等等目標。下面是一些關於大數據應用目前已經可以解決的問題:
1、及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元;
2、為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵;
3、分析所有SKU,以利潤最大化為目標來定價和清理庫存;
4、根據客戶的購買習慣,為其推送他可能感興趣的優惠信息;
5、從大量客戶中快速識別出金牌客戶;
6、使用點擊流分析和數據挖掘來規避欺詐行為。
一、技術價值
大數據,根本上與數學、統計學、計算機學、數據學等基本理論知識無法分割,技術水平突飛猛進給數字領域帶來最直接的躍進。
App研發應用、資料庫編寫應用等促進人類社會技術進步的價值都來源於大數據的發明和運營。
大數據不僅創造了新的計算方式、技術處理方式,更加為其他技術的研發、應用和落地提供基礎,例如人工智慧等。
大數據中客戶與企業進行交易的數據,是大數據技術價值的核心映射。客戶的交易行為通過企業內部系統留存,基本以「事後」數據為主。
交易數據是推進企業數據驅動業務,與客戶聯系溝通、獲得有效和分析數據的初級門檻,無論大數據獲取能力如何發展,直接的交易信息永遠都是第一有效和值得關注的。
淘寶的交易分析報告中提到,大額買單後的重購次單和同店重購次單比例分別為25.0%和16.8%,要明顯高於普通買單的18.8%和10.7%,則表示在首次買單獲取了對賣家服務和商品質量的信任後,次單完全存在放大金額的可能,並且比普通買單的可能要高得多。
由此引導賣家增進服務、堅守質量,並適時推出捆綁推薦,以求同類商品同店大額下單的幾率。
只有有了大數據的處理技術,交易行為才能夠得到記錄分析,企業的大數據技術研發、應用和落地才能擁有基礎,以開發更新更適合時代的企業產業。
目前有很多傳統企業盲目行走大燃嘩數據的道路,但其實大數據技術能力並沒有建立起來,真正獲得了有效數據並得以分析利用的就很少,很多該做的「埋點」沒有做,數據的統計也缺乏技術支撐。
這時大數據的技術價值就會顯得尤為重要,且是所有價值的基礎,一梁塌,全屋倒。
無法自主革新的企業會求助一些以提供大數據服務為產品的新型公司,也就催生了各種大數據公司雨後春筍般的出現,至於這些公司如何為傳統轉型服務在後面會提到。
二、商業價值
在實際的升級運行中,習慣於傳統經營的企業也許經常會為這樣幾個基礎的問題感到困惑:如何提升運營現狀?目標客群是誰?有哪些特點?與競品相比競爭優勢在哪?現有經營問題又是什麼?
而這些看似簡單的問題背後卻隱藏著海量數據的分析挖掘:客流數據、經營數據、以往活動相關數據、場內店鋪絕隱信息、競品數據,類此種種的深入透析才能幫助企業畫像潛客、分析經營、建立會員體系、策劃活動執行。
單就運營而論,數據作為一種度量方式,能夠真實的反映運營狀況,幫助企業進一步了解產品、了解用戶、了解渠道進而優化運營策略。
⑦ 大數據的七大核心價值
移動互聯時代 大數據的應用價值
隨著大數據的發展,企業也越來越重視數據相關的開發和應用,從而獲取更多的市場機會。一方面,大數據能夠明顯提升企業數據的准確性和及時性;此外還能夠降低企業的交易摩擦成本;更為關鍵的是,大數據能夠幫助企業分析大量數據而進一步挖掘細分市場的機會,最終能夠縮短企業產品研發時間、提升企業在商業模式、產品和服務上的創新力,大幅提升企業的商業決策水平,降低了企業經營的風險。
一、大數據助企業挖掘市場機會探尋細分市場
大數據能夠幫助企業分析大量數據而進一步挖掘市場機會和細分市場,然後對每個群體量體裁衣般的採取獨特的行動。獲得好的產品概念和創意,關鍵在於我們到底如何去搜集消費者相關的信息,如何獲得趨勢,挖掘出人們頭腦中未來會可能消費的產品概念。用創新的方法解構消費者的生活方式,剖析消費者的生活密碼,才能讓吻合消費者未來生活方式的產品研發不再成為問題,如果你了解了消費者的密碼,就知道其潛藏在背後的真正需求。大數據分析是發現新客戶群體、確定最優供應商、創新產品、理解銷售季節性等問題的最好方法。
在數字革命的背景下,對企業營銷者的挑戰是從如何找到企業產品需求的人到如何找到這些人在不同時間和空間中的需求;從過去以單一或分散的方式去形成和這群人的溝通信息和溝通方式,到現在如何和這群人即時溝通、即時響應、即時解決他們的需求,同時在產品和消費者的買賣關系以外悶告鬧,建立更深層次的夥伴間的互信、雙贏和可信賴的關系。
大數據進行高密度分析,能夠明顯提升企業數據的准確性和及時性;大數據能夠幫助企業分析大量數據而進一步挖掘細分市場的機會,最終能夠縮短企業產品研發時間、提升企業在商業模式、產品和螞罩服務上的創新力,大幅提升企業的商業決策水平。因此,大數據有利於企業發掘和開拓新的市場機會;有利於企業將各種資源合理利用到目標市場;有利於制定精準的經銷策略;有利於調整市場的營銷策略,大大降低企業經營的風險。
企業利用用戶在互聯網上的訪問行為偏好能為每個用戶勾勒出一副「數字剪影」,為具有相似特徵的用戶組提供精確服務滿足用戶需求,甚至為每個客戶量身定製。這一變革將大大縮減企業產品與最終用戶的溝通成本。例如:一家航空公司對從未乘過飛機的人很感興趣(細分標準是顧客的體驗)。而從未乘過飛機的人又可以細分為害怕飛機的人,對乘飛機無所謂的人以及對乘飛機持肯定態度的人(細分標準是態度)。在持肯定態度的人中,又包括高收入有能力乘飛機的人(細分標準是收入能力)。於是這家航空公司就把力量集中在開拓那些對乘飛機持肯定態度,只是還沒有乘過飛機的高收入群體。通過對這些人進行量身定製、精準營銷取得了很好的效果。
二、大數據提高決策能力
當前,企業管理者還是更多依賴個人經驗和直覺做決策,而不是基於數據。在信息有限、獲取成本高昂,而且沒有被數字化的時代,讓身居高位的人做決策是情有可原的,但是大數據時代,就必須要讓數據說話。
大數據能夠有效的幫助各個行業用戶做出更為准確的商業決策,從而實現更大的商業價值,它從誕生開始就是站在決策的角度出發。雖然不同行業的業務不同,所產生的數據及其所支撐的管理形態也千差萬別,但從數據的獲取,數據的整合,數據的加工,數據的綜合應用,數據的服務和推廣,數據處理的生命線流程來分析,所有行業的模式是一致的。
這種基於大數據決策的特點是:一是量變到質變,由於數據被廣泛挖掘,決策所依據的信息完整性越來越高,有信息的理性決策在迅速擴大,拍腦袋的盲目決策在急劇縮小。二是決策技術含量、知識含量大幅度提高。由於雲計算出現,人類沒有被海量數據所淹沒,能夠高效率駕御海量數據,生產有價值的決策信息。三是大數據決策催生友梁了很多過去難以想像的重大解決方案。如某些葯物的療效和毒副作用,無法通過技術和簡單樣本驗證,需要幾十年海量病歷數據分析得出結果;做宏觀經濟計量模型,需要獲得所有企業、居民以及政府的決策和行為海量數據,才能得出減稅政策最佳方案;反腐倡廉,人類幾千年歷史都沒解決,最近通過微博和人肉搜索,貪官在大數據的海洋中無處可藏,人們看到根治的希望等等。
如果在不同行業的業務和管理層之間,增加數據資源體系,通過數據資源體系的數據加工,把今天的數據和歷史數據對接,把現在的數據和領導和企業機構關心的指標關聯起來,把面向業務的數據轉換成面向管理的數據,輔助於領導層的決策,真正實現了從數據到知識的轉變,這樣的數據資源體系是非常適合管理和決策使用的。
在宏觀層面,大數據使經濟決策部門可以更敏銳地把握經濟走向,制定並實施科學的經濟政策;而在微觀方面,大數據可以提高企業經營決策水平和效率,推動創新,給企業、行業領域帶來價值。
三、大數據創新企業管理模式,挖掘管理潛力
當下,有多少企業還會要求員工像士兵一樣無條件服從上級的指示?還在通過大量的中層管理者來承擔管理下屬和傳遞信息的職責?還在禁止員工之間談論薪酬等信息?《華爾街日報》曾有一篇文章就說,NO。這一切已經過時了,嚴格控制,內部猜測和小道消息無疑更會降低企業效率。一個管理學者曾經將企業內部關系比喻為成本和消耗中心,如果內部都難以協作或者有效降低管理成本和消耗,你又如何指望在今天瞬息萬變的市場和競爭環境下生存、創新和發展呢?
我們試著想想,當購物、教育、醫療都已經要求在大數據、移動網路支持下的個性化的時代,創新已經成為企業的生命之源,我們還有什麼理由還要求企業員工遵循工業時代的規則,強調那種命令式集中管理、封閉的層級體系和決策體制嗎?當個體的人都可以通過佩戴各種感測器,搜集各種來自身體的信號來判斷健康狀態,那樣企業也同樣需要配備這樣的感測系統,來實時判斷其健康狀態的變化情況。
今天信息時代機器的性能,更多決定於晶元,大腦的存儲和處理能力,程序的有效性。因而管理從注重系統大小、完善和配合,到注重人,或者腦力的運用,信息流程和創造性,以及職工個性滿足、創造力的激發。
在企業管理的核心因素中,大數據技術與其高度契合。管理最核心的因素之一是信息搜集與傳遞,而大數據的內涵和實質在於大數據內部信息的關聯、挖掘,由此發現新知識、創造新價值。兩者在這一特徵上具有高度契合性,甚至可以標稱大數據就是企業管理的又一種工具。因為對於任何企業,信息即財富,從企業戰略著眼,利用大數據,充分發揮其輔助決策的潛力,可以更好地服務企業發展戰略。
大數據時代,數據在各行各業滲透著,並漸漸成為企業的戰略資產。數據分析挖掘不僅本身能幫企業降低成本:比如庫存或物流,改善產品和決策流程,尋找到並更好的維護客戶,還可以通過挖掘業務流程各環節的中間數據和結果數據,發現流程中的瓶頸因素,找到改善流程效率,降低成本的關鍵點,從而優化流程,提高服務水平。大數據成果在各相關部門傳遞分享,還可以提高整個管理鏈條和產業鏈條的投入回報率。
四、大數據變革商業模式催生產品和服務的創新
在大數據時代,以利用數據價值為核心,新型商業模式正在不斷涌現。能夠把握市場機遇、迅速實現大數據商業模式創新的企業,將在IT發展史上書寫出新的傳奇。
大數據讓企業能夠創造新產品和服務,改善現有產品和服務,以及發明全新的業務模式。回顧IT歷史,似乎每一輪IT概念和技術的變革,都伴隨著新商業模式的產生。如個人電腦時代微軟憑借操作系統獲取了巨大財富,互聯網時代谷歌抓住了互聯網廣告的機遇,移動互聯網時代蘋果則通過終端產品的銷售和應用商店獲取了高額利潤。
縱觀國內,以金融業務模式為例,阿里金融基於海量的客戶信用數據和行為數據,建立了網路數據模型和一套信用體系,打破了傳統的金融模式,使貸款不再需要抵押品和擔保,而僅依賴於數據,使企業能夠迅速獲得所需要的資金。阿里金融的大數據應用和業務創新,變革了傳統的商業模式,對傳統銀行業帶來了挑戰。
還有,大數據技術可以有效的幫助企業整合、挖掘、分析其所掌握的龐大數據信息,構建系統化的數據體系,從而完善企業自身的結構和管理機制;同時,伴隨消費者個性化需求的增長,大數據在各個領域的應用開始逐步顯現,已經開始並正在改變著大多數企業的發展途徑及商業模式。如大數據可以完善基於柔性製造技術的個性化定製生產路徑,推動製造業企業的升級改造;依託大數據技術可以建立現代物流體系,其效率遠超傳統物流企業;利用大數據技術可多維度評價企業信用,提高金融業資金使用率,改變傳統金融企業的運營模式等。
過去,小企業想把商品賣到國外要經過國內出口商、國外進口商、批發商、商場,最終才能到達用戶手中,而現在,通過大數據平台可以直接從工廠送達到用戶手中,交易成本只是過去的十分之一。以我們熟悉的網購平台淘寶為例,每天有數以萬計的交易在淘寶上進行,與此同時相應的交易時間、商品價格、購買數量會被記錄,更重要的是,這些信息可以與買方和賣方的年齡、性別、地址、甚至興趣愛好等個人特徵信息相匹配。運用匹配的數據,淘寶可以進行更優化的店鋪排名和用戶推薦;商家可以根據以往的銷售信息和淘寶指數進行指導產品供應、生產和設計,經營活動成本和收益實現了可視化,大大降低了風險,賺取更多的錢;而與此同時,更多的消費者也能以更優惠的價格買到了更心儀的產品。
維克托曾預言2020年,大數據時代就會真正來臨。在那個時候,最經常會用到的應用就是個性化生活所需要的,尤其是智能手機的應用。
五、大數據讓每個人更加有個性
對個體而言,大數據可以為個人提供個性化的醫療服務。比如,我們的身體功能可能會通過手機、移動網路進行監控,一旦有什麼感染,或身體有什麼不適,我們都可以通過手機得到警示,接著信息會和手機庫進行對接或者咨詢相關專家,從而獲得正確的用葯和其他治療。
過去我們去看病,醫生只能對我們的當下身體情況做出判斷,而在大數據的幫助下,將來的診療可以對一個患者的累計歷史數據進行分析,並結合遺傳變異、對特定疾病的易感性和對特殊葯物的反應等關系,實現個性化的醫療。還可以在患者發生疾病症狀前,提供早期的檢測和診斷。早期發現和治療可以顯著降低肺癌給衛生系統造成的負擔,因為早期的手術費用是後期治療費用的一半。
還有,在傳統的教育模式下,分數就是一切,一個班上幾十個人,使用同樣的教材,同一個老師上課,課後布置同樣的作業。然而,學生是千差萬別的,在這個模式下,不可能真正做到「因材施教」。
如一個學生考了90分,這個分數僅僅是一個數字,它能代表什麼呢?90分背後是家庭背景、努力程度、學習態度、智力水平等,把它們和90分聯系在一起,這就成了數據。大數據因其數據來源的廣度,有能力去關注每一個個體學生的微觀表現:如他在什麼時候開始看書,在什麼樣的講課方式下效果最好,在什麼時候學習什麼科目效果最好,在不同類型的題目上停留多久等等。當然,這些數據對其他個體都沒有意義,是高度個性化表現特徵的體現。同時,這些數據的產生完全是過程性的:課堂的過程,作業的情況,師生或同學的互動情景而最有價值的是,這些數據完全是在學生不自知的情況下被觀察、收集的,只需要一定的觀測技術與設備的輔助,而不影響學生任何的日常學習與生活,因此它的採集也非常的自然、真實。
在大數據的支持下,教育將呈現另外的特徵:彈性學制、個性化輔導、社區和家庭學習、每個人的成功大數據支撐下的教育,就是要根據每一個人的特點,釋放每一個人本來就有的學習能力和天分。
此外,維克托還建議中國政府要進一步補錄資料庫。政府以前提供財政補貼,現在可以提供資料庫,打造創意服務。在美國就有完全基於政府提供的資料庫,如為企業提供機場、高速公路的數據,提供航班可能發生延誤的概率,這種服務這可以幫助個人、消費者更好地預測行程,這種類型的創新,就得益於公共的大數據。
六、智慧驅動下的和諧社會
美國作為全球大數據領域的先行者,在運用大數據手段提升社會治理水平、維護社會和諧穩定方面已先行實踐並取得顯著成效。
近年來,在國內,「智慧城市」建設也在如火如荼的開展。截止去年底,我國的國家智慧城市試點已達193個,而公開宣布建設智慧城市的城市超過400個。智慧城市的概念包含了智能安防、智能電網、智慧交通、智慧醫療、智慧環保等多領域的應用,而這些都要依託於大數據,可以說大數據是「智慧」的源泉。
在治安領域,大數據已用於信息的監控管理與實時分析、犯罪模式分析與犯罪趨勢預測,北京、臨沂等市已經開始實踐利用大數據技術進行研判分析,打擊犯罪。
在交通領域,大數據可通過對公交地鐵刷卡、停車收費站、視頻攝像頭等信息的收集,分析預測出行交通規律,指導公交線路的設計、調整車輛派遣密度,進行車流指揮控制,及時做到梳理擁堵,合理緩解城市交通負擔。
在醫療領域,部分省市正在實施病歷檔案的數字化,配合臨床醫療數據與病人體征數據的收集分析,可以用於遠程診療、醫療研發,甚至可以結合保險數據分析用於商業及公共政策制定等等。
伴隨著智慧城市建設的火熱進行,政府大數據應用已進入實質性的建設階段,有效拉動了大數據的市場需求,帶動了當地大數據產業的發展,大數據在各個領域的應用價值已得到初顯。
七、大數據如何預言未來?
著名的瑪雅預言,盡管背後有著一定的天文知識基礎,但除催生了一部很火的電影《2012》外,其實很多人的生活尚未受到太大的影響。現在基於人類地球上的各種能源存量,以及大氣受污染、冰川融化的程度,我們獲取真的可以推算出按照目前這種工業生產、生活的方式,人類在地球上可以存活的年數。《第三次工業革命》中對這方面有很深入的解釋,基於精準預測,發現現有模式是死路一條後,人類就可以進行一些改變,這其實就是一種系統優化。
這種結合之前情景研究,不斷進行系統優化的過程,將賦予系統生命力,而大數據就是其中的血液和神經系統。通過對大數據的深入挖掘,我們將會了解系統的不同機體是如何相互協調運作的,同樣也可以通過對他們的了解去控制機體的下一個操作,甚至長遠的維護和優化。從這個角度講,基於網路的大數據可以看作是人類社會的神經中樞,因為有了網路和大數據人類社會才開始靈活起來,而不像以前那麼死板。基於大數據,個體之間相互連接有了基礎,相互的交互過程得到了簡化,各種交易的成本減少很多。廠家等服務提供方可以基於大數據研發出更符合消費者需求的服務,機構內部的管理也更為細致,有了血液和神經系統的社會才真的擁有生命活力。
結語
透過以上這些行業典型的大數據應用案例和場景,不難悟出大數據的典型的核心價值。大數據是看待現實的新角度,不僅改變了市場營銷、生產製造,同時也改變了商業模式。數據本身就是價值來源,這也就意味著新的商業機會,沒有哪一個行業能對大數據產生免疫能力,適應大數據才能在這場變革中繼續生存下去。
當下,正處於數據大爆發的時代,如何獲取這些數據並對這些數據進行有效分析就顯得尤為重要。各種企業機構之間的競爭非常殘酷。如何基於以往的運行數據,對未來的運行模式進行預測,從而提前進行准備或者加以利用、調整,對很多企業機構其實是一種生死存亡的問題。這樣一種情況同樣適用於國家級別。正因為這一點,目前無論是在企業級別還是國家級別都開始研究、部署大數據。
可見,大數據應用已經凸顯出了巨大的商業價值,觸角已延伸到零售、金融、教育、醫療、體育、製造、影視、政府等各行各業。你可能會問這些具體價值實現的推動者有哪些呢?就是所謂的大數據綜合服務提供商,從實踐情況看,主要包括大數據解決方案提供商、大數據處理服務提供商和數據資源提供商三個角色,分別向大數據的應用者提供大數據服務、解決方案和數據資源。
未來大數據還將徹底改變人類的思考模式、生活習慣和商業法則,將引發社會發展的深刻變革,同時也是未來最重要的國家戰略之一。
⑧ 谷歌重視數據分析的原因
因為在實際工作中無論是專業的數據分析崗位,還是運營、產品等崗位都開始關注從業者的數據分析能力,運營需要通過數據分析來解決流量、用戶爛伍盯增長問題,產品需要利用數據分析解決業務增長需求。
無論你處於什麼崗位,具備數據分析思維後,可以利用數據挖掘業務價值,也可以更宏觀的審視公司業務創造更高的個人價值。目前國內橘段的飢和很多公司中,數據分析崗位的職責劃分其實還不是很清晰。業務有問題了,找數據分析師;數據有問題,找數據分析師;運營有問題,找數據分析師;產品有問題,還找數據分析師。
⑨ 谷歌賬號下載數據有什麼用
你好!Google會將你的數據上拆世傳到雲端進行保存,當你在胡御渣另一個平台登陸後這些數據褲悄你可以調用。希望這個回答對你有幫助,祝你生活愉快!謝謝