導航:首頁 > 網路數據 > 批判大數據

批判大數據

發布時間:2023-02-09 02:23:28

A. 什麼叫大數據領域

大數據,指一般的軟體工具難以捕捉、管理、分析的大容量數據,一般以「太位元組」為單位。「專大數據屬」之「大」,不僅僅在於「容量之大」,更大的意義在於:通過對海量數據的交換、整合、分析,發現新的知識,創造新的價值,帶來「大知識」、「大科技」、「大利潤」、「大發展」。

B. 如何正確認識大數據的價值和效益

1、數據使用必須承擔保護的責任與義務

我國數據流通與數據交易主要存在以下問題:數據源活性不夠,數據中介機構還處於起步階段;多源數據的匯集技術尤其是非結構化數據分析技術滯後;缺乏熟悉不同行業並掌握在特定領域使用數據技術的人才。

數據的價值在於融合與挖掘,數據流通、交易有利於促進數據的融合和挖掘,搞活數據從而產生效益。數據共享開放、流通交易和數據保護及數據安全對數據技術提出嚴峻挑戰,對法律的制定及執行提出了很高要求。為此,數據使用必須承擔保護的責任與義務。

C. 應對大數據教師當有「轉化」思維

應對大數據教師當有「轉化」思維
教育信息化帶來了教與學方式的深刻變革,大數據等新技術已經與教師教育產生深度融合,在促進教師專業發展、助推教師教育教學全方位變革與創新發展過程中的巨大潛力也取得了教育界的共識。很多學校將課堂作為推動學校內涵發展的主陣地,通過信息化手段對教師進行課堂觀察、數據採集和分析,得出測評結果,然後制定相應的提升措施,不斷促進教師教學水平的提升。教師要有大數據轉化的主動自覺目前,以大數據技術為核心的課堂觀察方法與技術改變了以往單純憑借個人價值觀和個人經驗的聽評課方式,實現了基於數據證據鏈的課堂教學行為大數據的診斷與分析:這種方法首先對教師的教學模式、講授、提問、理答方式、師生對話等課堂教學的關鍵環節和關鍵因素進行觀察,通過信息化手段進行大數據採集和記錄,然後進行基於大數據證據鏈的綜合分析與評價,指出本次課堂教學的特徵、優缺點等,或者會給教師一份課堂大數據分析報告作為反饋。對於教師而言,閱讀一份課堂觀察大數據報告的文本不難,而真正發揮大數據的作用,將從中抽離出的結論反向「落地」,使之進入課堂教學的操作層面,實現大數據與教學實踐之間的融通,從而將大數據變成教師反思教學行為的依據、開展課堂變革的線索、改進和提升教學水平的抓手,為學校內涵發展提供源源不斷的內生性資源,則需要教師建立起數據「轉化」的思維。目前,信息化手段被廣泛應用於學校的管理、教育教學等領域,對大數據的轉化、把握和利用已是無可迴避的大趨勢。面對這一挑戰,教師要在大數據轉化的三個環節形成自覺:首先是大數據輸入的自覺,即教師需要有一定的「數商」,即能對大數據敏感,並能進行大數據收集、分析等輸入的自覺;其次是大數據加工的自覺,即在大數據輸入之後,教師需要有意識地培養自己將大數據與教學實踐進行有效勾連,並將大數據轉化為教學方法、教學設計等的自覺;最後是大數據輸出的自覺,即在教學經驗、成果等的表達、推廣層面,教師需要自覺形成有數據、有依據、有證據地進行表達的習慣,使數據化表達成為教師教育教學生活的常態。教師要有大數據轉化的行動邏輯和實踐載體無論是從大數據到教學實踐還是從教學實踐到大數據的轉化,都暗含著各自的轉化邏輯。如,課堂教學觀察大數據是以一定的教學、評價等理論模型作為依據和行動邏輯,將教師直觀的、具體的、生動的、感性的課堂教學行為以一種高度抽象、概括和理性的形式呈現出來。同理,教師要充分挖掘和利用大數據,也需要按照一定的邏輯,依託教學領域的各種理論或實踐智慧,生成關於教學模式、講解、提問、理答方式、師生對話等大數據的轉化策略、方式、效果及評價。教師需要一定的載體,才有可能將從大數據中提取到的信息轉化落地。從一個教學過程的全景來看,大數據轉化有三個載體:教學設計。對大數據進行轉化的一度解讀在教學設計階段。即教師在進行教學行動之前,根據從大數據中提取到的信息、自身教學風格和學情進行教學設計,通過大數據精準地定位一個教學設計的優勢、短板主要困難和障礙以及和沒有大數據做依據的教學設計之間的差異,從而規劃好下一步行動的「藍圖」。教學過程。對大數據進行轉化的二度解讀在教學過程階段。即教師按照教學設計進行教學的過程中,有意識地通過一定的策略、方法將從大數據中提取到的信息與教學實踐過程中的導入、講解、提問、理答、對話等環節相互作用,從而實現預期的教學目標。此外,教師也需要在教學過程中對課堂現場生成的大數據加以識別和提取,並能夠在此基礎上進行利用和創造,將其轉化為新的大數據。教學反思。對大數據進行轉化的三度解讀在教學反思階段。即教師要對自己基於大數據的課堂教學進行反思,即通過前後數值的對比,分析自身的教學行為、課堂教學效果等通過大數據的引領所產生的變化,對哪些是預期變化,哪些是生成性變化進行判斷;對哪些因素和細節通過大數據的幫助由抽象變得具體、由模糊變得清晰、由不準確變得准確等進行記錄。反思之後,教師還要能夠帶著這樣的反思和改進措施進入下一個教學設計和教學過程中,形成不斷依靠大數據來提升課堂教學品質的循環。教師要有大數據轉化的理性判斷使用信息化手段對課堂教學進行大數據收集和分析處理,是教育通過與技術的結合來推動自身改革和創新的進步表現。可以預測,這種半智能化技術手段在教育領域的應用范圍還會持續擴大和深入。但是,事物都有兩面性,教師在擁抱這種技術手段的時候,也要對其保持理性,保持批判,盡量做到有「理」有「限」有「度」。大數據使用的「理」。「理」就是不單就數據談數據,而是同時注重把握大數據背後的原理或理念。每一套大數據的產生,都建基於一定的原理或理念模型,而這些模型產生的背景、條件和核心要素等,有可能和當下的應用環境有所差異。因此,教師在使用大數據的時候,要努力追求做到不但知其「術」——能讀懂大數據,更知其「道」——能把握大數據背後的原理和理念,從而更加智慧和靈活地使用大數據。大數據使用的「限」。「限」就是為大數據的使用范疇劃定邊界。任何一種工具的開發都是針對某一種特定的對象,因此,每一種工具的適用性都是有限的,教師需要對測評方法與測評對象的適切性保持清醒的認知。大數據作為一種測評方法,適合何種性質的學科、何種類型的教學都需要教師進行審慎的判斷。大數據使用的「度」。「度」就是理性看待大數據手段的工具價值,不過度倚重數據。以大數據為代表的量化測評方法只是眾多教學測評手段中的一種。盡管這種方法因其精準性、直觀性等優勢在當前學校課堂中得到相當廣泛的應用,但因為教學過程是一個涉及教學技術、教育價值、師生心理變化等顯性、隱性要素交相作用的過程,教師依然要重視傳統質性測評方法的價值和作用,使二者有機結合,共同促進教學品質的提升。

D. 大數據再掀經濟學方法論之爭

大數據再掀經濟學方法論之爭

大數據時代帶來的信息風暴,不僅改變著我們的生活、工作和思維,而且影響著人類認知視角,沖擊著科學研究的基本方法。經濟學被譽為社會科學「皇冠上的明珠」,其主要原因正是強調經驗數據驗證的實證主義較早在經濟研究中得到應用。對經濟學而言,大數據究竟是主流範式的革命,還是一個新的噱頭?帶著這樣的問題,筆者於2015年6月下旬參加了中國社會科學院的「電子社會科學」考察團,赴英國了解當代信息和數據科技對社會科學研究的影響。
「相關性與因果性」:
新方法論之爭?
當前關於大數據的一個重要分歧,就是「相關性與因果性」之爭。大數據倡導者維克托·邁爾·舍恩伯格明確指出,大數據時代最大的轉變就是放棄對因果關系的渴求,而代之以關注相關關系。在諾森比亞大學培訓第一天的課堂討論中,考察團就圍繞這個問題展開了激烈辯論。
實際上,早在大數據時代之前,「因果性與相關性」問題就已經是認知哲學、統計學、經濟學等領域中的一個老問題。從經濟學基礎方法論的角度來看,對「因果性與相關性」的辯論,是人類認知邏輯和科學研究基本問題「演繹與歸納」的現代升級版。19世紀中後期,德國歷史學派與奧地利學派之間展開了「方法論之爭」。奧地利學派創始人卡爾·門格爾堅持以邏輯演繹為基本分析方法。德國歷史學派則懷疑抽象邏輯演繹對現實理解和解釋的有效性,主張由於人類社會的復雜性,首先應該大量收集、整理各種歷史數據,並且從歷史數據中發現經驗規律。這與當前大數據方法論主張放棄或者弱化對因果性的追求,注重從海量數據中發現相關性的觀點如出一轍。從這個角度來說,德國歷史學派可謂大數據「先鋒」。
大數據帶來的「相關性與因果性」新方法論之爭不過是新瓶裝舊酒,實質問題仍然是哲學認識論中經驗論和唯理論對立的老問題。雖然是老問題,但在現代科學哲學認識論和新興的知識社會學之中,仍然是一個爭論焦點。

「你的理論假設是什麼?」
「你的理論假設是什麼?」這是在英國雷丁大學訪問時,考察團成員鍾春平教授向Jornvande Wetering博士提出的一個問題。Wetering博士介紹了正在進行的大數據項目「智慧城市」,該項目旨在通過收集整理大量城市相關數據和信息,改善城市治理和人民生活。在筆者看來,這個問題直指大數據的核心——大數據方法的應用是否可以脫離理論假設?
這個問題與前面的「方法論之爭」密切相關。主流經濟學對「方法論之爭」的當事雙方各打五十大板,認為「演繹與歸納」兩者不可偏廢,並且形成了標準的經濟學實證模式——提出假設和模型,使用數據進行計量檢驗,由此將「演繹與歸納」在哲學認知上的沖突掩蓋起來。新的「相關性與因果性」方法論之爭迫使人們重新面對這個問題,並對實證主義經濟學提出了挑戰。如果按照弗里德曼的「實證主義經濟學方法論」,預測是經濟理論的根本目標和檢驗手段的話,對經濟學理論而言,重要的問題就是「能否做出准確的預測」,而非「是否理解了真實的因果關系」。但是,大數據在探尋相關性方面的優勢,正好構成了對目前主流經濟學範式的批判和革命。至少有一部分大數據論者認為,不需要甚至不應該預設理論前提和假設,只需讓數據自我呈現出規律。按照這種「大數據經濟學」觀點,「假設建模—數據檢驗」的現行標准方法似乎已經過時了。
就自身邏輯而言,奧地利學派的先驗主義和邏輯演繹法倒是可以固守自身立場,並展開對大數據方法論的批判。畢竟探究世界真實狀況和因果關系才是科學研究的核心目標,預測只不過是副產品。在奧地利學派看來,沒有演繹邏輯和理論指導,歷史學派甚至不能確定什麼樣的歷史資料和數據才是重要的,值得收集和整理。這個批判對大數據同樣有效。同樣是在雷丁大學的訪問之中,Nanda博士引述了IBM的報告:「人類社會每天生成的數據高達250兆億個位元組。」從奧地利學派的視角來看,如果脫離具體的理論前提和需要,這個數據量沒有任何意義。生成數據實際上完全依賴於觀察者的目標和理論假設。脫離了這個前提,在不同測量工具精度的條件下,人們完全可以生成無限的觀察數據。

大英圖書館
在大數據時代會破產嗎?
大英圖書館是英國的國家圖書館,擁有超過1.5億件館藏。大英圖書館不僅大量收錄各種電子出版物,而且已經著手保存各種互聯網網頁內容。考慮到大數據時代還只是初露頭角,未來人類社會所能產生的各種文本、圖像等信息數據,無疑還會以指數級別增長。即使英國政府可以頒布法律使圖書館免費獲得這些信息,保存信息所消耗的成本無疑也會以指數級別增長。大英圖書館乃至英國政府能否承受如此高的成本,著實令人懷疑。
這個「杞人憂天」的疑問,其實關繫到「數據」或者「信息」的經濟學屬性,即從「要素」或「財貨」角度來看待「數據」的成本收益問題。大數據理論有一種傾向,認為幾乎所有數據都是有價值的,至少是具有潛在價值,哪怕暫時不知道如何利用,也許在未來可以得到重新認識,因此都值得收集和整理。這看起來似乎很有道理,但從經濟學的角度看卻是不能成立的,因為經濟學的核心問題是「效率」,核心視角是「成本—收益」分析。不只是數據,任何事物都具有所謂「潛在」價值,但如果獲得和保存它的成本超過了收益,那麼在經濟學者看來就是無效率的。
事實上,在信息時代之初,就有學者指出信息和數據具有「零邊際成本」特性,將完全改造經濟學,還有學者提出「新信息經濟學」,主張軟體等信息產品免費共享。大數據時代仍然面臨同樣的問題。部分學者主張數據是免費公共資源,具有巨大的數據分析外部性,最好由政府來提供。但經濟學的基本邏輯在此仍然是有效的。雖然具有某些新特性,信息和數據仍然是「要素」和「財貨」,需要付出成本,並且能夠產生收益。不計成本地收集整理大數據是行不通的。類似地,經濟學效率觀點還對另一個大數據觀點——所謂「全體數據」代替「隨機樣本」的新方法提出了挑戰。「全體數據」固然有其優勢,但放到經濟學「成本—收益」的框架下來看,其方法本身就未必有效率了。

以上是小編為大家分享的關於大數據再掀經濟學方法論之爭的相關內容,更多信息可以關注環球青藤分享更多干貨

E. 大數據主義者如何看待理論,因果與規律

大數據的興抄起,給傳統的科學哲學帶來許多新挑戰,特別是對諸如科學理論的作用、因果關系、科學規律等科學哲學的核心問題提出了有別於傳統的新觀點。齊磊磊博士概括總結了大數據相關學者的論述,在《哲學動態》雜志發表了題為《大數據經驗主義——如何看待理論、因果與規律》的重要文章[1]。她在文中提出了大數據經驗主義的概念,並系統提煉了大數據經驗主義的科學哲學觀點,這是大數據哲學的重要提煉和概括。她認為,大數據經驗主義是一種新經驗主義(以下簡稱為大數據主義),並將其觀點概括為三點:1.在科學理論問題上,大數據主義認為「理論已經終結」,否定科學理論對科學發現的作用;2.在關繫到科學存亡的因果性問題上,大數據主義否定因果性的存在,提出由相關性取代因果性;3.在世界的本質問題上,大數據主義否定世界的規律性,認為世界的本質是混亂的。樹立起大數據主義的靶子之後,齊磊磊進行了批判,並明確提出反對大數據主義對大數據的神化。

F. 大數據的定義是什麼

大數據首先是一個非常大的數據集,可以達到TB(萬億位元組)甚至ZB(十萬億億位元組)。這裡面的數據可能既有結構化的數據,也有半結構化和非結構化的數據,而且來自於不同的數據源。

結構化的數據是什麼呢?對於接觸過關系型資料庫的小夥伴來說,應該一點都不陌生。對了,就是我們關系型資料庫中的一張表,每行都具有相同的屬性。如下面的一張表:

(子標簽的次序和個數不一定完全一致)

那什麼又是非結構化數據呢?這類數據沒有預定義完整的數據結構,在我們日常工作生活中可能更多接觸的就是這類數據,比如,圖片、圖像、音頻、視頻、辦公文檔等等。

知道了這三類結構的數據,我們再來看看大數據的數據源有哪些呢?歸納起來大致有五種數據源。

一是社交媒體平台。如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是比較受歡迎的大數據來源之一,因為它提供了關於消費者偏好和變化趨勢的寶貴依據。並且因為媒體是自我傳播的,可以跨越物理和人口障礙,因此它是企業深入了解目標受眾、得出模式和結論、增強決策能力的方式。

二是雲平台。公有的、私有的和第三方的雲平台。如今,越來越多的企業將數據轉移到雲上,超越了傳統的數據源。雲存儲支持結構化和非結構化數據,並為業務提供實時信息和隨需應變的依據。雲計算的主要特性是靈活性和可伸縮性。由於大數據可以通過網路和伺服器在公共或私有雲上存儲和獲取,因此雲是一種高效、經濟的數據源。

三是Web資源。公共網路構成了廣泛且易於訪問的大數據,個人和公司都可以從網上或「互聯網」上獲得數據。此外,國內的大型購物網站,淘寶、京東、阿里巴巴,更是雲集了海量的用戶數據。

四是IoT(Internet of Things)物聯網數據源。物聯網目前正處於迅猛發展勢頭。有了物聯網,我們不僅可以從電腦和智能手機獲取數據,還可以從醫療設備、車輛流程、視頻游戲、儀表、相機、家用電器等方面獲取數據。這些都構成了大數據寶貴的數據來源。

五是來自於資料庫的數據源。現今的企業都喜歡融合使用傳統和現代資料庫來獲取相關的大數據。這些數據都是企業驅動業務利潤的寶貴資源。常見的資料庫有MS Access、DB2、Oracle、MySQL以及大數據的資料庫Hbase、MongoDB等。

我們再來總結一下,什麼樣的數據就屬於大數據呢?通常來大數據有4個特點,這就是業內人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity准確性。

G. 大數據(Big Data)」一詞已經變得沒有以往那麼紅火了,為什麼會這樣呢

原因在於是在於盲目迷戀數據,不加批判地使用,那會引發災難。

盲目迷戀數據與誤用

「大數據」的問題並不在於數據本身很糟糕,也不在於大數據本身很糟糕:謹慎應用的話,大型數據集還是能夠揭示其它途徑發現不了的重要趨勢。正如茱莉婭·羅斯·韋斯特(Julia Rose West)在最近給Slate撰寫的文章里所說的,盲目迷戀數據,不加批判地使用,往往導致災難的發生。

從本質來看,大數據不容易解讀。當你收集數十億個數據點的時候——一個網站上的點擊或者游標位置數據;大型公共空間十字轉門的轉動次數;對世界各地每個小時的風速觀察;推文——任何給定的數據點的來源會變得模糊。這反過來意味著,看似高級別的趨勢可能只是數據問題或者方法造成的產物。但也許更重大的問題是,你所擁有的數據通常只是你真正想要知道的東西的一個指標。大數據不能解決那個問題——它反而放大了那個問題。

例如,民意調查被廣泛用作衡量人們在選舉中的投票意向的指標。然而,從湯姆·布拉德利(Tom Bradley)1982年在加州州長競選中敗北,到英國脫歐公投,再到特朗普的當選,數十年來結果出乎意料的選舉一再提醒我們,民意測驗和人們實際的投票意向之間並不總是完全一致。Facebook以往主要通過用戶有沒有點贊來估量他們對特定的帖子是否有興趣。但隨著經過演算法優化的動態信息開始大量出現標題誘餌、點贊誘餌和嬰兒照片——導致用戶滿意度明顯下降——該公司的高層逐漸意識到,「點贊」這事並不一定意味著用戶真的喜歡特定的內容。

指標和你實際上要估量的東西之間的差別越大,過於倚重它就越危險。以來自奧尼爾的著作的前述例子為例:學區使用數學模型來讓教師的表現評估與學生的測驗分數掛鉤。學生測驗分數與不在教師控制范圍內的無數重要因素有關。大數據的其中一個優勢在於,即便是在非常嘈雜的數據集里,你也可以發現有意義的關聯性,這主要得益於數據量大以及理論上能夠控制混雜變數的強大軟體演算法。例如,奧尼爾描述的那個模型,利用來自多個學區和體系的學生的眾多人口結構方面的相關性,來生成測驗分數的「預期」數據集,再拿它們與學生的實際成績進行比較。(由於這個原因,奧尼爾認為它是「大數據」例子,盡管那個數據集並不夠大,沒達到該詞的一些技術定義的門檻。)

試想一下,這樣的系統被應用在同一所學校裡面——拿每個年級的教師與其它年級的教師比較。要不是大數據的魔法,學生特定學年異常的測驗分數會非常惹眼。任何評估那些測驗的聰明人,都不會認為它們能夠很好地反映學生的能力,更不用說教他們的老師了。

而前華盛頓特區教育局長李洋姬(Michelle Rhee)實行的系統相比之下更不透明。因為數據集比較大,而不是小,它必須要由第三方的咨詢公司利用專門的數學模型來進行分析解讀。這可帶來一種客觀性,但它也排除掉了嚴密質問任何給定的信息輸出,來看看該模型具體如何得出它的結論的可能性。

例如,奧尼爾分析道,有的教師得到低評分,可能不是因為他們的學生表現糟糕,而是因為那些學生之前一年表現得出奇地好——可能因為下面那個年級的教師謊稱那些學生表現很好,以提升他自己的教學評分。但對於那種可能性,學校高層並沒什麼興趣去深究那種模型的機制來予以證實。

加入更多指標

並不是說學生測驗分數、民意調查、內容排名演算法或者累犯預測模型統統都需要忽視。除了停用數據和回歸到奇聞軼事和直覺判斷以外,至少有兩種可行的方法來處理數據集和你想要估量或者預計的現實世界結果之間不完全相關帶來的問題。

其中一種方法是加入更多的指標數據。Facebook採用這種做法已有很長一段時間。在了解到用戶點贊不能完全反映他們在動態消息當中實際想要看到的東西以後,該公司給它的模型加入了更多的指標。它開始測量其它的東西,比如用戶看一篇帖子的時長,他們瀏覽其點擊的文章的時間,他們是在看內容之前還是之後點贊。Facebook的工程師盡可能地去權衡和優化那些指標,但他們發現用戶大體上還是對動態消息里呈現的內容不滿意。因此,該公司進一步增加測量指標:它開始展開大范圍的用戶調查,增加新的反應表情讓用戶可以傳達更加細微的感受,並開始利用AI來按頁面和按出版者檢測帖子的標題黨語言。該社交網路知道這些指標沒有一個是完美的。但是,通過增加更多的指標,它理論上能夠更加接近於形成可給用戶展示他們最想要看到的帖子的演算法。

這種做法的一個弊端在於,它難度大,成本高昂。另一個弊端在於,你的模型加入的變數越多,它的方法就會變得越錯綜復雜,越不透明,越難以理解。這是帕斯誇里在《黑箱社會》里闡述的問題的一部分。演算法再先進,所利用的數據集再好,它也有可能會出錯——而它出錯的時候,診斷問題幾無可能。「過度擬合」和盲目相信也會帶來危險:你的模型越先進,它看上去與你過往所有的觀察越吻合,你對它越有信心,它最終讓你一敗塗地的危險就越大。(想想次貸危機、選舉預測模型和Zynga吧。)

H. 為何說大數據精準廣告並不靠譜

為何說大數據精準廣告並不靠譜
一、大數據精準廣告內涵
大數據目前已經成為整個IT界(包含Internet Technology 以及Information Technology)最熱的詞彙之一,似乎任何一個話題,只要提到大數據,瞬間變得高大上。一夜之間,大數據已經代替主觀的理性思考,成為智慧洞察的代名詞。
但是當我們走過對大數據的頂禮膜拜階段,揭開大數據實際應用的面紗,反而逐漸對充斥著話語世界的大數據進行反思。因為大數據在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:「就今日言,有很多人忙碌於資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的了解。
以大數據的廣告應用為例,精準廣告投放應該是大數據最早的也是最容易產生直接收益的應用,如今少有廣告公司沒有宣稱自己是大數據科技公司。大數據精準廣告的核心內涵是什麼?一言以蔽之,那就是程序化定向投放。其中定向是核心,程序化是手段。
微信朋友圈為例,不定向區域,年初的公開價格CPM(每千次曝光成本,朋友圈廣告價格遠超一般媒體)40元,定向核心城市140元,定向重點城市90元,如果疊加定向性別,附加10%,再疊加H5外鏈(流量引導效果更好),再附加20%。就像進口化妝品一樣,先按一定比例徵收關稅,後按含稅價格再徵收增值稅,再按含稅價格徵收消費稅。
對於微信來說,客戶地域、性別雖然也需要數據分析解讀,但確認相對比較容易。對於其它數據公司來說,地域依然可以通過IP或手機終端GPS獲取,但性別更可能就是一個數據分析出的可能屬性。當然大數據並不僅僅分析如此簡單的標簽,對於媒體聯盟而言,媒體選擇項目眾多,還會分析客戶媒體偏好標簽,還有時間段、人群屬性、設備類型、偏好類型等多種定向組合方式。
好了,上面對於精準廣告有了一個粗淺的介紹。那麼大數據精準廣告能帶來什麼樣的價值?通常如下的故事是大數據廣告公司經常提及的。
假如一個網站的廣告位,每小時有1萬人來瀏覽,則一小時曝光量為1萬,之前的CPM為5元,那麼一個手機廣告主投放一小時廣告,成本50元。這是傳統廣告投放的結果。現在有個大數據公司,來幫助該廣告媒體更好的運營。該公司宣稱它能夠精準識別瀏覽客戶的屬性,告訴手機廣告主,雖然1萬人瀏覽該廣告位,但真正適合投放手機的只有6千人次,剩下4千人次的曝光為無效曝光,因為剩下的人群只對服裝感興趣。
大數據公司建議廣告主按照程序化投放,過濾掉不適合投放手機的4千人,僅對適合投放手機的6千人付費,假如單價不變,那麼在保證相同效果的前提下,成本降低至30元。剩下的4千人大數據公司將其銷售給服裝廣告主,成本為20元。由此,在相同的效果情況下,大數據廣告大幅降低廣告主的成本。當然事實上,由於RTB(實時競價)機制的存在,當價格(效果相同)低到一定程度,不同手機廣告主的相互競價,使得真實價格一般高於30元,但肯定介於30元到原有預期成本50元之間,由此形成多方共同獲益的理想局面。
這樣的案例看上去Perfect,無懈可擊。因為它解決了傳統廣告的低效問題,比如看起來有用,但又說不清楚到底有用在哪裡,這個正是各公司財務總監所深惡痛絕的。是的,通過大數據廣告,讓一切花在廣告上的錢更有依據,可以在線評估一條廣告到底造成多少的印象(Impressions),甚至多少點擊,多少因此而下載使用,多少因此產生交易。
有問題嗎?沒問題。有問題嗎?你什麼意思,難道你要懷疑真理?
二、大數據精準廣告沒有看上去那麼美好
本著證偽的原則,真理只有被證明為謬誤的時候(理解其應用的局限及條件),才算真理。因此我們必須先回答一個問題,廣告是用來做什麼的?
按照以前的共識,廣告被視為品牌用來向那些無法面對面溝通的消費者去傳達品牌的特性。因此廣告雖然對銷售有促進作用,但通常時候,廣告的內容並不直接說服消費者去購買,就如中國移動曾經的獲獎廣告「溝通從心開始」一樣。2010年出版的《品牌如何增長》(How Brands Grow)一書(說明,筆者未讀過,希望將來能讀到),作者南澳大利亞大學教授拜倫在書中指出,廣告要達到最好的效果,往往不需要去說服或灌輸,只要讓人在購買的時候回想起品牌的名字就可以了。市場研究機構Milward Brown創始人高登(Gordon Brown)就指出,廣告的功能就是讓一個擺在貨架上的品牌變得「有趣」。
好吧,再回到大數據精準廣告案例,其中一個最為關鍵的問題在於,大數據如何分析出這6千個瀏覽用戶適合投放手機廣告?對於這個問題,廣告公司早有準備,給出如下的種種答案。
第一,從歷史記錄中尋找曾經使用過同類產品的客戶進行匹配。通常使用的演算法叫「協同過濾」,即由某些經驗的相關性,找到潛在的適合用戶。比如你玩過某款游戲,因此可認為你對該類型的其它游戲也有相同的需求。筆者並不否認該演算法對某些領域確實有作用,比如游戲付費用戶基本就是之前重度游戲使用用戶。
但是拋開這些特殊領域,該演算法內涵思想「品牌依靠忠誠的消費者發展壯大」與拜倫的理論完全矛盾。拜倫通過對銷售數據進行統計學分析,他指出在所有成功的的品牌當中,大量的銷售來自「輕顧客」(Light buyer):也就是購買產品相對不那麼頻繁的顧客。可口可樂的生意並非依靠每天都喝可樂的人,而是數百萬每年喝一次或兩次的顧客。這種消費者模式在各個品牌、商品品類國家和時期都適用。無論是牙刷還是電腦,法國汽車或是澳大利亞銀行,品牌依靠的是大規模人口——換句話說,大眾——那些偶爾購買他們的人。
這個理論意義十分深遠。這意味著你永遠無法通過精準營銷現有顧客來增加品牌的市場份額。而對現有顧客的精準營銷,正是數字媒體所擅長的。
本著批判的精神來看待新出現未經檢驗的思想,筆者希望引用一下廣東移動最近公布的用戶換機特徵數據。廣東移動對旗下用戶的終端遷移分析表明,使用蘋果的用戶升級終端,繼續使用蘋果手機的佔比64%,忠誠度最高。但除蘋果以外,其餘忠誠度表現最好的華為、小米手機,更換4G後持續使用同品牌的佔比不到30%。
這說明,你向蘋果4或5用戶推廣蘋果6是可行的,果粉效應推翻拜倫的理論,證實在部分領域依靠忠誠的消費者發展壯大是可行的。但除此以外,你向任何一個當前品牌的用戶推廣同品牌的手機終端都是不合時宜的。
因此,希望通過歷史的電商數據分析推斷用戶下一步可能需要是無效的。就如向曾經購買過服裝的用戶推廣服裝,或許不如推廣一卷紙或一桶油更為有效。
相反,成功的品牌需要找到一種方式來到達目標市場之外的群體。品牌的廣告一定要用某種方式獲得這部分人的興趣——只有這樣,當他們在准備購買的時候,該品牌才能自動出現在消費者的腦海中。
第二,如果「協同過濾」存在局限,廣告公司會告訴你還有第二種演算法,並不基於客戶的歷史行為記錄,而是客戶本身特徵相似性,來找到與種子客戶最為相似的客戶群體。簡稱「Lookalike」。先需要廣告主提供本則廣告起到作用的典型用戶,以手機為例,受廣告影響感興趣點擊瀏覽或預購某手機的用戶,大約幾百或幾千個。大數據公司通過Lookalike演算法(專業的術語更可能是稀疏矩陣),尋找與這幾百/千個用戶高度相似的其它數十萬/百萬客戶群進行投放。
這類演算法真正考驗大數據平台的計算能力,因為並不是經驗性的協同過濾,而是利用數十數百甚至上千個變數進行回歸計算。最後按照相似性的概率打分,按照由高到低選擇合適的用戶群。
該模型的內涵其實很簡單,就是廣告要傳達給應該傳達的客戶。比如奶粉廣告目標用戶就是養育0-3歲孩子的父母。如果知道要到達用戶的具體身份,一切問題迎刃而解。但是對於網站或APP應用來說,並不清楚用戶身份,唯一清楚的是客戶的歷史行為數據。而且由於數據本身的分割,有的專注於運營商,有的專注於APP聯盟採集,有的專注於電商,有的專注於銀行,要從分割的數據中推斷出客戶的身份信息,Lookalike就是不可避免的手段。
唯一的問題是,如果由幾百個種子用戶推斷出新的幾百個目標用戶,准確性可能高達9成,但如果如某廣告公司宣稱,對康師傅辣味面進行移動DSP投放時,根據歷史投放數據分析挖掘,形成樣本庫,再通過Lookalike技術進行人群放大,找到與目標受眾相似度最高的潛在客戶,擴展人群1367萬,實際投放受眾ID2089萬。廣告效果投放是最大化了,那麼效果呢?在此,請允許我杜撰一個數字,很可能點擊率由0.2%上升至0.3%,精準度提升50%。有意義嗎?或許有,但絕對沒有想像的那麼明顯。
第三,如果你們持續懷疑我們演算法的有效性,那麼我們可以就效果來談合作,你們可以按照點擊量(CPC)或者激活量(CPA)付費,如果達不到既定效果,我們會補量。這是大數據廣告的終極武器。
終極武器一出,意味著廣告的投放徹底淪陷為做點擊、做激活的渠道,廣告的「溝通消費者」初衷早被拋棄得一干二凈。
通常一般消費決策遵行S(Solution)、I(Information)、V(Value)、A(Access)規則,意思是當用戶產生一個需求,內心先就滿足這個需求形成一個解決方案。比如說3G手機不好用,速度很慢覆蓋不好,需要換一個4G終端就成為一個Solution。那麼4G終端有哪些,重點考慮那些終端?消費者還是搜集信息,並非從網上搜索,而是根據以往的經歷、品牌效應、周邊朋友口碑自動回想那些品牌、哪些款式。傳統廣告的最重要功效應該就是這個階段,當用戶需要的時候,自動進入到用戶視線。然後從多維度比較選擇,確定首選購買品牌。最後就是去哪兒買,搜索哪兒有促銷活動,哪裡優惠力度最大。
根據SIVA模型,真正的以效果為導向的廣告本質解決的是Access問題,最後的臨門一腳。在這方面,搜索廣告是真正的效果導向廣告,比如淘寶的每一款商品後面都有超過1萬家商戶提供,到底用戶去哪裡購買,得付錢打廣告,這就是效果廣告。曾有報告對比過,搜索廣告點擊率高達40%以上。想一想網路、阿里靠什麼為生,臨門一腳的廣告價格自然高到沒邊,據說一些醫院購買網路性病、人流之類的搜索廣告,單次流量價格高達數十或數百元。
搜索廣告只有少數壟斷接入公司才有的生意,大部分廣告仍為展示類廣告。如果展示類廣告也朝效果類靠攏,從商業規律上屬於本末倒置。
最後結果是,一方面,廣告的內容充滿人性的貪婪(優惠/便宜)與色慾(大胸美女),被改造得不倫不類,上過一次當後,在溝通消費者方面反而起到負面作用。另一方面,廣告公司淪落為做流量、做點擊的公司,與北京望京、中關村著名的刷流量一條街沒有本質的差異,最後誰真正點擊了這些有效流量?曾有大數據公司分析過某款高端理財軟體的階段性用戶群,與刷機、貪圖小便宜的極低端用戶高度相似。
三、多用靠譜的身份識別可能更有利於提升廣告效果
寫了這么多,大數據精準廣告一無是處嗎?不,懷疑真理是為了更好的應用真理。大數據廣告的核心「程序化」與「定向投放」沒有錯,這代表移動互聯網發展的趨勢,也與滿足特定市場、特定用戶群的商品或服務廣告傳播需求完全匹配。問題在於目前的大數據實際能力與宣稱的雄心還有巨大的差距。也就是說沒有看上去的那麼好。
所以,我們更應該回歸廣告的本來目的——更好的溝通消費者,來看待精準投放,而不是迷信大數據精準投放這樣的噱頭。那麼什麼最重要?顯然不是不靠譜的協同過濾規則,也不是根本不知道原因的Lookalike,既然最重要的就是到達目標消費者,那麼靠譜的身份識別應該就是精準廣告的核心。
什麼是靠譜的身份識別?對微信而言,判斷重點活動城市是靠譜的,分析性別也相對靠譜,但如果微信告訴你說能夠通過社交判斷該用戶是中產白領還是鄉村農民,那一定是不靠譜的。因為朋友圈裡宣稱正在法國酒庄旅遊的優雅女人或許正在出門買油條豆漿。
有時候用戶使用的媒體本身就透露客戶的身份特徵。比如經常使用理財軟體的在支付能力上較為靠譜,而使用孕寶APP的80%以上應該就是准媽媽,經常使用蜜芽的一定是寶寶出生不久的媽媽。有大數據公司給出過案例,對媒體本身進行定向和綜合分析定向的效果相差無幾,這就說明媒體定向是有效的,但是其它需求定向都等同於隨機選擇。
由於大數據本身就是不關注因果,只關注相關性,如果經過大數據洞察證實的協同規則,也可以算作靠譜的規則。比如游戲付費用戶群基本上可以確定為一兩千萬ID的重度使用用戶。
而要准確識別客戶身份,多數據源的匯集與綜合不可避免,圍繞客戶身份的各種洞察、相關性分析也是能力提升的必修功課,這或許更應該是大數據廣告公司應持續修煉的核心能力。

I. 扒扒跟大數據有關的那些事兒

扒扒跟大數據有關的那些事兒

如今,業界和學術界一直在討論一個詞,那就是大數據。不管是學術圈還是IT圈,只要能談論點兒大數據就顯得很高大上。然而,大數據挖掘、大數據分析、大數據營銷等等事情僅僅只是個開始,對大多數公司來說,大數據仍有很強的神秘色彩。於是,在我們還沒有完全搞明白如何運用大數據進行挖掘時,各種過於神化大數據的輿論就已經不絕於耳了。當然,也有很多人直接批判大數據或大數據營銷給我們造成的隱私威脅。也有很多人根本沒有搞清楚什麼是大數據,到底有什麼價值。
於是,站在客觀的角度,圍繞下面幾個問題與大家分享有關大數據的幾個觀點,也扒扒大數據的那些事兒:1、大數據營銷和個人隱私泄露究竟有無因果和邏輯關系?
2、大數據營銷到底能帶給企業什麼樣的價值?到底能帶給用戶什麼價值?用戶是否全盤否定或反感大數據營銷?
3、如何正確看待大數據?如何看待大數據和傳統調查方法或統計學的關系?
4、大數據營銷究竟面臨什麼樣的挑戰?
一、大數據的迅猛發展與數據隱私的憂慮相伴而生
社交媒體的出現,讓用戶數據的分享數量達到了難以估量的程度。而如今,社交媒體的種類有增無減,智能手機的更大普及,又讓更多用戶轉移到移動互聯網,從而又進一步貢獻更多數據和內容。這樣的數據增量讓全球社交媒體的收入大漲,僅根據咨詢公司Gartner2012年的研究結果顯示,2012年全球社交媒體收入估計達到169億美元。
一邊是社交媒體因為大數據的盆缽滿載,另一方面則是用戶不斷毫無保留的將個人信息交給互聯網,這些信息包括年齡、性別、地域、生活狀態、態度、行蹤、興趣愛好、消費行為、健康狀況甚至是性取向等。一時間,針對海量用戶信息的大數據挖掘、大數據分析、大數據精準營銷、廣告精準投放等等迅速被各大公司提上日程。
比如,一個發生在美國的真實故事就會告訴我們,利用數據挖掘如何掌握我們的行蹤。一個美國家庭收到了一家商場投送的關於孕婦用品的促銷劵,促銷劵很明顯是給給家中那位16歲女孩的。女孩的父親很生氣,並找商場討說法。但幾天後,這位父親發現,16歲的女兒真懷孕了。而商場之所以未卜先知,正是通過若干商品的大量消費數據來預估顧客的懷孕情況。
類似的大數據挖掘和營銷事件在今天更多的發生,尤其是社交媒體產生大量數據後。於是,許多人對個人隱私數據開始擔憂,開始批判大數據精準營銷侵犯了個人隱私,憂慮我們進入了大數據失控的時代,並將原因更多歸結於社交媒體。
二、大數據營銷和個人隱私泄露之間不能完全劃等號!邏輯關系不成立!
如果客觀的分析一下上述問題就會發現,這是一個難以分說的雞生蛋還是蛋生雞的問題。一味地批判大數據分析對個人用戶數據的泄露或濫用是不客觀的。
因為,社交媒體的本質在於分享和傳播,社交媒體的出現的確滿足了人們分享個人信息、曬各種數據的慾望,讓人們在過去無聲無息的生活中突然轉移到了可以讓全世界看到自己的平台上來。人們從而達到了內心的滿足感和存在感。因此,單從個體的背後心理來考慮,社交媒體對他們來說是有益的,他們不認為自己貢獻的是不可告人的秘密,既然分享出來,那一定是希望或允許別人看到的。因此,這是一種無形的默許的交易,用戶樂意把自己的各種瑣碎細節暴露於社交媒體,而對社交媒體上雜亂無章的海量用戶數據進行有序的分類和分析也沒有什麼不妥。
當然,如果社交媒體平台隨意濫用或泄露用戶的後台數據,比如個人聯系方式、家庭住址、銀行等極為隱秘的信息,這的確是赤裸的侵犯隱私的行為,極其沒有道德,必須要受到譴責和法律制裁。
但目前,許多大數據精準營銷的前提是對用戶在互聯網上留下的公開顯在的信息進行演算法歸類和內容分析,從而對海量用戶進行人群劃分,或者對小眾群體進一步細分化,甚至達到某種程度上針對單個人的個性化定製,最終達到精準推送廣告或有針對性推出營銷活動的目的。
所以,從這個角度來看,大數據精準營銷與個人主動分享和傳播到網路上的信息數據之間並沒有矛盾。人們起初或許會驚訝:為什麼他們知道我想買什麼?為什麼他們知道我的需求?但隨著「猜透心思」的推送行為讓人們的生活越來越便利時,比如省去大量搜索、查找和對比產品或服務的時間,他們可能會十分習慣並依賴這種精準性,並不會在意他們本來就隨意分享到網路上的雜亂信息被如何挖掘和利用。
因此,用戶發布和分享的信息是否為隱私,在用戶分享信息之前就做過慎重考量和篩選。這一點非常重要,這是侵犯隱私與否的界限。那些被用戶選擇為不適合發布或不希望別人知道的信息就是用戶認為的隱私,而那些已經公開發布到社交媒體或網路上的信息則被用戶認為是可以傳播的。
所以,普通的對海量公開信息的分析、挖掘、歸類,從而進行精準營銷的大數據行為不能一味被罵成是對用戶利益的損害。而那些對用戶存儲在某些位置、不希望被他人了解的信息(私人存儲的信息)如果被別有用心的人泄露或利用,那這就是隱私侵犯行為。但這就不能歸罪於大數據,而應質問存貯平台的安全性問題。
因此,我們不能過分解讀大數據精準營銷。其實,問題的本質在於,人們是否真的在意雜亂信息的去向(涉及到分享信息的背後心理和動機)?以及大數據營銷是否真的觸碰了人們不可告人的秘密或底線(需要對秘密和底線重新定義)?因為,如果人們默認分享的都是公開的,那麼侵犯隱私的概念就是不成立的。如果人們有不希望別人知道的信息,也不會貿然在網路上分享和傳播。
三、大數據營銷究竟會給企業和用戶帶來什麼價值?
討論完上面的問題之後,我們是否應該誠懇對待大數據精準營銷這件事?那麼大數據營銷究竟對於企業和用戶兩方面來說,都有什麼樣的價值?
1、對於企業的價值
讓我們先看一個國外案例:
我們都知道美劇《紙牌屋》,提到《紙牌屋》的成功,最大的功勞便是大數據分析。因此,《紙牌屋》幾乎成了大數據營銷的經典案例,也是美國Netflix公司基於用戶信息挖掘來決定內容生產的成功嘗試。
Netflix的訂閱用戶達到了3000萬左右,而大多數用戶的觀影都與精準推薦系統有關。Netflix會定時收集並分析用戶觀看電影或電視劇的行為,比如根據用戶對電影的評分、用戶的分享行為、用戶的觀影記錄等信息去分析用戶的收看習慣,從而推斷用戶喜歡什麼樣的影視劇,喜歡什麼樣的風格,喜歡什麼樣的導演和演員。在此基礎上利用演算法對用戶感興趣的視頻進行推薦排序,直到用戶找到最喜歡的影視劇。《紙牌屋》的導演和主演就是Netflix挖掘用戶信息後的預測出來的。
那我們再看一個國內案例:
我們都知道阿里巴巴和新浪微博合作的事情,阿里巴巴斥資5.86億入股新浪微博。除了網路上各大媒體分析的,認為阿里巴巴希望打造生態圈、強化流量入口、挑戰騰訊等等原因之外,還有一個重要原因或許就是大數據營銷的戰略。
如今各大互聯網大佬都在跑馬圈地,圈住用戶,誰能圈住用戶,讓用戶在其平台上活躍,誰就掌握了用戶的大量信息(包括顯在的前台信息和隱藏的後台信息)。新浪微博在中國有幾億用戶,這個量十分龐大,但如果新浪不能把這些用戶產生的信息合理的利用,那麼這些資源就是巨大的浪費。我們再看阿里巴巴,中國最大電商平台,它有產品,但是卻沒有完整的用戶日常生活行為信息,只有購買信息,但這些購買信息不足以了解人群特點和喜好。所以,只有跟新浪微博合作,掌握大量用戶的行為信息,從而對其分類,找到不同人群甚至不同個體的喜好、偏好、興趣、愛好、習慣、傳播習慣、分享路徑等等,那麼就能實現精準營銷,甚至還可以通過不同用戶的信息傳播規律,而制定產品的最佳品牌傳播途徑。這是一座巨大的金礦。
新浪微博和阿里巴巴合作後,微博上出現了一些產品推薦信息,同時新浪微博已經推出支付功能。可以想像:未來你在微博上看到相關推薦的產品,恰好是你喜歡的產品,那麼你就可以直接在微博上實現支付和購買。從而新浪微博和阿里巴巴各取所需,共享收益。當然,這是我個人的觀察和分析,不過阿里巴巴的大數據戰略也很明顯了。
2、對於用戶的價值
上述兩個例子說的都是大數據帶給企業的價值,那麼,大數據營銷對於用戶來說,到底有沒有價值?用戶是否十分反感精準營銷?讓我們再來看看一個新的調查數據:
中國傳媒大學國家廣告研究院剛剛發布一份《2014中美移動互聯網發展報告》,這份調查報告對比了中美兩國用戶移動互聯網的使用習慣,以及移動用戶對於移動廣告的態度。
調查顯示,最可能得到智能終端用戶回應的廣告內容為:(1)與用戶要購買物品相關的廣告(2)與要購買物品相關的優惠券(3)搞笑的廣告(4)與用戶最喜愛品牌相關的廣告(5)與用戶在線上訪問過網站或使用過的應用相關的廣告(6)與最近線上購物相關的廣告(7)與用戶所在場所相關的廣告(8)與最近收聽、收看的廣播/電視相關的廣告。(佔比>=20%)
從這些數據我們可以看出,在8個結果中,有6個都是跟大數據精準營銷扯上關系的。比如,與用戶要購買物品相關的廣告,更能引起用戶的回應或互動。如何理解?大數據營銷的前提就是計算並推測用戶的真實需求,看用戶需要購買什麼相關產品,然後給用戶直接推送用戶想要的、喜歡的,做到了精準到達。那麼用戶呢?用戶樂意對這樣的推動廣告或產品做出回應,因為這些廣告少了對用戶的打擾,並且讓用戶費勁心思對對比或貨比三家後才購買的決策過程降低,節省了時間,讓用戶直接找到內心真正所需的產品或服務。
所以,這樣的結果就表明,大數據精準營銷並不是完全都會讓用戶反感,而是看你猜透用戶心思的程度。因此,如果你推送的內容和用戶想要購買的物品相關,與用戶最喜愛的品牌相關等等。那麼這種精準挖掘並不會受到用戶的反感,反而會給用戶帶來便利。

以上是小編為大家分享的關於扒扒跟大數據有關的那些事兒的相關內容,更多信息可以關注環球青藤分享更多干貨

閱讀全文

與批判大數據相關的資料

熱點內容
maya粒子表達式教程 瀏覽:84
抖音小視頻如何掛app 瀏覽:283
cad怎麼設置替補文件 瀏覽:790
win10啟動文件是空的 瀏覽:397
jk網站有哪些 瀏覽:134
學編程和3d哪個更好 瀏覽:932
win10移動硬碟文件無法打開 瀏覽:385
文件名是亂碼還刪不掉 瀏覽:643
蘋果鍵盤怎麼打開任務管理器 瀏覽:437
手機桌面文件名字大全 瀏覽:334
tplink默認無線密碼是多少 瀏覽:33
ipaddgm文件 瀏覽:99
lua語言編程用哪個平台 瀏覽:272
政采雲如何導出pdf投標文件 瀏覽:529
php獲取postjson數據 瀏覽:551
javatimetask 瀏覽:16
編程的話要什麼證件 瀏覽:94
錢脈通微信多開 瀏覽:878
中學生學編程哪個培訓機構好 瀏覽:852
榮耀路由TV設置文件共享錯誤 瀏覽:525

友情鏈接