導航:首頁 > 網路數據 > 大數據傲慢

大數據傲慢

發布時間:2023-09-10 18:57:21

㈠ 如何理解傳統數據與大數據之間的區別

針對大數據帶給教育的機遇與挑戰,與讀者深入探討和分享大數據與傳統數據的區別,及其行業落地的進展情況。

二、大數據時代潛藏的教育危機

「不得不承認,對於學生,我們知道得太少」——這是卡耐基·梅隆大學(Carnegie Mellon University)教育學院研究介紹中的一句自白,也同樣是美國十大教育類年會中出鏡率最高的核心議題。這種對於學生認識的匱乏,在21世紀之前長達數百甚至上千年的教育史中並沒有產生什麼消極的效應,但卻在信息技術革命後的近十年來成為教育發展的致命痼疾。

「過去,對於學生來說,到學校上學學習知識具有無可辯駁的重要性,而那是因為當時人們能夠接觸知識的渠道太少,離開學校就無法獲取成體系的知識」斯坦福大學教授Arnetha Ball在AERA(美國教育研究會)大會主旨發言中說道,「但是,互聯網的普及將學校的地位從神壇上拉了下來。」Ball的擔心不無道理。根據Kids Count Census Data Online發布的數據,2012年全美在家上學(Home-Schooling)的5-17歲學生已達到197萬人,相對逐年價下降的出生人口,這一人口比重十分可觀。

與此同時,應運而生的則是內容越來越精緻的網上課堂,而創立於2009年並迅速風靡全球的可汗學院(Khan Academy)正是其中的傑出代表。從知名學府的公開課到可汗學院,這種網路學習模式受到熱捧恰恰證明了:人們對於學習的熱情並沒有過去,但是人們已經極端希望與傳統的學院式授課模式告別。一成不變,甚至「目中無人」的傳統集體教學模式在適應越來越多元化、也越來越追求個性化的學生群體時顯得捉襟見肘。

可汗學院模式不但支持學生自主選擇感興趣的內容,還可以快速跳轉到自己適合的難度,從而提高了學習的效率。學習者沒有學習的壓力,時長、時機、場合、回顧遍數都可以由自己控制。

可以想像,如果可汗學院的模式進一步發展,與計算機自適應(CAT)的評估系統相聯系,讓使用者可以通過自我評估實現對學習進度的掌握以及學習資料的精準獲取,那麼它將形成互聯網產品的「閉環」,其優勢與力量將是顛覆性的。

而如果傳統教育的課程模式不革新,課堂形態不脫胎換骨,教師角色與意識不蛻變,那麼學校的存在就只有對現代化學習資源匱乏的學生才有意義;而對於能夠自主獲得更適宜學習資源的學生來說,去學校可能只是為了完成一項社會角色賦予的義務,甚至談不上必要性,也就更談不上愉快的體驗或興趣的驅使了。

大數據的研究可以幫助教育研究者重新審視學生的需求,通過高新的技術以及細致的分析找到怎樣的課程、課堂、教師是能夠吸引學生的。但問題在於,社會發展給予教育研究者的時間窗口並不寬裕,因為有太多人同樣在試圖通過大數據挖掘設法瓜分學生們有限的精力與注意力。而且從某種程度上,他們做得遠比教育研究者更有動力與誠意。

首當其沖的是游戲的設計者——青少年是其主要消費群體。撇開馳名世界的暴雪公司(Blizzard Entertainment),美國藝電公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等國際巨鱷不談;即使是國內的盛大網路,第九城市,巨人科技,淘米網路等游戲公司,亦都早已組建了專業實力強勁的「用戶體驗」研究團隊。他們會通過眼動跟蹤,心律跟蹤,血壓跟蹤,鍵盤與滑鼠微操作速率等各種微觀行為來研究如何讓玩家在游戲中投入更多的時間,更加願意花真實世界的錢來購買虛擬世界的物品。什麼時候應該安排敵人出現,敵人應當是什麼級別,主人公需要耗費多少精力才能夠將其擊敗,這些變數都得到了嚴格的設計與控制,原因只有一個——大數據告訴游戲創作者,這樣的設計是最能夠吸引玩家持續游戲的。

其次是電影視頻、青春小說等鏈式文化產業。為什麼在網站上看視頻會一個接一個,無法停止,因為它會根據該賬號的歷史瀏覽記錄推算出其喜歡看什麼樣的視頻,喜歡聽什麼類型風格的歌,並投其所好;而暢銷網路小說看似並沒有「營養」,但裡面的遣詞造句、語段字數,故事起伏設定,甚至主人公性格的類型都是有相關研究進行支持——讀者往往並不喜歡結構嚴密、精心設計的劇情——這就是為什麼情節千篇一律的韓劇受人追捧的原因,他們通過收視率的反復研究,挖掘到了觀眾最需要的那些元素,並且屢試不爽。

此外還有許多更強大的研究者,比如電子商務,總能通過數據找到你可能願意購買的商品——他們甚至知道買尿片的父親更願意買啤酒。

這些領域看似與我們教育者並無特別關聯,但是他們與我們最關心的對象——學生卻有著千絲萬縷的聯系。數百年甚至數十年前,學生並不會面對如此多的誘惑,學校在其生活中占據極大比重,對其影響也最為顯著,因此教育者對於學生的控制總是有著充分的自信。但是,當不同的社會機構與產品開始爭奪學生的注意力時,教育者的自信就只能被認為是一種無法認清形勢的傲慢了——因為在這場「學生爭奪戰」中,傳統學校看上去實在缺乏競爭力。

即使教育研究者願意放下身段,通過大數據的幫助來悉心研究學生的需求與個性。但是人才的匱乏也是非常不利的一點因素——相比於商業環境下對研究實效的追逐,教育研究的緩慢與空洞顯得相形見絀。在互聯網企業紛紛拋出「首席數據官」的頭銜,向各種數據科學狂人拋出橄欖枝,並且在風險投資的鼓舞下,動輒以百萬年薪進行延聘時,大數據研究的前沿陣地必然仍是在互聯網行業中最轟轟烈烈地開戰。

分析形勢後的姿態,以及投入的力度與強度,或許是教育領域在進入大數據研究時最先需要充分考慮的兩個先決條件。

三、誰在為大數據歡呼:一場關於「人性」研究的啟蒙

孜孜不倦地觀測、記錄、挖掘海量的數據,有朝一日終會推導出或簡約或繁復的方程,以此得以在自然科學的歷史豐碑上留名——數百年來,這種對數據的崇拜早已成為了物理學家、化學家、生物學家、天文地理學家們的信念。而牛頓,貝葉斯,薛定諤等一代代巨匠的偉業也揭示了數據對於科學發現的無限重要價值。

相形之下,社會科學領域的研究就要慘淡地多——他們同樣看重數據,同樣追求統計與分析的「程序正義」,同樣勤勤懇懇地設計實驗與調研,去尋找成千上萬的被試,同樣像模像樣地去嵌套方程……但是幾乎很少有研究結果能夠得到普遍的承認,不管是社會學、心理學、經濟學、管理學還是教育學。

當然,社會科學領域的研究者們遇到的困難是顯而易見的:「人性」與「物性」是不同的,物質世界比較穩定,容易尋找規律;而由人組成的社會極其善變,難以總結。從數據的角度來說,人的數據不如物的數據那麼可靠:

首先是人不會像物那樣忠實地進行回應:誰知道一個人填寫的問卷有多少是注意力不集中填錯的、語文水平不高理解錯的、還是壓根沒打算講真話?此外,人與人本身的差距也大於物與物的差距:兩個化學組成相同的物質表現出各種性質幾乎是完全一樣的,但即使是兩個基因完全相同的雙胞胎也會因為不同的人生經驗,而表現出大相徑庭的行為特徵。

但這些都還並不關鍵,最最重要的是:人無法被反復研究。人不是牛頓的木塊,不是伽利略的鉛球,不是巴普洛夫的狼狗,人不會配合一次次從斜坡上被滑下來,一次次從比薩塔頂被扔下來,一次次流著口水乾等著送肉來的鈴聲。而我們知道,在「科學」的三個標准中,首當其沖的就是「可重復驗證」。

換句話說,我們可以獲得的關於「人性」的數據不夠大,不夠多,不夠隨時隨地,因此我們無法從數據中窺見人性。2002年諾貝爾經濟學獎授予心理學家丹尼爾?卡尼曼(Daniel Kahneman)時,似乎標示著社會科學領域已經接受了這樣一種事實:人類的行為是無法尋找規律、無法預測、難以進行科學度量的。社會科學開始懷疑用純粹理性的方法是否可以解答關於「人性」的種種現象。與此相映成趣的是2012年的美國大選,奧巴馬的團隊依靠對網路數據的精準篩選捕捉到了大量的「草根」選民,而對於其喜好與需求的分析與把握更是贏得其信任,從而在不被傳統民調與歷史數據規律看好的情況下一舉勝出。這跨越十年的兩個標志性事件讓人們對於「數據揭示人性」可能性的認識經歷了戲劇性的轉變。

如今,迅速普及的互聯網與移動互聯網悄然為記錄人的行為數據提供了最為便利、持久的載體。手機,iPad等貼近人的終端無時不刻不在記錄關於人的點點滴滴思考、決策與行為。最最重要的是,在這些強大的數據收集終端面前,人們沒有掩飾的意圖,人們完整地呈現著自己的各種經歷,人們不厭其煩一遍又一遍重復著他們不願在實驗情境下表現出來的行為,從而創造著海量的數據——傳統數據研究無法做到的事,傳統研究範式苦苦糾結的許多難點,都在大數據到來的那一剎那遁於無形。

大數據的到來,讓所有社會科學領域能夠藉由前沿技術的發展從宏觀群體走向微觀個體,讓跟蹤每一個人的數據成為了可能,從而讓研究「人性」成為了可能。而對於教育研究者來說,我們比任何時候都更接近發現真正的學生。

㈡ 網友拿出證據,天貓超市大數據是否存在「殺熟」

這是一個發生在2020年3月8日的一件事,在天貓3·8活動期間,由於“新人專享價”的標識沒有正常顯示,造成了很多用戶產生同款商品不同價的誤解,被廣大網友認為了大數據“殺熟”。當然,這個問題也得到了官方很快的修復,不過在天貓超市,只要是88VIP用戶,始終都可以在結算的時候,獲得9.5折的優惠,因此不存在所謂的大數據殺熟。

因此調查的結果顯示出,在遭遇到“大數據殺熟”之後,一般很難維護自己的正常權益,主要是由於“大數據殺熟”具有隱蔽性,維權的時候很難取證,因此維權道路舉步維艱。而過半數的調查者都存在被“大數據殺熟”的經歷,但因為經營者通常會以不同的商品型號和不同的套餐優惠程度或是配置,或是時間點等理由進行辯解,同時又不對外公布他們具體採用的演算法、規則和數據,因而當消費者們在遇到這些類似問題的時候,很難找到證據來證明。

㈢ 大數據時代,怎樣更"開心"的活著

知足者常樂

㈣ 「大數據」如何接地氣

「大數據」如何接地氣

8月19日,國務院常務會議通過《關於促進大數據發展的行動綱要》,提出要通過促進大數據發展,提升創業創新活力和社會治理水平。在上述國務院常務會議中,大數據被定義為「基礎性戰略資源」。促進大數據發展,有利於推動大眾創業、萬眾創新,改造升級傳統產業,培育經濟發展新引擎和國際競爭新優勢。《綱要》強調,使開放的大數據成為促進創業創新的新動力。讓各類主體公平分享大數據帶來的技術、制度和創新紅利。
1.產業 開放:數據創業全面爆發
案例:
在日前舉行的「雲上貴州」大數據商業模式大賽總決賽上,涌現了很多實用的大數據應用。其中,獲得一等獎的「東方祥雲」項目設想為全國15萬座水電站、水庫提供免費來水預報,幫助合理調度用水,據估算可為這些單位信息化改革節省90%的成本。
《綱要》提出,使開放的大數據成為促進創業創新的新動力。對此,阿里雲總裁胡曉明表示,這將極大地推動數據經濟的發展。他認為,在數據處理技術時代,數據就是生產力。「數據創業會在明年全面爆發,會有更多的人參與到為政府、企業提供數據服務、數據能力、數據交易、數據撮合中來。」
網路、阿里淘寶和支付寶、騰訊qq微信、銀行業、移動運營商、公交卡、各種手機App……在各行各業,許多有價值的大數據潛力正待挖掘。今年5月,成立僅一個月的貴陽大數據交易所推出的《2015年中國大數據產業白皮書》顯示,預計到2020年,中國大數據產業市場規模將超過這個市場去年規模的10倍,由2014年的767億元擴大至8228.81億元。
「中國的大數據時代才剛剛開始,各路群雄創新商業模式、搶占戰略高地。傳統產業中藏有海量的寶貴數據,只是沒有利用起來。」清華大學數據科學研究院執行副院長韓亦舜說。
大數據的「新玩法」可謂超乎想像,但大數據的利用價值遠不止如此。以中國公路物流行業為例,其市場價值已達億萬元級,而90%以上運力為個體車主,空駛率達30%以上,大數據應用可以充分利用物流資源。
中國工程院院士、中國互聯網協會理事長鄔賀銓表示,硬體、軟體和服務三者之和,也僅僅是狹義的大數據產業,廣義的大數據產業的范圍和規模都更大。通過大數據挖掘的服務,大數據可以利用在各行各業,提高生產效率,支撐節能降耗,促進經濟發展,因此廣義的大數據產業的產值,更多地體現在工業、農業、交通運輸、建築等產業中。事實上,大數據分析在社會福利和民生服務上的效益很顯著,並不是簡單地用GDP可以衡量的。這是我國實現跨越式發展的寶貴機會。
「大數據加速了信息技術向傳統產業滲透,成為新產業革命的重要引擎。」鄔賀銓表示。
2.政府 共享:消除信息孤島
案例:
8月17日,河北省承德市政府與神州數碼簽署市民融合服務平台及企業融合服務平台戰略合作協議。至此,神州數碼與近40個城市簽署智慧城市戰略合作協議,形成了一系列卓有成效的解決方案,成為中國市場領先的「智慧城市專家」。
事實上,在我國,各級政府的交通、醫療、就業、市政、民政等各個部門都擁有大量的統計數據,但由於沒有共享機制和價值挖掘,這些數據一直在「沉睡」。「已有的數據首先要使用起來,發現閑置的價值;那些原本沒有,但事實證明對自己有用的數據要趕緊採集、挖掘新價值。」韓亦舜說。
此次《綱要》提出,要推動政府信息系統和公共數據互聯共享,消除信息孤島,加快整合各類政府信息平台,避免重復建設和數據「打架」,增強政府公信力,促進社會信用體系建設。優先推動交通、醫療、就業、社保等民生領域政府數據向社會開放,在城市建設、社會救助、質量安全、社區服務等方面開展大數據應用示範,提高社會治理水平。
神州數碼董事局主席郭為指出,此次通過的《綱要》強調消除信息孤島,實際上就是要求將分散在各個部門的政府服務及公共服務進行統一,這些服務和大數據將來都有助於大數據領域企業的發展。郭為分析說,此舉還會對大眾創業、萬眾創新帶來明顯的推動力。在政府數據開放的要求和規則下,大數據領域的企業可以通過城市公共信息服務平台匯集城市的各類基礎性數據,通過平台實現數據共享。以此為基礎,廣大年輕人和創業者就可以利用政府開放數據和其他相關開放數據,開發出成千上萬為百姓民生服務的豐富多彩的應用產品,進一步營造大眾創業、萬眾創新的氛圍。
「數據既具有一般資產的價值,又具備一般資產不具備的屬性。」韓亦舜說,「一般資產你有了,我就沒有;把我的給了你,我就沒有了。但數據不一樣,把我的數據給了你,我的數據還在,這就決定了大數據時代需要人們的心胸更開闊。大數據時代,1+1產生的價值將會被無限放大,遠遠大於2,數據的疊加會發生化學反應。」
「美國將大數據分析作為國家戰略來推動,政府帶頭進行數據開放。美國聯邦政府建立統一數據開放門戶網站,為社會提供信息服務並鼓勵挖掘與利用。中國很多部門擁有的數據互不溝通,很難共享,導致信息不完整或重復收集等。因此,中國需要有國家層面的大數據戰略、開放數據的措施及法規等。」鄔賀銓說,政府應通過體制機制改革打破數據割據與封鎖,應注重公開信息,重視數據挖掘。
3.法制 安全:要防止數據被濫用
案例:
2012年2月16日,《紐約時報》刊登了一篇題為《這些公司是如何知道您的秘密的》的報道。文中介紹了這樣一個故事:一天,一位男性顧客怒氣沖沖地來到一家折扣連鎖店向經理投訴,因為該店竟然給他還在讀高中的女兒郵寄嬰兒服裝和孕婦服裝的優惠券。但隨後,這位父親與女兒進一步溝通發現,自己女兒真的已經懷孕了。
這一故事,經常被作為大數據挖掘能力的典型例證。但在專業人士看來,這一案例體現出的並不是大數據的「聰慧」,而是大數據的「傲慢」,個人隱私並沒有得到足夠尊重。
「我今天上淘寶網購物,淘寶有我個人數據,我的行為數據是屬於淘寶還是屬於我?目前國際法律認為這個數據屬於消費者。淘寶可以用,可用於提升用戶體驗,但如果淘寶把該數據賣給第三方就不行。」百分點董事長蘇萌說,但如果淘寶賣出的不是原始數據而是其分析結果,這種第三方分享的形式在美國目前大部分市場上是認可的,如IBM等企業也在利用這些數據為第三方提供服務。
但有業內人士認為,大數據在涉及交換、分析、挖掘時,個人信息是無法直接過濾的。這些個人隱私數據散落在中介、銀行、保險、航空公司等機構間,危險性可能不大。但如果被共享之後,又被系統整合、相互印證的話,消費者的個人基本信息,甚至性格、愛好以及生活軌跡等信息將被他人一覽無余,很多普通人將變成「透明人」。
韓亦舜認為,目前,隱私問題存在著利己主義的悖論。「舉例來講,上海跨年夜發生的踩踏事件,技術上可以看到人流的變化趨勢,是完全可以預警、預防的,悲劇的發生直接關系著數據倫理問題。數據安全或者保護數據就一定對嗎?這里也有一個倫理問題。」
「在美國,一些公司把『底層』的詳細個體數據去除掉,這樣能規避掉一些隱私和安全問題。」清華大學蘇州研究院大數據中心副主任趙勇表示,從大數據監管來說,「最適合的是政府」。上海已成立大數據局,這是對數據管理的專業政府機構。最核心的管理是從法制上界定「數據擁有者是誰」「使用者是誰」「使用許可權如何定義」「誰是受益者」等。

以上是小編為大家分享的關於「大數據」如何接地氣的相關內容,更多信息可以關注環球青藤分享更多干貨

㈤ 拼多多利用大數據優勢侵害用戶利益,用戶斥責黃崢缺乏基本道德觀


近日YOUNG 財經 接到讀者投稿,講述其作為一名普通用戶在拼多多平台上購物時,被引誘開通會員卡、累計消費積分的黑幕,同時購買的有「運費險」的店鋪商品在退貨時,平台不為其退運費。在最後他發問:拼多多董事長黃崢發布2021年度致股東信中表示,辭任董事長後,自己將結合個人興趣,致力於食品科學和生命科學領域的研究,並著眼於拼多多未來的長遠發展,「去摸一摸10年後路上的石頭」。但一個缺乏基本道德觀的人,同時也是擁有足夠資本的人,進入食品科學和生命科學領域,會不會是一顆中國 社會 的定時炸彈?

以下為拼多多用戶的口述實錄:

作為使用拼多多的買家,初期我在拼多多上拼單網購,感覺能夠選到一些我需要的物美價廉的小商品,而且溝通過的商家多數也挺靠譜,便支付並開通了平台提供的省錢月卡。

成為月卡會員後,在我有購買小商品的需求時,也會習慣性的打開拼多多平台,在上面選購商品。因為月卡規則中有「消費金額滿額贈積分」,慢慢地我發現,由於我購買的次數增加、累計金額增加後,拼多多平台給我這個月卡會員的積分門檻也隨之增加。例如:當我一天購物只有三四十元的時候,平台會提示我消費滿48元贈10積分;當我買幾樣稍貴些商品的時候,平台贈10積分的要求變為100-200元左右;如果我連續幾天不再消費大金額,平台的積分門檻隨之下降。這些是很明顯的,拼多多平台利用掌握的客戶消費習慣的大數據,引誘和捆綁客戶。作為弱勢的消費者,也只能聽之任之。

截圖由用戶提供

由於我挑選小商品及拼多多上商家比較審慎,所以周邊的親朋好友們建議我開個小店,幫他們挑選實用的小商品,省去他們在平台上瀏覽挑選的時間,也免去他們會遇到不淑商家的麻煩。這也就是我會在拼多多平台上購物逐漸增多的原因。拼多多發現我的購物習慣的改變,將之前下單數量對應積分數的規則也隨之悄悄地改變,我被要求滿足800-1000元不等的消費金額後,贈10積分。拼多多做到這樣,我也沒有過多的在意。

拼多多承諾月卡會員的另一條福利,是當月購買15單,單價滿足25元時,在這15單里隨機免一單,免單的金額,會以平台優惠券的形式發放給會員,會員可以在下一個訂單支付時使用。我在4月當月已拼385單滿足平台條件後,系統顯示我已免一單,金額是28.9元,

但是我卻沒有收到任何的此金額的優惠券,向平台客服反映多次無果,在線客服的回復永遠是機器人式的套話,終於有個電話客服與我對話了,她告訴我,她會向相關部門反映,三天內答復我,當時是4月24日,直到今天5月5日,我未接到拼多多官方客服的來電解釋。

接下來,拼多多平台更是利用其大數據優勢,在我退貨時,剋扣我的運費。因為是幫別人選商品,擔心由於個人的喜好,或是產品質量問題,我都會選擇有運費險的商家,但是當我退貨成功後,平台卻不通過我的運費補貼申請。

我與拼多多在線客服溝通多次,他們均以讓我投訴商家為由,答非所問,迴避問題。

顯而易見在拼多多這個平台上頃盯,無論是商家還是買家,都是處於弱勢的。我撥打拚多多官方客服電話,接通後是錄音讓你等待,我等待了近20分鍾,沒有任何真人接聽,或是看到客戶來電後的任何回復。

互聯網的時代,涌現出眾多連接消費者與商家的電商平台,的確拓展了商家的市場,也為消費者提供了更多選擇的機會。但是眾多平台中也有一些利用其技術優勢,控制入駐商家,在抽取商家經營利潤的同時,對消費者的信息進行多維度的利用,以達到其獲得更高利益的目的。國家監管部門基於對這些不良互聯網大拆電商平台的治理,2019年實施了《電子商務保護法》,但是即使在國家加大對互聯網電商平台監管的同時,拼多多作為中國排名居前的電商平台,卻對消費者使用「大數據殺熟」,遇到投訴,傲慢的將責任推給入駐商家,雀仿和意在將消費者的不滿引向商家,製造矛盾。不僅侵害消費者利益,還會擾亂正常的 社會 秩序,行為很惡劣。

本人作為一個具有本科學歷,並在一線城市工作和生活的消費者,在權益受到拼多多官方侵害時,都無力應對,那麼被拼多多瞄準的下沉市場的農產品供應商家們,在「享受」拼多多提供電商平台服務的時候,大概率也是對拼多多的不公平待遇,只能聽之任之了。

我一個人遇到的侵害是28.9元的產品,和10元的運費。根據《中國互聯網路發展狀況統計報告》顯示,截止2020年12月,中國網民規模約9.89億。我國網路購物用戶規模約7.82億。在拼多多發布的2020年第四季度及全年財報中:截至2020年底,拼多多年活躍買家數達7.884億,成為中國用戶規模最大的電商平台。四季度,拼多多APP平均月活躍用戶數達7.199億,單季新增7650萬。截至2020年底,拼多多年成交額(GMV)為16676億元,同比增長66%,拼多多營收增長146%至265.477億元。不知道拼多多營收的265.477億元中,是多少個28.9元和10元的無德無良的收入組成的呢?

拼多多董事長黃崢發布2021年度致股東信中表示,辭任董事長後,自己將結合個人興趣,致力於食品科學和生命科學領域的研究,並著眼於拼多多未來的長遠發展,「去摸一摸10年後路上的石頭」。一個缺乏基本道德觀的人,同時也是擁有足夠資本的人,進入食品科學和生命科學領域,會不會帶來新的問題?

㈥ 大數據時代,科技走到了宗教盡頭

大數據時代,科技走到了宗教盡頭

這是一個人人都言「大數據」的時代,然「大數據」存在於何處?影響於何處?難免,普通大眾被席捲而來的「大數據」之潮迷亂了眼睛,攪亂了思緒。正是在這樣的時刻,筆者認為尤為重要的是保有敬畏之心與清醒的思維,認識到「大數據」的局限性。

滲透時刻,無處不在的大數據

大數據可能是時下最吸引眼球的話題之一。從通過鮮花與安全套銷量比分析不同城市的浪漫指數到發現深處內陸的新疆人民反而比基尼銷量第一,從為節能減排做貢獻到德國國家隊利用大數據技術搜集球員信息征戰世界盃到根據敵方機場起降信號,一分鍾內分析出起降批次,戰斗機型號等細節,再到獲得獲第86屆奧斯卡金像獎最佳原創劇本獎的《她》,劇本內主角和人工智慧系統之間感情逐漸加深直到愛上彼此,大數據給人帶來無盡遐想,帶來無限精彩的可能。

就像馬雲所說的那樣,人類已經從IT時代走向DT時代。阿里巴巴集團數據委員會長車品覺在他的著作《決戰大數據》裡面也強調了兩個重要觀點:其一,大數據徹底消除了「樣本偏差」(sample bias)。「樣本跟大數據不同。大數據相信全量數據,而非樣本;是分析得出,而不是抽樣獲得」;其二,大數據時代的相關性分析可以創造以前無法想像的場景。極端情況下,線上數據的積累,可以形成個人的」線上人格」,影響乃至控制人的線下行為。

傲慢是罪,保持一顆敬畏之心

大數據前景如此美好,竟讓我無言以對。然而,傲慢是罪。「智慧果」讓人類擁有了智慧,但同時也讓離開伊甸園的人類從此無法擺脫傲慢的原罪。從「通天塔」到在「地上建立天國」,失去敬畏之心的人類往往給自己造成巨大傷害。大數據時代,同樣應該保持一顆敬畏之心,認識到以下三點。

一、樣本偏差始終存在,大數據沒有超越統計學

什麼是樣本偏差?這方面最精彩的例子來自二戰。其簡化版本是,英國皇家空軍苦惱於德軍兇猛的防空炮火,想通過加強飛機裝甲降低戰斗機損耗率。但受制於飛機載重,只能在部分部位加強裝甲。為此,他們求助於一位統計學家。在仔細觀察成功返回機場飛機上的著彈痕跡後,專家給出了出人意料的結論:在沒有著彈痕跡的部位加裝裝甲。面對質疑,統計學家只回答了一句話。「那些部位著彈的飛機都墜落了」。可見,統計學永遠是個手藝活,沒有兩把刷子是要害死人的。

本質上來說,統計學就是用部分推測整體,用過去預測未來的理論體系。其最大的弱點在於部分推測整體時,樣本偏差會讓結論失效。那麼,在大數據時代,是否真的來到了天堂,沒有樣本偏差的困擾了?答案顯然是否定的。從現象上來看,即使在大數據時代,數據與應用場景也會有嚴重割裂。拿情人節鮮花和安全套比率這個例子來說,基於「你懂得」的原因,很多安全套消費發生在線下,線上無法獲取該數據。因為技術手段或商業模式本身的限制,線上系統能採集到的數據只是完整場景中的一部分,不是全部數據。再比如新疆人民比基尼銷量第一的例子。數據分析人員如果不能意識到真實場景中,新疆的比基尼銷售量主要集中線上(線下傳統渠道銷量很少或者基本沒有?)但其它省份比基尼銷售主要在線下(線上銷量佔比8%~10%)就會得出錯誤的結論。同時,在新疆,淘寶天貓的網上銷量基本代表了真實的網上銷量。但在北上廣這些一線城市,京東的線上銷量已經和淘寶天貓相當,只考慮阿里系的數據,會嚴重低估真實銷量。

從理論上分析,數據與應用場景的割裂本質上就是樣本偏差。因為技術或者利益的原因,大數據時代搜集的數據也不能完全覆蓋應用場景的各個環節,所取得的數據仍然是部分,不是全部。最後,從哲學層面來說,即使以後技術有了長足的進步,解決數據與場景的割裂問題,同時也有了完美的商業模式可以讓競爭對手樂意互相分享數據,樣本偏差仍然會存在。其核心在於,人類雖然有能力認識客觀世界的所有規律,但客觀世界本身並不是靜止的,而是在不斷運動當中。過去的數據,一定不能體現客觀世界未來的發展規律。「刻舟求劍」的理念不符合實際。從這個角度上來說,「黑天鵝」事件的本質就是樣本偏差。技術再先進,商業模式再精妙,也不能解決這個問題。所以說,即使在大數據時代,人們還是應該有敬畏之心,在這個時代,科技確實遊走到了宗教邊緣。

二、大數據結論是統計學意義上的整體性結論,並不是針對個體

任何基於統計學的理論分析和結論都是整體性的。阿西莫夫在他的著作《基地》里完美的闡述了這一觀點。哈利.謝頓以銀河系裡2000萬星球上百億億居民為研究對象,成功創建了心理歷史學,並以此成功預測了銀河帝國會經歷長達三萬年的黑暗野蠻時期和銀河第二帝國的出現。但無法用該理論預測個體。所以它無法預言變異人騾的出現。若非第二基地的存在,整個復興計劃險些失控。《失控》也描述了類似的現象。深海里的魚群作為一個整體,行為規律非常容易預測。但單個個體行為毫無規律,難以預測。淘寶/天貓的「千人千面」是大數據時代的重要嘗試。其核心基於大數據,為淘寶/天貓客戶展現個性化搜索結果。該項目核心細節並不為外人所知,但基於理論分析,可以做出合理的推測。首先,淘寶/天貓搜集的數據一定不是所謂的「全量數據」,現有條件下,很多與顧客購買興趣相關的核心數據無法被搜集。其次,即使模型准確率能達到99%,對於一個上億規模的平台來說,也有近千萬的客戶會有比較差的用戶體驗。基於此,「千人千面」個性化程度必須做合理化約束,否則,理想越美好,現實就會越骨感。

三、相關性始終不是因果,這方面應用陷阱和機會一樣多

相關性分析是數據分析利器,同時又是最容易引入問題的地方。相關並不是因果。統計數據顯示,冰淇淋銷量上升時,水中溺死人數會迅速上升,兩者之間呈現極強的正相關。那麼冰淇淋消費會引起人溺死嗎?答案顯然是否定的。只是天氣炎熱會同時增加冰淇淋消費和人們水上活動的幾率。一個更有說服力的例子是某個時期的統計數據顯示,白酒價格和牧師收入之間有極強的正相關。難道牧師群體們一個個都是「酒肉穿腸過,佛祖心中留」?答案也是否定的,其真實原因只是因為通貨膨脹同時導致了白酒價格和牧師收入水平上漲。在大數據時代,相關與因果的混淆可能導致的問題會遠超以往。大數據時代,數據極為充分,計算能力極強,可以發現以往無法發現的相關性。這是大數據時代讓人興奮的地方。但同時,相關性與因果性的辨別難度極大提升。一旦判斷失誤,會引起極大的問題。譬如說,目前阿里小貸引以為豪的信用判別模型與自動放款。假設目前信用模型相關性失效,「即通貨膨脹率長期穩定,白酒價格和牧師收入不再強相關」,那通過現有模型篩選的主體的真實信用等級會有極大風險,後果不堪設想。以上分析純粹基於理論層面,並不指向某個具體項目,但隨著大數據技術的進步,辨別相關性與因果性的難度會越來越大,風險也會越來越高。

這個世界最讓人理解的就是它是不可理解的。這個世界最讓人難以理解的就是它又是可以理解的。大數據時代,我們需要有一顆敬畏之心。傲慢是罪。

以上是小編為大家分享的關於大數據時代,科技走到了宗教盡頭的相關內容,更多信息可以關注環球青藤分享更多干貨

㈦ 【微科雲】大數據=數據大Out!

在信息噴涌而來的當下
你的秘密,都不再是秘密!
你想要的書,亞馬遜懂你!
你的喜好,Facebook最懂!
你負責做自己,Linkedin負責猜你可能熟悉的TA!
…………………………
而這一切的一切都離不開
大數據

你還以為
大數據=數據大?
圖樣圖森破
(too young too smpie)

那大數據究竟是什麼鬼?
來吧!【微科雲】帶你揭開大數據的神秘面紗!

數據:能用電腦處理

數字:通過人工處理

先來看一段科普視頻唄~
https://v.qq.com/iframe/preview.html?vid=p03026a40u9&width=500&height=375&auto=0
(建議在WiFi的情況下觀看)

①Volume 數量大

數據的體量大!有多大?相當於N個1T大小的雲盤!(1T=1024G!)1T多大不知道?1G流量總知道吧!

②Variety 種類多

涵蓋文字、圖片、視頻、日誌等,只有你想不到,沒有它找不到!

③Value 價值大

別小看這堆雜七雜八的數據!它們的商業價值可以幫企業盈利哦~!

④velocity 速度快

處理速度快,目前可以用大數據處理的數據增多,於是失業後吃土的家裡蹲也增多了~!

①全部數據 不是隨機樣本

重要的不在於數據數量的多少,隨機性越大!調查的准確性越高!美國早年花了13年才算出人口普查的結果。有了大數據,管你人口是1億還是13億?瞬間出結果!

②混雜性 不精準

比如谷歌,其強大的翻譯功能,集合了雜亂的數據,即使你不懂英語,也不用擔心~!

③相關性 不是因果關系

舉例: 收入和幸福的關系
-因果關系:當收入<2萬美元,錢的多少通常會影響幸福指數;
-相關關系:當收入>2萬美元,錢的多少與是否幸福木有關系。

把時間軸定格在20世紀,當SRAS病毒席捲當時的西班牙,確診至少需要半個月的時間,半個月的時間並不長,但對確診的患者卻很漫長~而谷歌早早公布的預測數據和2個月後疾控中心的預測數據,近97%的結果不謀而合,大數據的威力,令人嘆為觀止!

①李彥宏 大數據開啟智能時代

提起大數據,網路公司創始人、董事長兼首席執行官【李彥宏】在「大數據開啟智能時代」的演講中說「最近幾年,人工智慧為什麼這么火?最主要的一個原因就是因為大數據……」

2016年的跨年演講上,提起人工智慧,羅胖稱:真正最重要的戰場轉移到了大數據。

網路運用大數據成功「探測景區熱力圖」

【熱力指數】反映景點的人氣熱度及所在城市的熱度排名。
網路地圖把熱力圖應用到日常出行,通過位置聚類,計算景區內聚類的人群密度和人流速度,綜合計算出聚類地點的熱度,從而將結果體現在「熱力指數」中。

聚類的定義

將物理或抽象對象的集合分成由類似的對象組成的多個類別的過程,被稱為聚類。

劉強東 大數據與電商

談到大數據和電商的結合能夠為社會創造的價值,劉強東相信大數據會提升零售業的效率。京東就成功嘗試利用大數據分析提升物流的效率。

②馬化騰 大數據生態

騰訊定位清晰,馬化騰希望未來和合作夥伴一起,就只做一件事:

連接!連接!連接!
希望能和大家共建整個大數據的生態。

而微科雲把將大數據應用到呼叫中心
有了微科雲,BOSS和客服們,再也不用擔心客戶投訴的困擾,報表生成的耗時、數據安全的困擾……

以語音辨識為基礎的各種應用,由於辨識准確率的突破,結合大數據分析應用,已成為目前金融、保險、政府及各大企業的關注重點。

利用語音轉寫為文字,透過智能搜索分析,檢測通話中的關鍵詞,對內容進行分類、聚類等邏輯分析,提供來電原因分析、可視化全質檢、電銷業務分析及挖掘客戶需求等服務。

微科雲專注於語音大數據分析應用導入及相關軟體開發,結合最先進的辨識引擎及分析平台,推出全套解決方案,為行業內的技術領頭羊之一。

語音辨識的基礎技術包括特徵提取、比對匹配及模型優化3個方面。

在實際應用中,語音辨識分析應用以語音轉文字STT(Speech to Text)為主,即大詞庫連續性語音分析。是指針對連續性的語音輸入進行辨識,將其由語音翻轉成文字型式存儲。

在大詞庫語音分析應用中,需要按用戶的常用詞句及話術,建立特定的比對大詞庫。由於本應用是詞庫比對,所以不同的行業,需要使用不同的比對詞庫,微科雲極大的優勢之一是自有專業的團隊、完整的分析設備及工具,能按客戶需求,隨時按產品及服務內容的變化,修改調整比對詞庫,以保障恰當的辨識率。

質檢、培訓及現場管理為呼叫中心運營的3大支柱。在質檢系統中找到問題、然後在培訓中強調改善,以提高運營管理的效率,成為管理的核心基礎。 作為業內最先進的質檢系統,語音識別質檢具有下列的功能特性:

-所有錄音進行語音轉文字分析,將錄音結果以文本方式同時展現,提高質檢效率。

-邏輯方式描述質檢規則,進行正向質檢,分析客服人員是否按服務要求,進行產品介紹、核身及相關條款說明等等。

-邏輯方式,偵測服務態度,進行負向質檢,分析客服人員是否有傲慢、反問、不耐煩等行為以提高服務品質。

-按不同違規程度及發生時間,優先處理重大事件。

-按不同質檢規則、組織架構、違規程度、發生時段彈性展現報表,進行精細管理。

語音識別電銷改善應用

語音分析在銀行電銷領域的主要應用為信用卡分期業務,進行方式為3大部分:

-話術分解,將銷售過程分為5大主題:建立關系、促發需求、產品說明、異議處理及成交確認。以邏輯方式,描述交流內容,進行聚類,規范坐席人員的交流內容及時間分配,進行話術標准化。

-客戶標簽,按客戶交流內容,對客戶進行分類,例如疑問型、謹慎型、實際需求型、保守型等。按用戶的標簽,投其所好進行交流。

-銷售階段流失分析,了解在每個階段潛在用戶拒絕理由及比例,進行針對性分析及設計挽留話術,以提高成功率。

-無形中督導坐席認真工作;坐席每天的通話內容均會出現在第2天分類的報表裡
-提高銷售業績,增加公司收入
-增加坐席信心,提高坐席收入並降低流動率
-分析拒絕的理由,決定下次接觸政策,例如進行微信或EDM接觸而非直接翻打
-作為銀行大數據分析的部分來源,以了解消費傾向、產品定位等信息
……
…………

更多詳情掃碼咨詢小助手或搜索(wechat號:Wellcloud01)

閱讀全文

與大數據傲慢相關的資料

熱點內容
mdfldf是什麼文件 瀏覽:569
文件在桌面怎麼刪除干凈 瀏覽:439
馬蘭士67cd機版本 瀏覽:542
javaweb爬蟲程序 瀏覽:537
word中千位分隔符 瀏覽:392
迷你編程七天任務的地圖怎麼過 瀏覽:844
word2003格式不對 瀏覽:86
百度雲怎麼編輯文件在哪裡 瀏覽:304
起名app數據哪裡來的 瀏覽:888
微信怎麼去泡妞 瀏覽:52
百度廣告html代碼 瀏覽:244
qq瀏覽器轉換完成後的文件在哪裡 瀏覽:623
jsp中的session 瀏覽:621
壓縮完了文件去哪裡找 瀏覽:380
武裝突襲3浩方聯機版本 瀏覽:674
網路機頂盒移動網路 瀏覽:391
iphone手機百度雲怎麼保存到qq 瀏覽:148
資料庫設計與實踐讀後感 瀏覽:112
js對象是什麼 瀏覽:744
網頁文件存pdf 瀏覽:567

友情鏈接