❶ 從預測到「現測」 大數據商業建模的新發展
從預測到「現測」:大數據商業建模的新發展
大數據商業建模的新發展方向在哪裡?怎麼樣預測才能真正發揮大數據的特有優勢?從預測到「現測」是如何實現的?百分點首席模型科學家陳宇新教授為我們做了更深一層的闡述,從預測到「現測」:大數據商業建模的新發展。
以下是陳宇新教授在2015百分點大數據操作系統(BD-OS)暨D輪融資發布會上的演講摘錄:
謝謝大家,謝謝各位來賓!非常榮幸在今天這個場合給大家分享關於大數據商業建模新發展的一些思考,這也是現在百分點研發的一個前沿。
大家都知道預測是大數據商業應用的一個核心,大數據預測需要大量的高質量數據加上非常先進的模型,在當前的情況下什麼是預測領域新的熱點或者一個新的發展方向?怎麼樣預測才能真正發揮大數據特有的優勢?這是我想分享的,在這之前給大家先介紹兩條最近媒體報道的新聞,從新聞上大家或許能夠看出一些新的發展趨勢。這兩條新聞都是8月份華爾街日報刊登的。
第一條,蘋果和谷歌正在開發在用戶想要之前就知道用戶想要什麼的技術,在你不知道想要什麼之前就告訴你想要什麼,這兩款產品大家也聽說過,對蘋果來說叫「主動助手」,對谷歌來說這個產品叫「谷歌現代」。這兩家公司通過對你未來肯定要做的事情的一個探知反過來推測你最近的將來想干什麼。谷歌通過郵件可以知道你今天下午六點有班飛機,下午三點的時候根據你現在的位置,根據北京的交通流量告訴你現在該走了,如果走的話該打什麼車,滴滴或者Uber,這是它預測的思路,通過對一些已知的未來的事件的掌握來推測即將發生的未來應該干什麼的一個預測。
跟這個看起來沒有特別關系,但是有共通之處的另一條新聞,宏觀經濟指標預測,這家公司名字叫「現測」,創始人是哥倫比亞大學諾貝爾經濟學獎得主的博士生,大數據預測宏觀經濟指標,比如物價指數。為什麼叫「現測」?不是預測,而是很快的把剛剛發生的整個美國各種物價變化歸納出來呈現給用戶,描述剛剛發生的事件,而不是真正預測未來的物價怎麼樣。為什麼這件事有意義?因為通常政府頒布的指標是一個月或者一個季度以前的,它能做到一分鍾之前。
這兩條新聞有一個共同的關鍵詞就是「現」,NOW,這是目前對於大數據應用的一個非常重要的趨勢,那就是從預測到現測,預測是大數據建模技術的一個核心,但同時也是大數據建模的一個最大的難點,大家都說大數據很厲害,能預測很多東西,你能不能告訴我明天中國的股票是漲100點還是跌50點,沒有人可以做到。但是大數據的優勢在於很多時候我們真正需要的並不是預測,而是所謂的現測,是對極近過去的描述和極近將來的預測。
什麼叫極近?一天以前或者一小時以前?這實際上是取決於我們現在數據量的多少和技術的發展,趨勢是這個極越來越短,本來一個月前的經濟數據,現在可以知道一分鍾之前的,高頻交易之前的我們需要知道一秒鍾之前的數據。這是我們想到的現測的定義,現是一個動態過程,現測是指我們目前狀況之前一點時間和之後一點時間情況的描述或者預測,這實際上是大量的大數據應用所真正用到的預測模型,比如高頻交易,實際上已經知道市場的情況,但是在別人反應之前我們就知道了極近的過去發生的。
推薦引擎,這是大數據應用非常重要的,也是百分點最原始的DNA,根據消費者在這個頁面上當前的狀態,馬上給他一個現時的推薦,這個推薦可能只是在一秒甚至半秒之內,實時投放的RTB廣告,還有打車軟體,大家用過滴滴專車,他們背後的原理是現測的原理,我知道車在什麼地方,你在什麼地方,交通狀況,我就可以推測下一分鍾車開到哪兒,知道前一秒車在什麼地方。現測剛剛發生的事情,即將發生的事情,背後有一個非常重要的科學原理。自然也好,給了我們一個非常重要的預測手段,萬世萬物都有一個所謂的慣性,這個慣性效率發生的時候就使得我們預測能夠比較准確。一個物體從斜面上往下滑,下一秒這個木塊在什麼地方可以預測的非常准確,現測為什麼有它的准確性,來源於萬世萬物背後的慣性。
放在社會領域,慣性是由場景驅動的,比如明天我的太太過生日,生日要買生日禮物,有了這個目標,根據慣性原理,預測就變成一個現測。
現測的優勢一個是利用所謂的慣性原理,另外利用了時間差,這是大數據的特點,因為大數據往往是實時的數據,海量高頻的數據,這張圖大家可以看到如果我每十分鍾照一個這樣的照片,可能就錯過這個鏡頭,如果每一個微秒或者每半秒拍一個照片可能就看到這個鏡頭,看到這個鏡頭就有一個慣性的應用,這個女士拿起這個橘子,如果沒有時間差,比如5分鍾拍一次照這個鏡頭就錯過了,但是如果頻率高的話,我們知道她拿這個橘子看一下,雖然孩子拉走了,但她對這個橘子有興趣,這個情況下我們可以有一些營銷手段。
說起來跟預測一樣,實際上這是一個描述問題,高頻的描述效果跟預測是非常像的,我們並不在預測她到底喜歡蘋果還是橘子,只不過我們描述從預測變成了實測,描述非常有優勢,這樣我們把一個非常艱難的預測問題變成一個描述問題。這是我講的為什麼對大數據來說我們具有現測的優勢。
我有一些博士生在做模型的建立和模型的測試,根據現測的概念,我們可以發展出一系列的技術模型,這些模型有一系列商業的應用。一個是協同過濾和時間序列的分析,通常在計算機科學領域,大家都知道協同過濾的演算法,如果放在現測的考量中,就像計量經濟學的時間序列分析,在高頻交易中大量用的是時間序列分析,現在做的把協同過濾和時間序列分析結合起來,大家可以做出一個相應的應用。
第二是用戶畫像,結合快速迭代的貝葉斯學習,我們知道用戶大概是一個什麼樣的人,什麼樣的人會做什麼樣的事情,但是這個慣性趨勢放在一個特定的場景中我們可以看以前的需要,到一個修正,這個修正必須在實時中完成,很快的迭代。
第三,百分點開發了一些數據動態可視化和人機互動的產品。人腦的優勢在於對一個場景的綜合把握能得到一個比計算機更好的預測,但是大數據能快速實時的截取這樣的信息,如果我們動態的展現出一些數據來,通過人機互動就可以判斷,有超市人員在的條件下,判斷這位女士喜歡橘子,讓電腦直接判斷的話不一定很准確,但是我們通過動態數據可視化使得人對一些全景的預測和電腦對數據的抓取有機的結合。
現在一些學者重點研究的就是基於運籌優化和行為科學的反時序預測,換句話說用未來來預測當下,聽上去有點兒懸乎,很多時候我們遠處的未來,你可能飛機票買好了明天要飛這是確切的未來,我們有了確切的未來用它來幫助預測當下,比如你在一家百貨商店,王府井百貨,我起碼知道你肯定是要出去的,你不可能一輩子呆在裡面,你要出這家百貨店就這幾條路徑,根據這一條就可以通過運籌優化的方法告訴你大約幾條選擇,每條選擇經過哪幾個貨架,有幾個可能的商品推薦,把幾個非常難以把握的預測問題變成已知終點反推回來的運籌優化問題,有相當多的應用,這也是百分點以前做和現在做的非常緊密的結合點,百分點的DNA本來就有實時推薦,和現測是不謀而合的理念。
百分點在建模方面做的非常多的就是用戶畫像和細化場景,仔細推敲,細化場景更往前走一步不光研究用戶場景,而是研究用戶在這個場景里的目標是什麼,在這個會場上我的目標是跟大家交流,任何用戶在任何商業環境或者任何場景當中,它實際上都有一個目的所在,到一個飯店的目的是吃飯,到學校的目的是讀書,我們把這個目的找到,剛才我講的技術,通過目的知道未來你想要的東西,反推回來當下想干什麼。已知用戶畫像推他當下的想法行為,目前建立的這套數據體系和場景細分,包括用戶畫像,為什麼在現測的范圍里有很多的應用。所以,積累大量的數據,有非常好的前景。
像大數據預測公司一樣,很多金融相關的信息及實時經濟指數,對過去的描述來預測未來。還有一個跟金融信息相關的領域,個人徵信。從現測角度,以前所謂的人口學指標,過去行為的指標,現在有更多的做法,一個人購買大件的商品,買一輛車,這個信息馬上反饋到你個人的徵信系統,你的現金流水平發生變化,這樣一種實時監控的做法,類似的有在做個性化的企業營銷。
同樣剛才舉的例子,個人的金融,信用卡根據你實時消費情況的變化可以計算出你這個月大概還能用多少錢,每個月開銷錢的總數,銀行存款多少,根據這個反推回來,反推你買什麼東西,否則你推薦的用戶可能沒有財力消費。
第三個應用,旅遊出行管理。你的航班,比如我知道明天天氣要變化,可以通過這個反推回來知道你在北京要開會,明天天氣不好,可以實時提醒你是不是把機票換成火車票,這是現測的概念,知道未來的一些確定性反過來幫助你解決不確定性。
個人健康管理,目標三個月減重五斤,根據這個可以反推回來每天該減多少,吃多少,實時調整你的健康管理計劃。
最後把一些東西放在一起,就可以打造所謂的數字生活的助理,把你整個生活各個方面管理起來,給你提供最佳的體驗。
為什麼剛才反復強調現測的重要性,而且大數據應用有極大的優勢,以前大數據經常提到這一點,所謂的三個V或者四個V,但是通常大家對大數據的探討,這個V往往是Velocity,能夠很快的把海量的數據進行處理,當你知道剛剛過去的事情和即將到來的未來。另外,大數據的相對優勢,對短尺度的應用性具有特別的優勢,但是對長尺度的應用性反而不具有明顯的優勢。
在長尺度上我可以說我也不需要大數據,用小數據就能獲得成功。但是短尺度的預測,我說不出來今天晚上大家晚飯吃什麼,大數據往往知道這一點,因為它知道你中午吃了什麼,是哪裡人,愛吃什麼,現在在什麼位置,周圍有什麼飯店,往往通過這個能推出來你要吃什麼,而且通過你什麼時候吃的中飯,身高體重,推出你什麼時候一定餓得不行了,我們可以反推回來做一系列的介紹。這是大數據非常大的優勢,在商業中應該特別重視這一點。通過大數據用戶畫像和細化場景建模發掘和利用行為慣性。這就是大數據價值提升和揚長避短的一個新的發展趨勢,希望大家多多指正和交流。謝謝!
以上是小編為大家分享的關於從預測到「現測」 大數據商業建模的新發展的相關內容,更多信息可以關注環球青藤分享更多干貨