Ⅰ 從預測到「現測」 大數據商業建模的新發展
從預測到「現測」:大數據商業建模的新發展
大數據商業建模的新發展方向在哪裡?怎麼樣預測才能真正發揮大數據的特有優勢?從預測到「現測」是如何實現的?百分點首席模型科學家陳宇新教授為我們做了更深一層的闡述,從預測到「現測」:大數據商業建模的新發展。
以下是陳宇新教授在2015百分點大數據操作系統(BD-OS)暨D輪融資發布會上的演講摘錄:
謝謝大家,謝謝各位來賓!非常榮幸在今天這個場合給大家分享關於大數據商業建模新發展的一些思考,這也是現在百分點研發的一個前沿。
大家都知道預測是大數據商業應用的一個核心,大數據預測需要大量的高質量數據加上非常先進的模型,在當前的情況下什麼是預測領域新的熱點或者一個新的發展方向?怎麼樣預測才能真正發揮大數據特有的優勢?這是我想分享的,在這之前給大家先介紹兩條最近媒體報道的新聞,從新聞上大家或許能夠看出一些新的發展趨勢。這兩條新聞都是8月份華爾街日報刊登的。
第一條,蘋果和谷歌正在開發在用戶想要之前就知道用戶想要什麼的技術,在你不知道想要什麼之前就告訴你想要什麼,這兩款產品大家也聽說過,對蘋果來說叫「主動助手」,對谷歌來說這個產品叫「谷歌現代」。這兩家公司通過對你未來肯定要做的事情的一個探知反過來推測你最近的將來想干什麼。谷歌通過郵件可以知道你今天下午六點有班飛機,下午三點的時候根據你現在的位置,根據北京的交通流量告訴你現在該走了,如果走的話該打什麼車,滴滴或者Uber,這是它預測的思路,通過對一些已知的未來的事件的掌握來推測即將發生的未來應該干什麼的一個預測。
跟這個看起來沒有特別關系,但是有共通之處的另一條新聞,宏觀經濟指標預測,這家公司名字叫「現測」,創始人是哥倫比亞大學諾貝爾經濟學獎得主的博士生,大數據預測宏觀經濟指標,比如物價指數。為什麼叫「現測」?不是預測,而是很快的把剛剛發生的整個美國各種物價變化歸納出來呈現給用戶,描述剛剛發生的事件,而不是真正預測未來的物價怎麼樣。為什麼這件事有意義?因為通常政府頒布的指標是一個月或者一個季度以前的,它能做到一分鍾之前。
這兩條新聞有一個共同的關鍵詞就是「現」,NOW,這是目前對於大數據應用的一個非常重要的趨勢,那就是從預測到現測,預測是大數據建模技術的一個核心,但同時也是大數據建模的一個最大的難點,大家都說大數據很厲害,能預測很多東西,你能不能告訴我明天中國的股票是漲100點還是跌50點,沒有人可以做到。但是大數據的優勢在於很多時候我們真正需要的並不是預測,而是所謂的現測,是對極近過去的描述和極近將來的預測。
什麼叫極近?一天以前或者一小時以前?這實際上是取決於我們現在數據量的多少和技術的發展,趨勢是這個極越來越短,本來一個月前的經濟數據,現在可以知道一分鍾之前的,高頻交易之前的我們需要知道一秒鍾之前的數據。這是我們想到的現測的定義,現是一個動態過程,現測是指我們目前狀況之前一點時間和之後一點時間情況的描述或者預測,這實際上是大量的大數據應用所真正用到的預測模型,比如高頻交易,實際上已經知道市場的情況,但是在別人反應之前我們就知道了極近的過去發生的。
推薦引擎,這是大數據應用非常重要的,也是百分點最原始的DNA,根據消費者在這個頁面上當前的狀態,馬上給他一個現時的推薦,這個推薦可能只是在一秒甚至半秒之內,實時投放的RTB廣告,還有打車軟體,大家用過滴滴專車,他們背後的原理是現測的原理,我知道車在什麼地方,你在什麼地方,交通狀況,我就可以推測下一分鍾車開到哪兒,知道前一秒車在什麼地方。現測剛剛發生的事情,即將發生的事情,背後有一個非常重要的科學原理。自然也好,給了我們一個非常重要的預測手段,萬世萬物都有一個所謂的慣性,這個慣性效率發生的時候就使得我們預測能夠比較准確。一個物體從斜面上往下滑,下一秒這個木塊在什麼地方可以預測的非常准確,現測為什麼有它的准確性,來源於萬世萬物背後的慣性。
放在社會領域,慣性是由場景驅動的,比如明天我的太太過生日,生日要買生日禮物,有了這個目標,根據慣性原理,預測就變成一個現測。
現測的優勢一個是利用所謂的慣性原理,另外利用了時間差,這是大數據的特點,因為大數據往往是實時的數據,海量高頻的數據,這張圖大家可以看到如果我每十分鍾照一個這樣的照片,可能就錯過這個鏡頭,如果每一個微秒或者每半秒拍一個照片可能就看到這個鏡頭,看到這個鏡頭就有一個慣性的應用,這個女士拿起這個橘子,如果沒有時間差,比如5分鍾拍一次照這個鏡頭就錯過了,但是如果頻率高的話,我們知道她拿這個橘子看一下,雖然孩子拉走了,但她對這個橘子有興趣,這個情況下我們可以有一些營銷手段。
說起來跟預測一樣,實際上這是一個描述問題,高頻的描述效果跟預測是非常像的,我們並不在預測她到底喜歡蘋果還是橘子,只不過我們描述從預測變成了實測,描述非常有優勢,這樣我們把一個非常艱難的預測問題變成一個描述問題。這是我講的為什麼對大數據來說我們具有現測的優勢。
我有一些博士生在做模型的建立和模型的測試,根據現測的概念,我們可以發展出一系列的技術模型,這些模型有一系列商業的應用。一個是協同過濾和時間序列的分析,通常在計算機科學領域,大家都知道協同過濾的演算法,如果放在現測的考量中,就像計量經濟學的時間序列分析,在高頻交易中大量用的是時間序列分析,現在做的把協同過濾和時間序列分析結合起來,大家可以做出一個相應的應用。
第二是用戶畫像,結合快速迭代的貝葉斯學習,我們知道用戶大概是一個什麼樣的人,什麼樣的人會做什麼樣的事情,但是這個慣性趨勢放在一個特定的場景中我們可以看以前的需要,到一個修正,這個修正必須在實時中完成,很快的迭代。
第三,百分點開發了一些數據動態可視化和人機互動的產品。人腦的優勢在於對一個場景的綜合把握能得到一個比計算機更好的預測,但是大數據能快速實時的截取這樣的信息,如果我們動態的展現出一些數據來,通過人機互動就可以判斷,有超市人員在的條件下,判斷這位女士喜歡橘子,讓電腦直接判斷的話不一定很准確,但是我們通過動態數據可視化使得人對一些全景的預測和電腦對數據的抓取有機的結合。
現在一些學者重點研究的就是基於運籌優化和行為科學的反時序預測,換句話說用未來來預測當下,聽上去有點兒懸乎,很多時候我們遠處的未來,你可能飛機票買好了明天要飛這是確切的未來,我們有了確切的未來用它來幫助預測當下,比如你在一家百貨商店,王府井百貨,我起碼知道你肯定是要出去的,你不可能一輩子呆在裡面,你要出這家百貨店就這幾條路徑,根據這一條就可以通過運籌優化的方法告訴你大約幾條選擇,每條選擇經過哪幾個貨架,有幾個可能的商品推薦,把幾個非常難以把握的預測問題變成已知終點反推回來的運籌優化問題,有相當多的應用,這也是百分點以前做和現在做的非常緊密的結合點,百分點的DNA本來就有實時推薦,和現測是不謀而合的理念。
百分點在建模方面做的非常多的就是用戶畫像和細化場景,仔細推敲,細化場景更往前走一步不光研究用戶場景,而是研究用戶在這個場景里的目標是什麼,在這個會場上我的目標是跟大家交流,任何用戶在任何商業環境或者任何場景當中,它實際上都有一個目的所在,到一個飯店的目的是吃飯,到學校的目的是讀書,我們把這個目的找到,剛才我講的技術,通過目的知道未來你想要的東西,反推回來當下想干什麼。已知用戶畫像推他當下的想法行為,目前建立的這套數據體系和場景細分,包括用戶畫像,為什麼在現測的范圍里有很多的應用。所以,積累大量的數據,有非常好的前景。
像大數據預測公司一樣,很多金融相關的信息及實時經濟指數,對過去的描述來預測未來。還有一個跟金融信息相關的領域,個人徵信。從現測角度,以前所謂的人口學指標,過去行為的指標,現在有更多的做法,一個人購買大件的商品,買一輛車,這個信息馬上反饋到你個人的徵信系統,你的現金流水平發生變化,這樣一種實時監控的做法,類似的有在做個性化的企業營銷。
同樣剛才舉的例子,個人的金融,信用卡根據你實時消費情況的變化可以計算出你這個月大概還能用多少錢,每個月開銷錢的總數,銀行存款多少,根據這個反推回來,反推你買什麼東西,否則你推薦的用戶可能沒有財力消費。
第三個應用,旅遊出行管理。你的航班,比如我知道明天天氣要變化,可以通過這個反推回來知道你在北京要開會,明天天氣不好,可以實時提醒你是不是把機票換成火車票,這是現測的概念,知道未來的一些確定性反過來幫助你解決不確定性。
個人健康管理,目標三個月減重五斤,根據這個可以反推回來每天該減多少,吃多少,實時調整你的健康管理計劃。
最後把一些東西放在一起,就可以打造所謂的數字生活的助理,把你整個生活各個方面管理起來,給你提供最佳的體驗。
為什麼剛才反復強調現測的重要性,而且大數據應用有極大的優勢,以前大數據經常提到這一點,所謂的三個V或者四個V,但是通常大家對大數據的探討,這個V往往是Velocity,能夠很快的把海量的數據進行處理,當你知道剛剛過去的事情和即將到來的未來。另外,大數據的相對優勢,對短尺度的應用性具有特別的優勢,但是對長尺度的應用性反而不具有明顯的優勢。
在長尺度上我可以說我也不需要大數據,用小數據就能獲得成功。但是短尺度的預測,我說不出來今天晚上大家晚飯吃什麼,大數據往往知道這一點,因為它知道你中午吃了什麼,是哪裡人,愛吃什麼,現在在什麼位置,周圍有什麼飯店,往往通過這個能推出來你要吃什麼,而且通過你什麼時候吃的中飯,身高體重,推出你什麼時候一定餓得不行了,我們可以反推回來做一系列的介紹。這是大數據非常大的優勢,在商業中應該特別重視這一點。通過大數據用戶畫像和細化場景建模發掘和利用行為慣性。這就是大數據價值提升和揚長避短的一個新的發展趨勢,希望大家多多指正和交流。謝謝!
以上是小編為大家分享的關於從預測到「現測」 大數據商業建模的新發展的相關內容,更多信息可以關注環球青藤分享更多干貨
Ⅱ 遵循數據落地模型 「大數據操作系統」亮劍
遵循數據落地模型 「大數據操作系統」亮劍
大數據發展行動綱要中提出了:企業「+大數據」,無論互聯網企業還是實體企業都在思考和探索如何「+大數據」。
大數據挑戰 依然存在! 企業在面對海量、實時、多源異構的大數據時,往往因為缺少平台、技術團隊和經驗而束手無策。其難度不亞於歷史中任何一次企業轉型。而目前的大數據技術和應用提供商中真正能夠做到落地的少之又少。並非這些公司不願意幫助實體企業落地大數據,而是因為面臨的困難太艱巨,缺乏經驗或者可以借鑒的案例,正所謂知易而行難。
百思可(BASIC)模型 應運而生 在為眾多行業和企業提供大數據技術與應用的過程中,百分點總結了讓大數據落地的五大要素:百思可(BASIC)模型。顧名思義,這個模型由BASIC五個字母組成。 首先是核心信念(Belief)。數據是企業的「核心資產」,這必須成為企業最高層決策者的核心信念。未來,數據=生產資料;數據技術=生產力;數據+數據技術=核心競爭力。如果企業的最高決策者沒有這樣的核心理念和戰略,企業的「+大數據」之路必將失敗。 第二個要素是是架構設計(Architecture)。對數據價值的信念只有通過設計和調整相應的組織架構才能得以滲透和傳遞到企業的各個層級。數據驅動的管理和運營的思想應該充分體現在面向數據業務的組織架構中。這並不是說要把原有的組織架構完全推倒,需要的只是局部的精心設計和調整。政府成立大數據管理局或大數據辦,企業開始設立首席數據官。很多企業的未來接班人將來自這些能夠帶來新思想和新架構設計的數據業務管理者。 第三個要素是專業團隊(Staff)。搭建專業的數據團隊不難做到,但問題往往發生在團隊建起來後。一個常見的錯誤就是把數據團隊孤立起來,或者與業務完全隔離,或者僅僅讓他們被動地提供數據。業務決策者往往因為不懂數據的處理過程或作用而不重視與數據團隊的協作,導致數據價值無法發揮。只有讓數據團隊直接與其他業務團隊溝通,主動思考業務機會,參與和支持業務決策,才能增加整個公司的數據利用效率。 第四,基礎設施(Infrastructure)。為了實現 「+大數據」戰略,企業需要建設從數據的採集、存儲和處理到分析和應用的軟硬體設施。整套基礎設施對人力財力和物力投入的要求是較高的,由於技術的進化,還需要持續的投入。不論出於節約成本還是專業化管理的原因,基礎設施雲化,交予專業的雲平台公司全部或部分代管代運營,是大趨勢,只是不同企業實現雲化的程度有所不同。無論是本地化還是雲端,基礎設施的缺失將導致「+大數據」成為空中樓閣。
企業常常問到的一個問題是:如何快速獲得數據資產和進行數據變現。百思點公司表示:臨淵羨魚不如退而結網。沒有一個容器,如何能承載和存留下來水呢?
最後,機構能力(Capability)。對於實體企業而言,大數據能力是一種新型的綜合能力。如果只有少數的高管和數據團隊能夠理解和運用,它還不能成為一種機構能力;只有數據核心信念從組織架構的頂層滲透和傳遞到了底層、且專業的數據團隊嵌入式地參與和支持了各業務團隊和決策流程,機構能力才有可能形成。一個企業是否具備了大數據這項機構能力,取決於它是否持續地運用大數據創造的新的商業價值。在百分點服務過的企業中,把數據能力融入到整體機構能力,並創造額外價值的成功企業典範是華為公司。數據驅動與技術驅動已進入華為的血液中,無時無刻不在通過數據發揮出巨大的商業價值。 我們發現,BASIC模型的五大要素缺一不可,缺乏其中任何一環的企業,總是需要花費更多的成本和時間將該要素補上,才能達到預期的效果。對企業來說,如何高效落地執行「+大數據」這一戰略,將成為與虛擬經濟企業顛覆之戰的勝負關鍵。
時代需要:大數據操作系統 在大數據時代,我們面臨的是難以想像的數據量及其復雜的程度,以及全社會對數據的極度依賴以及對數據技術的高度渴望,各路高手從自己的實踐業務出發創造了很多的技術,但這些技術點往往解決一種問題,因為是他從自己的業務角度出發的,而不能解決面上的問題,但實際上我們卻遇到很多的業務場景和業務問題,它不是單一的技術就能解決的,不是一個點一種技術可以解決的,往往需要多種技術的協同工作才可以,市場及業界都需要:全流程的大數據的解決方案。 在這樣的契機下,百分點根據自己的實踐摸索出一套科學的解決方案,也是一套理論加上實踐完美結合的方案:BD-OS,大數據操作系統。 如同計算機操作系統的概念,我們認為標準的大數據操作系統必須具備5個基礎要素。存儲管理,主要解決系統內部的數據存儲問題;資源管理,主要解決資源的分配、調度的問題;任務調度管理,主要解決在系統裏海量的調度,如何生成,然後協調、執行這樣的問題;人機交互主要解決的是給用戶提供一個什麼樣的方便的交互界面和工作環境;數據生命周期管理,這是非常重要的一點,如果沒有它,就沒有辦法真正成為一款數據操作系統,這也是數據操作系統里最重要的一個特點之一。 BD-OS從它的設計和開發基於這五個要素出發,很好的滿足了這五個要素,其設計思想和產品亮點包括三個方面。首先,它開創了面向數據流程的架構(DPOA)這一方法論。基於既定的業務邏輯,DPOA定義相應的數據處理流程,並自動生成底層技術架構,將業務語言轉化為大數據處理語言。其次,BD-OS還是一個高效的數據作業平台,它融入了數據流程管理(DPM)的思想,將業務鏈條中的各個環節和相互之間的關系,映射成對數據集、數據關系和處理邏輯的管理,通過對數據流程的創建、組合、調度和監控,將業務流程管理轉化為數據流程管理。最後,BD-OS採用了企業級服務匯流排(ESB)的理念,支持以熱插拔的方式靈活集成各種異構系統及數據服務。即使是企業的傳統IT系統,也能便捷並低成本地融入主流大數據架構。
百分點研發總監兼BD-OS總架構師劉國棟表示:在數據2.0時代,傳統結構型數據存儲與計算已不能滿足企業對海量與非結構化數據使用的需求。BD-OS為企業提供了端到端的大數據管理解決方案和可視化服務,其意義類似於PC時代從DOS向WINDOWS的革命性進化。
以上是小編為大家分享的關於遵循數據落地模型 「大數據操作系統」亮劍的相關內容,更多信息可以關注環球青藤分享更多干貨
Ⅲ 百分點的大數據資產管理平台主要用在什麼地方
針對媒體出版、政府、製造、金融、零售、電商等各行業,對其全產業鏈的數據版進行戰略性規劃與權運用,構建統一的數據資產體系,將多源異構的數據接入到大數據資產管理平台,基於統一的數據標准進行數據整合與打通,通過數據分析與洞察,實現數據資產增值和變現。
Ⅳ 大數據操作系統中,哪家的最好百分點的如何
百分點的不來錯,技術專業,系源統是一套多工種協同作業的、可視化的,管理大數據採集、加 工 和 應 用 環 境 所 有 資 源 和 任 務 的 大 數據操作系統。打造企業級數據治理體系,提供數據存儲,加工處理,挖掘分析,消費全生命周期的數據資產管理,幫助客戶管理數據資產並創造商業價值。另外還有針對各行業的智能決策產品,很多合作過的公司評價都特別好的