⑴ 大數據時代 解析大數據真正價值所在
大數據時代:解析大數據真正價值所在
目前大數據人們已經耳熟能詳,如今在利益格局多元化、社會需求多樣化的公共決策與公共服務領域,大數據也能一顯身手。隨著中國進入大數據時代後,與其相關的各種話題就不絕於耳:電影《小時代》說會根據大數據選角和刪減戲份;網路稱靠數據挖掘押中了今年的高考作文題;目前正如火如荼的世界盃中大數據也沒有缺席——德銀甚至藉助大數據計算出了一份奪冠概率表。據外電報道,德銀根據各個球隊的FIFA排名、歷史戰績、球員構成和賭球賠率等因素,建立了量化分析模型,並根據復雜計算得到一份奪冠概率表格。其中巴西名列第一,緊隨其後的是德國、西班牙、法國。然後再根據某些假設,得出最終的冠軍得主。對於看似萬能的大數據,如今在利益格局多元化、社會需求多樣化的公共決策與公共服務領域,是否也能一顯身手呢?大數據為政策制定導航今年年初,備受關注的「單獨兩孩」政策在各地落地後,國家衛生和計劃生育委員會宣傳司司長、新聞發言人毛群安曾透露,為這項政策的出台,相關機構和部門做了將近10年的研究,對人口政策採取什麼樣的調整都進行過數據模擬。大數據同樣可以被用於城市交通規劃。PADIS還曾對某個城市的交通擁堵問題進行過預測分析。與認為應該限制人口和機動車數量,加快發展公共交通的傳統觀點不同,PADIS的預測結果顯示,人口集中居住區域與經濟中心的嚴重偏離才是導致市民出勤需求上升、交通惡化的根本原因,單純增加公共交通設施、控人控車只能揚湯止沸。為此,PADIS開出的「葯方」是改善城市規劃管理,讓城市向多中心方向發展。除了能幫助政府調整計生政策、規劃交通外,這一系統還能憑借其擁有的海量數據和強大的模擬預測能力,對延遲退休、養老金缺口、環境治理、房價上漲等熱點問題提出自己的「真知灼見」,范圍足以涵蓋我們生活的方方面面。大數據只能輔助決策大數據的魅力在於能夠通過對海量數據的分析,以一種前所未有的方式獲得具有巨大價值的產品或深刻的洞見。那麼是不是意味著可以完全相信計算機,讓數據和軟體來幫助我們做決定?答案當然是否定的。PADIS系統項目技術總監、神州數碼信息服務股份有限公司大數據專家史文釗認為,現在沒有也不應該製造出一個自動決策系統。他說,大數據只能輔助決策而不能代替決策。總結這些年的經驗,最好的系統應當是人和計算機的完美結合。大數據應用十分強大而且還會更加強大,它能實現數據挖掘分析、政策模擬、指標預警等多種功能,但它仍然只是一個輔助決策系統。挖掘大數據的富礦「互聯網女皇」瑪麗·艾克在《2014年互聯網趨勢報告》中專門將大數據提了出來,認為在2014年大數據將更加實用,比以往任何時候都更加貼近普通人的生活。從2014年開始一些依靠解讀數據提供解決方案的新型服務開始出現,大數據解決大問題的趨勢也將顯現。同時她還發現在現有的通用數據中有34%的信息具備研究價值,但其中只有7%的數據被做了標記,被分析過的只有1%。數據獲取固然重要,但缺乏分析的數據毫無意義。大數據真正的價值不是海量的數據簡單集合,而是找到這些數據之間的關聯,發現它們背後的規律,為解決實際問題服務。如同礦藏一樣,數據也有貧礦富礦之分。在目前的情況下,尤其是在智慧城市建設中,我們需要注重的應該是如何盤活已有數據存量,用好大數據增量,來提升城市公共服務能力和管理決策水平。
以上是小編為大家分享的關於大數據時代 解析大數據真正價值所在的相關內容,更多信息可以關注環球青藤分享更多干貨
⑵ 怎樣預測票房
票房預測:需求與現實
從1896年西洋影戲傳入上海徐園,到1905年中國拍攝首部國產電影《定軍山》,再到2013年全國電影票房突破200億
大關,(4)有著百餘年歷史的中國電影產業,在近幾年呈現出飛躍式發展的態勢,無論是影片質量、院線建設還是投資規模都有了長足的發展。與此同時,隨著
「大數據」時代的到來,電影觀影群體、觀影偏好與心理、電影信息傳播和獲取方式也都在發生著深刻的變化。
毋庸置疑,多樣化資本的加入是中國電影不可或缺的發展引擎,然而,電影行業以投資回報率難以預測著稱,大投入未必有大產出,票房預測工具的缺失使得投資者
無法有效對沖投資風險,華人著名導演吳宇森的《風語者》就拖累了米高梅公司最終走向破產。因此製作與發行公司不得不考慮所有對票房有影響的因素:辣媽李小
璐對《私人訂制》票房貢獻幾何;《風暴》票房為何遠低於其金牌製片人江志強預期;被吐槽「爛片」的《富山春居圖》和《小時代》緣何票房卻一路走紅;成龍大
叔的《警察故事2013》有無必要拍成3D;《泰囧》的「報復性」觀影效應能否復現……這一切的一切其實都可以從「大數據」中找到答案。因為網路上的每一
次瀏覽、查詢乃至點擊所匯聚成的群體智慧都「蝴蝶效應」般地影響著電影的最終票房。
2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5)
的白皮書中公布了其電影票房預測模型,該模型主要利用搜索、廣告點擊數據以及院線排片來預測票房,Google宣布其模型預測票房與真實票房的吻合程度達
到了94%,但並未見其公開對未上映電影的預測結果。
搜狗公司藉助「深思」系統,建立了更為復雜的模型,用於預測國內電影票房,並在新浪微博上提前發布了2013年12月國內上映電影的首周票房預測結果。很高興到目前為止預測結果與真實數據非常接近,同時,我們的模型還可以用於對影響票房的因素進行定量分析。
搜索查詢量的奧秘
搜狗搜索每天都響應上億次的搜索請求,查詢詞的分布和變化趨勢能夠很好的反映出中國網民的興趣點和關注指向。與Google的研究類似,我們也發現,電影
上映前相關查詢詞的搜索次數與票房收入有著很強的關聯性。這一點很好理解,用戶的主動搜索行為體現了用戶對這部電影的潛在興趣。
我們選取了2013年1-11月國內上映的180部電影的票房和上映前的搜索量數據作為訓練集,用於訓練一個基礎的線性回歸模型。實驗發現,單純利用搜索
量訓練得到的模型,預測得到的首周票房與真實票房的相關度R方值僅為68%,這與Google僅用搜索數據得到的結果70%很接近。(註:R方值取值為0
至1,值越大表示模型預測效果越好),這個結果也說明無論在中國還是美國,用戶的搜索行為是很相似的。
用搜索量來進行預測票房是一個好的開始,但是准確度還遠遠不夠。同時很多搜索詞還存在歧義的情況,比如《生化危機》,既是電影也是游戲,混在一起會造成票
房預測值偏高。進一步研究發現,游戲意圖的查詢請求量較為平穩,但電影意圖的查詢請求在上映前則有一個高峰,也可以通過用戶點擊的URL來進一步確認用戶
的搜索意圖。因此模型需要再引入查詢量的變化趨勢和用戶點擊的分布情況。修正後的模型可以達到74%的准確度,這時模型已經可以對電影票房進行一個粗略的
估計。
社交媒體:用戶的情感分析
社交媒體數據對票房預測也會有一定幫助。假設你是某個明星的粉絲,打算去看他主演的電影,那麼你很可能會提前轉發該電影的相關微博給你的朋友。國外已經有
很多預測項目都是在針對Twitter數據做研究,這里我們主要採用國內部分微博網站的數據來進行預測。通過自然語言理解技術,分析出用戶對未上映影片的
情感傾向,從而轉換為用戶的觀影需求。進一步可以考慮的因素包括微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢,這些數據都
可以被有效的提煉為特徵並加入到模型中。
微博數據的加入使得准確率超過了80%。
結語
預測專家納特·西爾弗在《信號與雜訊:大數據時代預測的科學與藝術》一書中提到,大數據時代的預測更容易失敗,大部分失敗的預測都源於一種盲目的自信,用精確的預測來冒充准確的預測。
對此我們有著清醒的認識,目前的票房預測模型還有若干需要改進的方向。首先,目前模型的主要思想是通過電影上映前的用戶關注度來推算首周票房,這實際上沒
有考慮電影上映後的口碑對票房的影響;其次,模型較為依賴歷史數據,可能難以識別一些上映後脫穎而出的小成本「黑馬」電影;再次,目前的技術只能提前10
天預報出首周票房,還可以更加超前。
總體而言,「深思」系統代表了搜狗公司在社會化預測方面一些新的嘗試。我們試著從繁雜的海量數據中篩選出真正的信號,努力穿越不確定性的迷霧,區分出未來
圖景的哪些部分可以預測,哪些不可預測。通向這個未來的道路還在探索之中,但目前工作已經取得了一些不錯的進展,並給予了我們更大的信心。