互聯網+到大數據+旅遊業能在社交網路突圍
今年流行「互聯網+」概念,其實我認為「大數據+」才是我們需要重視的思維,無論是企業還是消費者。大數據與廣告結合,產生更加精準的程序化廣告;與商超結合,帶來消費效率的提升和更多的利潤;與電影結合,能夠拍出更好更叫座的片子。而當大數據遇見旅遊,不僅能夠讓人們更好進行出行決策,還能促進旅遊目的地或企業進行更好的營銷決策。
做大數據是有門檻的,從數據的生產、存儲、挖掘到價值利用都有不同產業各方的參與。大數據,首先數據要足夠大才行,然後才是將原始數據進行加工、存儲、挖掘進而產生價值。許多公司想把整個鏈條打通,真正做到的卻極少。最近社科院發布了微博旅遊白皮書,其中有三個關於大數據的重要結論,對旅遊行業可能有重要的參考價值。作為大數據金礦的社交網路,能幫助旅遊行業在「互聯網+」時代突圍?
結論一:旅遊行業已經進入大數據時代
傳統旅行社的弊端在於無法對旅遊人群有精準的畫像,一錘子買賣較多。在線旅遊網站則積累了用戶大量旅遊交易數據和瀏覽數據,但對於背後的心裡動機及社會學分析卻是欠缺的。在社交時代,微博憑借海量的用戶生產內容,形成大數據,將旅遊行為進行前置,並對整個旅遊行業產生深遠影響。在自由行用戶成為主流的今天,用戶旅遊行為與本人身份屬性關聯更直接,旅遊相關行為在微博上的呈現更多、更實時,產生的數據更豐富、更真實。
白皮書指出,在線旅遊和旅遊O2O的發展,推動中國旅遊業進入「旅遊大數據」時代。大數據不但可以應用於旅遊消費者和市場研究,同時也是旅遊業開展精準營銷傳播的重要基礎和手段。作為國內最大的旅遊內容聚合和分享平台,微博成為旅遊大數據來源的「金礦」。數據顯示,微博上24%的用戶喜歡在微博上分享旅遊內容,28%的用戶會在微博上搜索旅遊目的地信息,81%的旅遊者會在出遊前查找攻略並受口碑影響。
微博也通過鼓勵旅遊達人在微博分享優質內容,以生產出更多優質的旅遊線上數字內容。今年6月微博與阿里旅行聯合舉辦#你不知道的旅行#活動,獲得超過2萬人次高質量長微博生產者參加,閱讀量超過12.67億。2015年「帶著微博去旅行」上線僅兩個月,旅遊達人發布旅行攻略就達到9000多篇,其中閱讀量超過10萬以上的就有158篇。而連續多年舉辦的#帶著微博去旅行#,活動舉辦第一年就吸引了7000萬人次參與,2014年參與人次接近1億。今年活動開展以來,用戶發布的旅行照片、旅行視頻、旅行攻略是去年同期的近3倍。微博龐大的旅遊數據為整個旅遊行業發展及旅遊決策依據奠定堅實的基礎。
結論二:微博大數據已經貫穿旅遊產業鏈
微博上旅遊用戶的規模龐大,這是微博大數據能夠連接旅遊產業鏈的前提。白皮書顯示,監測期內提及旅遊相關話題的微博用戶達到7708萬人,占同期微博活躍用戶的43.8%。用戶在微博提及旅遊話題的總次數為9.77億次,搜索次數為9928.3萬次,提及旅遊並簽到的總次數為1695.5萬次。年輕用戶是微博旅遊用戶的主流,82.7%的旅遊用戶年齡在15歲至30歲之間。此外,通過對微博用戶旅遊搜索的關鍵詞分析,可以挖掘出用戶關注度最高的景點。
大數據只有流轉起來才有價值。在旅遊興趣用戶規模龐大的基礎上,微博通過引導PGC用戶提供攻略和游記,以及旅遊目的地和相關企業開展微博營銷,正是在推動數據的流轉。各大旅遊目的地也開始充分意識到微博營銷重要性,紛紛開始建立和運營官方微博賬號陣地。截止今年7月,微博上旅遊行業賬號達到58888個,同比增長24.3%。主要旅遊目的地官方微博1689個,其中包括58個省級旅遊局官方賬號、820個市縣旅遊局官方賬號,國內184個5A景區和521個普通景區擁有官方賬號,全球共200個國家、地區旅遊局及景區景點開通了微博。白皮書還公布了國內各地區和海外旅遊社交資產排名。
用戶行為數據及旅遊目的地、旅遊機構社交數據就像一張旅遊全景圖,讓產業鏈各方信息對稱,看到自身的需求與供給的匹配,更加高效作出決策。微博觸發的這種「連接」使大數據的應用更便捷、效果更直接。微博已融入旅遊產業中的各個環節,成為唯一一個連接旅遊愛好者、旅遊達人、旅遊目的地、旅遊產業鏈的平台。
結論三:微博大數據與旅遊市場呈現明顯正相關
「大數據的核心就是預測。」維克托?邁爾?舍恩伯格在《大數據時代》中直接了當指出。微博上的大數據並不只是告訴你「現在是什麼」,而是通過分析與判斷、機器學習能力告訴你「未來有多大幾率是什麼情況」。而在旅遊行業,微博的這種大數據愈加有用。
從白皮書透露出的信息看,微博大數據的實用性已經得到驗證。微博上旅遊相關內容的熱度,與旅遊市場的熱度呈現明顯正相關。以搜索為例,用戶在微博搜索旅遊相關信息的高峰,基本上與暑期、五一和十一出遊高峰重合。在市場層面,北京市旅遊發展委員會數據顯示,去年冬季為旅遊淡季,相應的同期北京旅遊微博提及量也隨之下降。從今年4月開始每月旅客接待量提升,也伴隨著微博提及量的提升。
筆者認為,微博大數據的價值的應用還有很大發展空間。比如,根據網友搜索、目的地討論等數據,以及從時間緯度上的數據,可以對目的地旅遊營銷及旅遊出行安排產生較為准確的預期。這種前置的預期將對目的地旅遊營銷資源配比、旅遊人群出遊計劃等產生深刻的影響,並推動旅遊市場管理的預見性。比如十一前通過對微博上用戶數據的分析,預判熱點景區,為遊客出行提供參考,景區也有所准備,以防臨時爆堵的尷尬局面。
除旅遊行業外,微博也在電影、音樂、綜藝方面正在嘗試「大數據+」,用戶在平台上產生的社交數據為娛樂業提供大量信息決策依據。當社交數據成為產業入口的前置,各行各業的變革即開始到來。在各垂直領域紛紛以「單點突破」為圖騰的時候,需要看到的是,大的平台正在以「大數據」為壁壘,以高屋建瓴之勢重新配置產業經濟。
以上是小編為大家分享的關於互聯網+到大數據+旅遊業能在社交網路突圍的相關內容,更多信息可以關注環球青藤分享更多干貨
② 大數據給我們生活帶來啥
1.幫企業進行消費者的需求分析
現在的消費者不再是營銷產品的被動接收器。通過大數據幫助企業找准消費者的需求點設計產品,刺激消費。
2.幫企業挖掘鎖定客戶資源
通過大數據技術,可以實現企業的客戶資源進行精準的鎖定,形成可視化圖片展示,有利於企業產品的營銷推廣的區域性。
3.幫企業危機預警
當代社會,輿情危機的爆發和擴散。企業潛在的質量問題、安全問題、經濟問題、市場問題等在一定條件下一旦爆發;危機效應將瞬間傳遞開來,對企業的商譽和品牌造成極大的傷害,而大數據可以幫助企業進行輿情監控防止給企業造成巨大的損失。
1.大數據應用於城市規劃
城市的不斷發展催生了不同的功能區域,如文教、商業和住宅區等。准確掌握這些區域的分布對制定合理的城市規劃有著極其重要的意義。由於一個區域的功能並不是單一的,如在科學文教區里仍然有飯店和商業設施的存在,一個區域需要由一個功能的分布來表達(如70%的功能為商業,20%的功能為住宅,剩餘的為教育)。另一方面,一個區域的主要功能是文教,但也不代表該區域的任何一個地點都服務於文教。因此,給定一種功能,我們希望知道它的核心區域所在。
以北京市通州和順義的職住比(職業人數與居住人數比)來舉例:作為北京著名的「睡城」,通州給人的印象往往是「遍地樓盤」「上班族天天候鳥式往返」;而順義區依託首都機場周邊的工業區,帶來大量就業機會,看起來似乎通州的職住比要遠低於順義。然而,數據卻顯示,兩個地方的職住比幾乎持平。因此,有了大數據,規劃者和決策者可以避免很多「印象流」的誤區。
2.大數據應用於城市應急管理
大數據在應急管理中的應用方式分為兩部分:大數據技術和大數據思維。大數據技術既包括諸如數據倉庫、數據集市和數據可視化等舊技術,也包括雲存儲和雲計算等新技術;而大數據思維則是從海量數據中發現問題,用全樣本的思維來思考問題,形成了模糊化、相關性和整體化的考慮方式。大數據技術與思維相互融合和作用,共同形成了大數據的應用,並對包括應急管理在內的很多公共管理領域產生了巨大影響。
以疾病預防為例:大數據的使用可以將用戶的每日數據輸入到醫療數據系統,通過對匹配病原情況的數據篩查,可以准確的找到感染群體、規模、特徵,同時可以快速調去處置方法,達到應急管理的重要目標。
3.大數據應用於城市環境保護
大數據分析最重要的應用領域之一就是預測性分析,從大數據中挖掘出獨有特點,通過建立評估和預測預報模型,預測未來發展趨勢;而大數據的虛擬化特徵,還將大大降低環境管理風險,能夠在管理調整尚未展開之前就給出相關答案,讓管理措施做到有的放矢。
以管理污染源企業為例:通過大數據技術,可以實現污染源企業的精準鎖定。在污染源的生命周期過程中,每個節點所需要的每一類數據,都可以進行搜集分析,形成基於污染源管理的數據資源分布可視圖。就如同「電子地圖」一般,將原先只是虛擬存在的各種點,進行「點對點」的數據化、圖像化展現,使得環保部門的管理者可以更直觀地面對污染源企業。
4.大數據應用於犯罪預警
隨著智能電話和電腦網路的普及,犯罪嫌疑人活動會產生大量在線信息,通過對收集到的海量的、模糊的、不完整的案件信息中的涉案人員信息、涉案物品信息、旅館業信息、航班信息、車輛信息等,進行分析、挖掘,發現案件屬性與犯罪人員屬性的關聯規則,進而找到犯罪的規律、特點,對預防、打擊犯罪,保障城市公共安全具有重要的理論意義和現實意義。
以美國為例:隨著智能電話和電腦網路的普及,美國政府和大公司把自己的觸角伸到個人生活的每個方面。美國個人的一切在線行為數據都被收集儲存,再加上已被有關機構掌握的個人信用數據、犯罪記錄和人口統計等數據,有關公司和政府機構可以運用數據挖掘的辦法,監控和預測個人的行為,並做出相關決策。
③ 不同手機刷到機票差價巨大!四川一女子被大數據「殺熟」,對此你怎麼看
不同手機刷到機票差價巨大!四川一女子被大數據“殺熟”,對此,我的看法是大數據殺熟是一種不道德的行為,需要國家出台法律去制止。需要各個大互聯網企業以身作則,維護良好的互聯網環境。
隨著網路平台技術和演算法的日趨完善,互聯網平台的個性化推薦大大降低了消費者的平均搜索成本。但是,由於平台和消費者之間嚴重的信息不對稱性,平台有可能向用戶提出誤導性建議或從理論上扭曲他們的正常消費體驗,從而導致不當充實。這些平台佔用的數據將導致一系列問題,例如用戶個人信息泄露,數據濫用,信息公開交易等。當大數據技術的發展涉及公平和道德的價值判斷時,由於大多數情況下市場的經濟特性,市場無法自發調整。政府可以組織一些會議或採取各種形式的活動,以提高對企業合法價格行為的認識,並提前起到預防和預警的作用。其次,有關部門應建立相應的價格檔案,以價格信用的形式跟蹤和記錄整個市場的價格違法行為。對於一些經常了解法律並違反法律的企業,他們應該通過媒體在市場上公開它們。
④ 大數據與偵查模式變革研究(1)
大數據與偵查模式變革研究(1)_數據分析師培訓
大數據在西方廣泛應用於總統選舉預測、商業營銷、疾病預防、金融分析、教育變革,也運用於社會監控和預測、治安管理、恐怖主義打擊等等方面。
運用大量數據進行犯罪偵查和控制始於1994年紐約市的警察部門啟用的一個新的治安信息管理系統,即CompStat(Computer Statistics的縮寫)。CompStat是通過比較數據統計報告為基礎來確定警力資源分配、犯罪預防和打擊對策[5]。大數據時代的到來,西方更是著力建構大數據驅動的犯罪偵查和控制體系。大數據驅動犯罪偵查和控制體系利用大數據幫助警察分析歷史案件、發現犯罪趨勢和犯罪模式;通過分析城市數據源和社交網路數據,預測犯罪;利用大數據,優化警力資源分配,從而提高社會和公眾安全水平[6]。大數據已使犯罪偵查和控制模式發生根本性變革,利用大數據提升犯罪偵查和控制能力是未來的發展方向。
公安部部長郭聲琨強調要大力加強大數據時代提升維護公共安全和服務人民群眾的能力和水平[7]。我國各級公安機關已開始有意識運用大數據推動犯罪偵查和控制。然而大數據不僅是一個技術問題,也帶來了偵查理念、方式、機制的變革。我國學界的研究集中在大數據技術應用研究,對大數據帶來的偵查理念、方式、機制的變革的研究偏少,也不夠深入,迫切需要更為系統的、深入的研究。
一、復雜的犯罪態勢與大數據時代犯罪的數據化生態
當下,犯罪呈現出更加嚴峻和復雜的態勢。首先是犯罪總量大,犯罪率逐年上升。據統計,僅2012年公安機關刑事案件立案的案件數為6551440起,檢察機關批捕、決定逮捕犯罪嫌疑人的案件數為680539,人數為986056[8]。近二十多年來,中國犯罪率呈逐年上升趨勢,刑事案件立案數平均每年增長22%以上,超過了全國GDP的增長。①其次是犯罪智能化。犯罪是一種社會存在,科學的發展滲透到犯罪的方方面面,提升了其能力和危害程度。這表現為兩個方面:一是運用科學思維實施的犯罪,主要表現為犯罪思維嚴密,犯罪前經過周密部署和策劃,犯罪過程滲透著科學思維和謀略。二是利用科學技術實施的犯罪,突出表現為數字化犯罪。以利用網路犯罪為例,2012年,全國公安機關累計破獲涉網違法犯罪案件11.8萬余起,抓獲犯罪嫌疑人21.6萬餘人。據賽門鐵克公司2012年9月發布的諾頓安全報告估算,2011年7月至2012年7月,中國有超過2.57億人成為網路違法犯罪的受害者。網路違法犯罪所造成的直接經濟損失達2890億元人民幣,受害者人均蒙受的直接經濟損失約1200元人民幣[9]。第三,犯罪時空的復雜性。現代科技的發展,使得犯罪時間非線性,犯罪空間缺席性,時空組合的多維、多樣化和任意性[10]。第四,案件因果聯系復雜。相對於傳統的靜態、單一社會來說,現代社會是一個動態、復雜社會。在動態、復雜社會中,因果聯系具有非線性、偶合性、多因性、斷裂性,犯罪的因果聯系往往難以確定。
計算機及網路技術的發展,使得當下社會已經進入了大數據時代。大數據時代首先是數據記錄時代。在數據記錄時代,數據記錄成為默認模式[11],人類社會處在被無所不在各種各樣感測器和微處理器構成「萬維觸角」的數據網路記錄之下,手機、網路、監控探頭、射頻技術等等無所不在地記錄著我們的行為乃至我們的思想。「早上出門,電梯的攝像頭記錄著我們的出行時間;開車上班,道路的攝像頭記錄著我們的位置和車速;工作期間,網頁記錄著我們的瀏覽習慣和搜索記錄,電話記錄著我們的聯網對象和通話時長;下班回家,購物記錄界定著我們的職業身份、家庭背景甚至性格特徵,電視機頂盒記錄著我們的收視習慣和價值品位……」[12]「在數字世界裡,我們都會留下電子『腳印』或電子『指紋』。」[13]20「我們正處於一種不斷變化卻日趨緊密的被監視狀態中。事實上,現在我們的一舉一動都能在某個資料庫中找到線索。」[14]12
狡猾的犯罪者能有例外而成為「數據隱士」嗎?要成為「數據隱士」,意味著你要完全脫離現代社會系統,不僅不能使用數字化產品,還要完全意義上不食「人間煙火」。因為現代社會幾乎被數據化了,一旦你與現代社會系統進行交換,就很有可能被數據捕捉和記錄。然而,這並不是說犯罪者的具體犯罪的任何要素或片段如犯罪時間、犯罪空間、犯罪行為、犯罪工具等等都會直接且完整無缺被數據記錄和儲存;而是說犯罪者隱藏的犯罪信息總是被相關的海量數據從不同的側面記錄著,即便是某些甚至是主要或關鍵的犯罪要素或片段缺失,也可以通過不同側面相關海量數據聯接、分析,拼接或描畫出犯罪過程。因此,在大數據時代,不要說數字化犯罪,即使傳統手段的犯罪,都可以說落入了一種「天網恢恢,疏而不漏」的網路記錄和存儲體系,數據化就是當下犯罪的現實生態。
二、大數據驅動的偵查模式是時代的必然選擇
模式指經過提煉和抽象的標准樣式。偵查模式反映了偵查要素的結構關系和運行邏輯。偵查模式可以按照不同的標准進行分類。學界按照偵查是否運用信息科技手段,把偵查模式分為傳統的偵查模式、信息主導偵查模式。然而,如果從資訊理論的視角來看,傳統偵查模式與信息主導偵查模式的本質區別不是是否運用信息,而是信息記錄、存儲、提取以及分析方式上的根本差別。按照偵查所能運用信息的記錄、存儲、提取以及分析方式,可以把偵查模式劃分為傳統偵查模式、業務信息主導的偵查模式和大數據驅動的偵查模式。學界一般將業務信息主導的偵查模式和大數據驅動的偵查模式合稱為信息主導偵查模式,但兩者之間不僅是發展階段上的差異(大數據驅動的偵查模式是在業務信息主導偵查的基礎上發展起來的),而且在信息類型、信息提取和研判方式上也有根本差異,最重要的是由此差異而帶來偵查理念、特徵和機制上的根本變革。
傳統偵查模式是在信息存儲、提取和分析上幾乎沒有什麼科技含量的模式。傳統社會,人類對信息的記錄和存儲方式主要是人的大腦和書寫體系(傳統社會由於信息記錄的需要發展出一整套書寫體系,由此而產生了許許多多按時間匯集的分門別類的書寫檔案庫)。對於犯罪的信息記錄來說,除了大腦和書寫檔案外,犯罪現場也以物質交換的形式記錄著犯罪信息。因此,傳統的偵查主要手段是調查訪問(對大腦儲存的信息提取)、書寫檔案的查詢。②人腦信息的存儲和提取的特點是:分散在不同的人身上;信息的准確性差,受到外在環境和信息儲存者自身感受能力、記憶能力等影響;信息缺乏穩定性,信息量和准確性隨著時間變化而衰減;信息能否提取以及提取的質量,首先取決於能否找到儲存信息的人,其次取決於偵查人員的詢問技術(經驗)、被詢問人表達能力、情緒、配合態度等等多種因素。書寫檔案記錄信息的優點是准確性高、穩定性強,但其有兩個重大缺陷:一是提取困難。人們要找到其中一點有用信息,就得把所有的資料翻閱一遍;盡管後來建立了圖書館式的目錄索引,但查找起來依然耗時費力。二是不能提供直接的犯罪信息。書寫檔案不可能是犯罪的實時記錄,只可能是犯罪破獲後一種事後登記,因此這種檔案對於需要破獲的犯罪來說,不能提供直接的犯罪信息。傳統偵查的信息分析研判主要依靠偵查人員的經驗,有經驗的偵查人員往往成為是否破案的關鍵。總之,這種模式科技含量低、粗放型特徵突出,能否破案主要取決於偵查人員的經驗和投入的人力多少,不僅如此,還取決於偵查人員的運氣。這對於傳統靜態、單一的社會及其犯罪也許能夠適應,而與動態、復雜的社會及其犯罪幾乎完全不匹配。
業務信息主導偵查模式是在信息技術引領下的以業務信息存儲、提取和研判為基礎的偵查模式。隨著信息技術的發展,各種各樣信息記錄和存儲設備被廣泛使用。信息記錄和存儲不再完全依賴人腦和書寫檔案,而是電子化的記錄,存儲設備成為人類記錄和存儲信息的主要方式。這些設備代替人腦和書寫檔案實時記錄著人類的行為,也記錄了犯罪行為。所記錄和存儲的信息從來源和存儲分布來看,形成於不同的業務經營並分布儲存在不同的業務信息庫中,如商家記錄和存儲人們的消費信息、銀行記錄和存儲了人們的金融交易信息、醫院記錄病人信息等等。這些信息庫缺乏整合,相互之間形成信息孤島,信息冗餘和信息孤島成為信息存在的基本生態。就業務信息主導偵查模式來說,其主要特徵是:一是偵查部門依賴於公安平台所累積的結構化的資料庫主要用於人、事、物的核查、比對,實時犯罪信息仍然主要依靠人工採集。二是信息提取依然困難。不可否認,相比傳統偵查模式,業務信息主導的偵查模式針對公安機關所累積結構化信息來說,確實大大提高了查詢、比對效率,但是面對越來越多地被累積的不同來源、不同結構的數據,尤其是大量的半結構化和非結構化數據,既缺乏數據整合的技術和機制,也缺乏信息提取的技術手段。結構化數據是先有模型後有數據,大多具有事後登記的性質(也有少量的實時記錄的數據如旅館住宿等),很難有實時犯罪行為記錄信息,其主要價值在於對人、事、物的核查;而正是不同來源的半結構化、非結構化數據中實時記錄了犯罪的「蛛絲馬跡」。三是信息分析、研判仍然主要依靠偵查人員的經驗。業務信息系統主要用於簡單的查詢、比對,但是不能進行智能化的演算法分析。總的來說,這種偵查模式面對當下的犯罪態勢,尤其是流動性犯罪、數字化犯罪等,難有成效。
大數據驅動偵查模式是建立在大數據和雲計算平台的基礎上,是大數據時代的信息主導偵查模式的升級換代。在大數據時代,大數據驅動的偵查模式是一種時代的必然選擇,這不僅在於復雜的犯罪態勢及其數據化生態,更在於大數據技術使得這種選擇成為現實。
首先,犯罪的數據化生態是大數據驅動偵查模式的現實基礎。面對當下復雜的犯罪態勢,人們似乎有點不知所措。犯罪的控制某種程度上是一種偵查技術對犯罪技術保持優勢。然而現代性的發展使犯罪者具有更強的匿名性、流動性等,從而一度打破了公安機關曾經具有的優勢,這也是如今犯罪爆發性增長的原因之一。然而犯罪作為一種社會存在,當社會成就犯罪條件時,也會給人類提供製約其的機會。犯罪的數據化生態根本改變了犯罪信息的記錄和存儲方式,極大擴大了「社會記憶」,大數據技術將徹底改變偵查技術與犯罪技術之間的對比關系。因此,我們必須改換傳統的偵查模式,採用大數據驅動偵查模式以控制犯罪和打擊犯罪。
其次,在大數據時代,偵查所面對和所能處理的數據不再是小數據,而是大數據。如今,偵查所面對和所能處理的數據具有體量大、類型多、價值密度低的特徵。「池塘」和「大海」最容易發現的區別就是規模[15]。過去偵查,即使是業務信息主導偵查階段,所面對或所能處理的數據量相當於「池塘」,而與此相對照,現代偵查所面對和能處理的數據量則是「大海」。不僅如此,現代偵查所面對的則是數據的多樣性:從結構上看,不僅有結構化數據,還有大量半結構化和非結構化數據;從數據類型看,有業務數據、用戶原創數據、感測器感知數據;從數據表現形式看,有文字、圖片、音頻、視頻、鏈接等;從犯罪案件構成角度看,有人及其關系、行為、物、時間、空間和主觀意圖數據。數據的價值密度低。在巨量的數據中,有關犯罪數據混雜其間,僅僅是其中小小的「浪花」,但其彌足珍貴。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒[16]。
第三,大數據技術能從海量的數據中對犯罪信息進行提取、分析研判以及預測未來。大數據是其規模或復雜程度超出了常用技術按照合理的成本和時限捕捉、處理的數據。而以雲計算為依託的大數據技術可以突破常規技術成本和時限的要求。具體來說,其一,大數據技術能適時提取和分析處理多結構多源數據,尤其是半結構和非結構化的數據,能夠從海量的、雜亂無章的數據中抽取出大量的與犯罪相關的細節、點滴片斷、不同側面數據、信息,並且能把「數據聯系起來、信息點連接起來、片斷串聯起來」[13]29-30,從而能將表面看來毫無意義、互不關聯的數據碎片拼出一幅清晰完整的犯罪圖畫。而對於確定一個犯罪嫌疑人的身份來說,也許只需要四個信息點就足夠了。其二,大數據以雲計算為依託,能夠在合理時間內進行信息提取和分析。以周克華案件為例,南京警方動用上百名警力花費了數天時間對視頻監控數據進行人肉搜索,而運用大數據技術也許只要幾個小時就足夠了。其三,大數據技術,一個最為根本的突破是能夠運用海量數據進行演算法分析,進行信息研判,從而幫助我們認識過去,分析原因,揭示犯罪發生的規律。最後,大數據能在分析過去中尋找有意義的模式,從而預測未來,為我們優化警力資源配置、打擊犯罪提供先機。
三、大數據驅動的偵查模式的理念變革
黑格爾指出,「理念是任何一門學問的理性」[17],並認為理念中包含著「某種預想的東西」,具有前瞻性、導向性和設計性[18]。偵查模式轉換首先是理念轉換。偵查模式中的理念就是指貫穿在偵查模式中反映了偵查規律的並具有引導、支配、決定偵查活動的觀點、看法、信念。大數據驅動偵查模式不僅是一種新的工作模式,更是一種新思維、新理念。在大數據時代,偵查要確立的理念有:
在線、開放的理念。大數據首先是在線數據。大數據不僅是體量大,更是實時記錄社會的復雜動態數據:用戶原創和各種感測器感知數據,而正是這些數據混雜了犯罪的「蛛絲馬跡」。對於偵查來說,公安大平台累積的結構化數據是重要的,尤其是對人、事、物的核查具有重要價值,但是很難有實時的犯罪記錄。大數據驅動的偵查就是在公安大平台累積的結構化數據的基礎上,對不斷變動用戶原創和各種感測器感知數據進行提取、分析和處理,獲取信息。因此,對於大數據驅動的偵查,我們必須堅持在線和開放的數據理念,以獲得我們需要的海量數據,進而分析、處理這些數據。
數據主導偵查理念。大數據時代,數據是犯罪的生態,偵查過程就是數據儲存、提取和分析過程,數據貫穿於偵查的各個環節,「讓數據說話」成為偵查的基本思維。數據主導偵查的理念至少包括以下三個方面的內容:首先,有關犯罪的一切現象皆可數據化。凡事皆可量化,皆可數據化[19]25-26。不僅與犯罪相關的有形之物如時間、空間、人的特徵(生物識別特徵、行為習慣等)、行為、手段、物等可以量化和數據化,那些與犯罪相關的無形之物如人的價值觀念、態度、情緒等等也可以量化和數據化。其次,大數據是偵查的基礎資源,是偵查的工具箱。偵查就是對數據開礦式的挖掘和分析,偵查能否成功某種程度上取決於對大數據資源的提取、分析能力;運用大數據各種分析技術,可以獲得我們所需要的犯罪信息。最後,在大數據時代,數據居於偵查過程的核心地位,支配著偵查的運行。犯罪現場重建、偵查決策、偵查途徑的選擇、偵查分析、數據摸排、偵查預測等等無不圍繞數據運行。
相關性理念。大數據是通過量化兩個數據值之間的數理關系來確定相關關系。相關關系強,是指當一個數據值增加時,另一個數據值很有可能隨之增加[3]71。傳統偵查,是按照因果關系和數據結構的標准③來採集數據和分析數據。到大數據時代,我們能分析、運用幾乎所有相關數據,收集數據不必再拘泥於因果關系和數據結構標准,而是堅持相關性標准,不僅採集結構化數據,還要採集半結構化和非結構化數據。這種相關關系雖然不能直接揭示內在的因果關系,但是對於犯罪偵查和控制來說,其展現的相關關系仍具有較強的效用價值。
相關關系能讓偵查人員全方位、多角度地思考分析案情。相關關系雖然不追求精確性,但是其追求豐富性,不拒絕任何機會,盡可能去創造和利用機會。通過相關關系,才能將看起來沒有聯系的信息內在地聯系起來,從而更為全面地認識案件情況。這也許可以幫助我們發現破案線索,理清破案思路,劃定偵破范圍。
相關關系可以給我們進一步確定因果關系以指引,從而確定犯罪原因和證明犯罪。相關關系的分析是分析因果關系的基礎。相關關系並不必然是因果關系,但因果關系必然是高度相關關系。通過相關關系,我們可以進一步探究其中是否存在因果關系,從而證明犯罪。
相關關系的一個重要價值是可以監控犯罪情勢。如上所述,當下影響犯罪的原因是紛繁復雜的,要確定犯罪發生的原因相當不容易甚至不可能。對於偵查人員來說,重要的也許不是去理清犯罪原因,而是控制犯罪。通過相關關系,確定關聯物,進而可以監控犯罪情勢,從而使我們有效配置警力資源,打擊犯罪。
通過相關關系,可以預測犯罪。大數據的核心價值是預測。通過收集具有相關關系的數據,建立大數據模型,我們可以從微觀上預測什麼時間、什麼地點、什麼人、什麼類型等等的犯罪容易發生,也可以從宏觀上預測犯罪趨勢,這為我們防範和打擊犯罪提供了更好的機會。
線上破案與線下證明相結合的理念。大數據使得發現和確定某一犯罪嫌疑人似乎變得相當容易。但是數據只是事實的鏡像,並不等於就是事實;④而且大數據的演算法邏輯(強調相關關系、確定的只是一種概率,甚至由於噪音等因素會出現致命的誤差)與法律證明邏輯(強調因果關系和排除合理懷疑標准)存在差異,因此,犯罪偵查尚需要進一步按照法律體系的操作要求進行證明。即使我們通過大數據可以確定犯罪嫌疑人,達到了排除合理懷疑的標准,我們也必須把大數據的演算法體系轉化為符合法律規范要求的證明體系,把數據確定轉換為法律確定。然而,線上破案和線下證明並不是割裂的,大數據能對我們證明起引導作用,幫助我們尋找證據,確定因果關系。因此,在大數據時代我們既不能拋棄相關關系,只追求因果關系,也要必須防止用相關關系代替因果關系,防止用預測來代替事實。
以上是小編為大家分享的關於大數據與偵查模式變革研究(1)的相關內容,更多信息可以關注環球青藤分享更多干貨
⑤ 大數據與商業決策關系
大數據與商業決策關系
今天,我們正處於決策成本產生巨變的爆發點,過去那些想盡辦法都無法獲取的數據,在今天唾手可得,而當有些表面上完全不相關的行業數據關聯起來時,居然產生了新的商業價值。更重要的是,過去,我們更多地是帶著問題去尋找能夠驗證自己觀點的數據,而今天我們卻可以使用數據去預測可能出現的問題。海量數據可以使人的智慧得到更大的發揮,並變得更加規模化。大數據的本質是人,數據研究的極點就是莫測的人性。我們一旦掌控了數據之後的數據,就會擁有制勝未來商業的無敵利器。
假定數據是臟的
在處理數據的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現,到底是因為數據源臟了,還是因為數據提煉過程做得不好?美國有一家初創公司,專注於與地理位置相關的數據收集、整理和查詢服務。它將地理位置的相關指標,按照酒店和旅館等屬性劃分為不同細類,對外提供基於位置信息的實時查詢,為包括美國最大點評網 Yelp在內的多個知名應用提供底層數據服務。
這家公司最令人印象深刻的是,它對於所收集來的數據會提供一個數據質量評分,以反映數據的可信度和質量水平。它會對這些數據的源頭以及對處理數據階段所用的演算法進行評分。也就是說,這家公司在提煉數據的每一個階段都進行了數據化管理。
這家公司的做法讓我們看到了一個趨勢,也是一個非常重要的趨勢。因為它首先已經接受了數據源肯定是臟的和數據源一定會被污染的事實。所以,它在處理數據的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現,到底是因為數據源臟了,還是因為數據提煉過程做得不好?這個過程我們一定要區分,而且這樣的區分是可取的。這家公司是假定數據是「臟」的來做數據管理,而不是假定數據是穩定的。而且,假定數據是「臟」的來處理數據,在大數據時代將是一個非常重要的趨勢。
事實上,我們今天在處理的大數據,依然只是冰山一角,而更大的數據都隱藏在我們的語言中,比如我們說的話和寫的字。所以,將來我們要准確地從互動中抓取數據,也一定要依賴對自然語言的處理。現在,美國的很多數據研究人員都在瞄準非結構性數據,即語言處理這一領域。
學會慢慢淡化數據
數據是有優先值的,在數據中有些是特別核心的,有些即使缺失了也沒有多大問題。所以,我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數據。
想要確定數據的優先值,就要先解決以下幾個問題。
一是數據的標准化。在大數據時代,我們需要一個標准化的東西供我們進行交流。二是我們到底如何對接和交換數據,如何在交換的時候保持數據的穩定性。比如自然語言,比如在無線和 PC不同場景下受到的影響,這些情況都會滋生出許多新問題。第三個重要的問題是數據的存儲,這將涉及數據的時效性這一問題。有人曾經提出過一個很有價值的觀點,即現實中,網站最大的場景變化就是網站改版。因為重新設計網站,本身就影響數據,比如公司的詳情頁和首頁,任何改變都在影響數據。如果在 1~3年後,你才說得出數據的這一改變是由於促銷、用戶行為或是改版引起的,那這一數據就已經沒有任何價值了,這就是數據的時效性。所以,美國出現了一個概念叫數據淡化( Data Decay),意思很明顯,數據會慢慢淡化。我們要更清楚地認識到,數據是有優先值的,在數據中有些是特別核心的,有些即使缺失了也沒有多大問題。所以我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數據,這是一個非常重要的趨勢。
重要的是數據和數據之間的關系,而不是數據本身
大數據價值的實現,在於數據與數據的連接。
Google做了一件非常驚人的事情 —— Google甚至能在不明白某個網頁語言的情況下,知道其內容是什麼。試想一下,如果你懂俄語,看出俄語網頁里在講什麼當然很簡單。但是,如果你僅僅通過看字詞的排列和網站的分類,就知道網頁的內容,這是不是很令人驚嘆?
這就是知識圖譜,它是一個無窮無盡的世界。事實上,知識圖譜並不是數據,而是數據和數據之間的關系。但這里有一個非常大的弊端,就是數據的儲藏量非常大、儲存的方法也很復雜,且稍微改變一點點關系的定義,整體就會產生巨大的變化。
比如說,有一個知識圖譜在說電商平台用戶之間的關系,那數據信息就非常龐大了。試想一下,今天電商平台里有多少個用戶跟你有關系?假如說有 25個人,那麼 25個人的關系就演變成了 25×25條關系。這時候,我再問你「什麼是關系」、「見過就算關系,還是一起買過東西叫關系」的問題就具備了一定的難度。
關系建立的維度是無限大的,而且定義稍微改變一下,整個存儲和整個資料庫都會發生變化。所以,知識圖譜的把控是有難度的。舉個貼近我們生活的例子,比如說銀行很早之前就給你開辦了信用卡,決定銀行這一決策的不是你的個人關系而是總關系。銀行決定是否貸款給你,是要看你愛人做什麼職業以及你家中其他人的經濟情況如何。當這種種關系關聯起來時,就會產生一個極為重要的知識圖譜。
以往我們談大數據時候的本錢,莫過於「我有這種數據,你沒有」。在未來,數據和數據之間的關系才是重中之重,而不是單純的數據本身。
以上是小編為大家分享的關於大數據與商業決策關系的相關內容,更多信息可以關注環球青藤分享更多干貨