『壹』 如何用大數據炒股
我們如今生活在一個數據爆炸的世界裡。網路每天響應超過60億次的搜索請求,日處理數據超過100PB,相當於6000多座中國國家圖書館的書籍信息量總和。新浪微博每天都會發布上億條微博。在荒無人煙的郊外,暗藏著無數大公司的信息存儲中心,24小時夜以繼日地運轉著。
克托·邁爾-舍恩伯格在《大數據時代》一書中認為,大數據的核心就是預測,即只要數據豐富到一定程度,就可預測事情發生的可能性。例如,「從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性」,或者通過一個人穿過馬路的速度,預測車子何時應該減速從而讓他及時穿過馬路。
那麼,如果把這種預測能力應用在股票投資上,又會如何?
目前,美國已經有許多對沖基金採用大數據技術進行投資,並且收獲甚豐。中國的中證廣發網路百發100指數基金(下稱百發100),上線四個多月以來已上漲68%。
和傳統量化投資類似,大數據投資也是依靠模型,但模型里的數據變數幾何倍地增加了,在原有的金融結構化數據基礎上,增加了社交言論、地理信息、衛星監測等非結構化數據,並且將這些非結構化數據進行量化,從而讓模型可以吸收。
由於大數據模型對成本要求極高,業內人士認為,大數據將成為共享平台化的服務,數據和技術相當於食材和鍋,基金經理和分析師可以通過平台製作自己的策略。
量化非結構數據
不要小看大數據的本領,正是這項剛剛興起的技術已經創造了無數「未卜先知」的奇跡。
2014年,網路用大數據技術預測命中了全國18卷中12卷高考作文題目,被網友稱為「神預測」。網路公司人士表示,在這個大數據池中,包含互聯網積累的用戶數據、歷年的命題數據以及教育機構對出題方向作出的判斷。
在2014年巴西世界盃比賽中,Google亦通過大數據技術成功預測了16強和8強名單。
從當年英格蘭報社的信鴿、費城股票交易所的信號燈到報紙電話,再到如今的互聯網、雲計算、大數據,前沿技術迅速在投資領域落地。在股票策略中,大數據日益嶄露頭角。
做股票投資策略,需要的大數據可以分為結構化數據和非結構化數據。結構化數據,簡單說就是「一堆數字」,通常包括傳統量化分析中常用的CPI、PMI、市值、交易量等專業信息;非結構化數據就是社交文字、地理位置、用戶行為等「還沒有進行量化的信息」。
量化非結構化就是用深度模型替代簡單線性模型的過程,其中所涉及的技術包括自然語言處理、語音識別、圖像識別等。
金融大數據平台-通聯數據CEO王政表示,通聯數據採用的非結構化數據可以分為三類:第一類和人相關,包括社交言論、消費、去過的地點等;第二類與物相關,如通過正在行駛的船隻和貨車判斷物聯網情況;第三類則是衛星監測的環境信息,包括汽車流、港口裝載量、新的建築開工等情況。
衛星監測信息在美國已被投入使用,2014年Google斥資5億美元收購了衛星公司Skybox,從而可以獲得實施衛星監測信息。
結構化和非結構化數據也常常相互轉化。「結構化和非結構化數據可以形象理解成把所有數據裝在一個籃子里,根據應用策略不同相互轉化。例如,在搜索頻率調查中,用戶搜索就是結構化數據;在金融策略分析中,用戶搜索就是非結構化數據。」網路公司人士表示。
華爾街拿著豐厚薪水的分析師們還不知道,自己的僱主已經將大量資本投向了取代自己的機器。
2014年11月23日,高盛向Kensho公司投資1500萬美元,以支持該公司的大數據平台建設。該平台很像iPhone里的Siri,可以快速整合海量數據進行分析,並且回答投資者提出的各種金融問題,例如「下月有颶風,將對美國建材板塊造成什麼影響?」
在Kensho處理的信息中,有80%是「非結構化」數據,例如政策文件、自然事件、地理環境、科技創新等。這類信息通常是電腦和模型難以消化的。因此,Kensho的CEO Daniel Nadler認為,華爾街過去是基於20%的信息做出100%的決策。
既然說到高盛,順便提一下,這家華爾街老牌投行如今對大數據可謂青睞有加。除了Kensho,高盛還和Fortress信貸集團在兩年前投資了8000萬美元給小額融資平台On Deck Capital。這家公司的核心競爭力也是大數據,它利用大數據對中小企業進行分析,從而選出值得投資的企業並以很快的速度為之提供短期貸款。
捕捉市場情緒
上述諸多非結構化數據,歸根結底是為了獲得一個信息:市場情緒。
在采訪中,2013年諾貝爾經濟學獎得主羅伯特•席勒的觀點被無數采訪對象引述。可以說,大數據策略投資的創業者們無一不是席勒的信奉者。
席勒於上世紀80年代設計的投資模型至今仍被業內稱道。在他的模型中,主要參考三個變數:投資項目計劃的現金流、公司資本的估算成本、股票市場對投資的反應(市場情緒)。他認為,市場本身帶有主觀判斷因素,投資者情緒會影響投資行為,而投資行為直接影響資產價格。
然而,在大數據技術誕生之前,市場情緒始終無法進行量化。
回顧人類股票投資發展史,其實就是將影響股價的因子不斷量化的過程。
上世紀70年代以前,股票投資是一種定性的分析,沒有數據應用,而是一門主觀的藝術。隨著電腦的普及,很多人開始研究驅動股價變化的規律,把傳統基本面研究方法用模型代替,市盈率、市凈率的概念誕生,量化投資由此興起。
量化投資技術的興起也帶動了一批華爾街大鱷的誕生。例如,巴克萊全球投資者(BGI)在上世紀70年代就以其超越同行的電腦模型成為全球最大的基金管理公司;進入80年代,另一家基金公司文藝復興(Renaissance)年均回報率在扣除管理費和投資收益分成等費用後仍高達34%,堪稱當時最佳的對沖基金,之後十多年該基金資產亦十分穩定。
「從主觀判斷到量化投資,是從藝術轉為科學的過程。」王政表示,上世紀70年代以前一個基本面研究員只能關注20隻到50隻股票,覆蓋面很有限。有了量化模型就可以覆蓋所有股票,這就是一個大的飛躍。此外,隨著計算機處理能力的發展,信息的用量也有一個飛躍變化。過去看三個指標就夠了,現在看的指標越來越多,做出的預測越來越准確。
隨著21世紀的到來,量化投資又遇到了新的瓶頸,就是同質化競爭。各家機構的量化模型越來越趨同,導致投資結果同漲同跌。「能否在看到報表數據之前,用更大的數據尋找規律?」這是大數據策略創業者們試圖解決的問題。
於是,量化投資的多米諾骨牌終於觸碰到了席勒理論的第三層變數——市場情緒。
計算機通過分析新聞、研究報告、社交信息、搜索行為等,藉助自然語言處理方法,提取有用的信息;而藉助機器學習智能分析,過去量化投資只能覆蓋幾十個策略,大數據投資則可以覆蓋成千上萬個策略。
基於互聯網搜索數據和社交行為的經濟預測研究,已逐漸成為一個新的學術熱點,並在經濟、社會以及健康等領域的研究中取得了一定成果。在資本市場應用上,研究發現搜索數據可有效預測未來股市活躍度(以交易量指標衡量)及股價走勢的變化。
海外就有學術研究指出,公司的名稱或者相關關鍵詞的搜索量,與該公司的股票交易量正相關。德國科學家Tobias Preis就進行了如此研究:Tobias利用谷歌搜索引擎和谷歌趨勢(Google Trends),以美國標普500指數的500隻股票為其樣本,以2004年至2010年為觀察區間,發現谷歌趨勢數據的公司名稱搜索量和對應股票的交易量,在每周一次的時間尺度上有高度關聯性。也就是說,當某個公司名稱在谷歌的搜索量活動增加時,無論股票的價格是上漲或者下跌,股票成交量與搜索量增加;反之亦然,搜索量下降,股票成交量下降。以標普500指數的樣本股為基礎,依據上述策略構建的模擬投資組合在六年的時間內獲得了高達329%的累計收益。
在美國市場上,還有多家私募對沖基金利用Twitter和Facebook的社交數據作為反映投資者情緒和市場趨勢的因子,構建對沖投資策略。利用互聯網大數據進行投資策略和工具的開發已經成為世界金融投資領域的新熱點。
保羅·霍丁管理的對沖基金Derwent成立於2011年5月,注冊在開曼群島,初始規模約為4000萬美元, 2013年投資收益高達23.77%。該基金的投資標的包括流動性較好的股票及股票指數產品。
通聯數據董事長肖風在《投資革命》中寫道,Derwent的投資策略是通過實時跟蹤Twitter用戶的情緒,以此感知市場參與者的「貪婪與恐懼」,從而判斷市場漲跌來獲利。
在Derwent的網頁上可以看到這樣一句話:「用實時的社交媒體解碼暗藏的交易機會。」保羅·霍丁在基金宣傳冊中表示:「多年以來,投資者已經普遍接受一種觀點,即恐懼和貪婪是金融市場的驅動力。但是以前人們沒有技術或數據來對人類情感進行量化。這是第四維。Derwent就是要通過即時關注Twitter中的公眾情緒,指導投資。」
另一家位於美國加州的對沖基金MarketPsych與湯普森·路透合作提供了分布在119個國家不低於18864項獨立指數,比如每分鍾更新的心情狀態(包括樂觀、憂郁、快樂、害怕、生氣,甚至還包括創新、訴訟及沖突情況等),而這些指數都是通過分析Twitter的數據文本,作為股市投資的信號。
此類基金還在不斷涌現。金融危機後,幾個台灣年輕人在波士頓組建了一家名為FlyBerry的對沖基金,口號是「Modeling the World(把世界建模)」。它的投資理念全部依託大數據技術,通過監測市場輿論和行為,對投資做出秒速判斷。
關於社交媒體信息的量化應用,在股票投資之外的領域也很常見:Twitter自己也十分注重信息的開發挖掘,它與DataSift和Gnip兩家公司達成了一項出售數據訪問許可權的協議,銷售人們的想法、情緒和溝通數據,從而作為顧客的反饋意見匯總後對商業營銷活動的效果進行判斷。從事類似工作的公司還有DMetics,它通過對人們的購物行為進行分析,尋找影響消費者最終選擇的細微原因。
回到股票世界,利用社交媒體信息做投資的公司還有StockTwits。打開這家網站,首先映入眼簾的宣傳語是「看看投資者和交易員此刻正如何討論你的股票」。正如其名,這家網站相當於「股票界的Twitter」,主要面向分析師、媒體和投資者。它通過機器和人工相結合的手段,將關於股票和市場的信息整理為140字以內的短消息供用戶參考。
此外,StockTwits還整合了社交功能,並作為插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台,讓人們可以輕易分享投資信息。
另一家公司Market Prophit也很有趣。這家網站的宣傳語是「從社交媒體噪音中提煉市場信號」。和StockTwits相比,Market Prophit更加註重大數據的應用。它採用了先進的語義分析法,可以將Twitter里的金融對話量化為「-1(極度看空)」到「1(極度看多)」之間的投資建議。網站還根據語義量化,每天公布前十名和後十名的股票熱度榜單。網站還設計了「熱度地圖」功能,根據投資者情緒和意見,按照不同板塊,將板塊內的個股按照顏色深淺進行標注,誰漲誰跌一目瞭然。
中國原創大數據指數
盡管大數據策略投資在美國貌似炙手可熱,但事實上,其應用尚僅限於中小型對沖基金和創業平台公司。大數據策略投資第一次被大規模應用,應歸於中國的百發100。
網路金融中心相關負責人表示,與歐美等成熟資本市場主要由理性機構投資者構成相比,東亞尤其是中國的股票類證券投資市場仍以散戶為主,因此市場受投資者情緒和宏觀政策性因素影響很大。而個人投資者行為可以更多地反映在互聯網用戶行為大數據上,從而為有效地預測市場情緒和趨勢提供了可能。這也就是中國國內公募基金在應用互聯網大數據投資方面比海外市場並不落後、甚至領先的原因。
百發100指數由網路、中證指數公司、廣發基金聯合研發推出,於2014年7月8日正式對市場發布,實盤運行以來一路上漲,漲幅超過60%。跟蹤該指數的指數基金規模上限為30億份,2014年9月17日正式獲批,10月20日發行時一度創下26小時瘋賣18億份的「神話」。
外界都知道百發100是依託大數據的指數基金,但其背後的細節鮮為人知。
百發100數據層面的分析分為兩個層面,即數據工廠的數據歸集和數據處理系統的數據分析。其中數據工廠負責大數據的收集分析,例如將來源於互聯網的非結構化數據進行指標化、產品化等數據量化過程;數據處理系統,可以在數據工廠遞交的大數據中尋找相互統計關聯,提取有效信息,最終應用於策略投資。
「其實百發100是在傳統量化投資技術上融合了基於互聯網大數據的市場走勢和投資情緒判斷。」業內人士概括道。
和傳統量化投資類似,百發100對樣本股的甄選要考慮財務因子、基本面因子和動量因子,包括凈資產收益率(ROE)、資產收益率(ROA)、每股收益增長率(EPS)、流動負債比率、企業價值倍數(EV/EBITDA)、凈利潤同比增長率、股權集中度、自由流通市值以及最近一個月的個股價格收益率和波動率等。
此外,市場走勢和投資情緒是在傳統量化策略基礎上的創新產物,也是百發100的核心競爭力。接近網路的人士稱,市場情緒因子對百發100基金起決定性作用。
網路金融中心相關負責人是羅伯特•席勒觀點的支持者。他認為,投資者行為和情緒對資產價格、市場走勢有著巨大的影響。因此「通過互聯網用戶行為大數據反映的投資市場情緒、宏觀經濟預期和走勢,成為百發100指數模型引入大數據因子的重點」。
傳統量化投資主要著眼點在於對專業化金融市場基本面和交易數據的應用。但在網路金融中心相關業務負責人看來,無論是來源於專業金融市場的結構化數據,還是來源於互聯網的非結構化數據,都是可以利用的數據資源。因此,前文所述的市場情緒數據,包括來源於互聯網的用戶行為、搜索量、市場輿情、宏觀基本面預期等等,都被網路「變廢為寶」,從而通過互聯網找到投資者參與特徵,選出投資者關注度較高的股票。
「與同期滬深300指數的表現相較,百發100更能在股票市場振盪時期、行業輪動劇烈時期、基本面不明朗時期抓住市場熱點、了解投資者情緒、抗擊投資波動風險。」網路金融中心相關負責人表示。
百發100選取的100隻樣本股更換頻率是一個月,調整時間為每月第三周的周五。
業內人士指出,百發100指數的月收益率與中證100、滬深300、中證500的相關性依次提升,說明其投資風格偏向中小盤。
但事實並非如此。從樣本股的構成來說,以某一期樣本股為例,樣本股總市值6700億元,佔A股市值4.7%。樣本股的構成上,中小板21隻,創業板4隻,其餘75隻樣本股均為大盤股。由此可見,百發100還是偏向大盤為主、反映主流市場走勢。
樣本股每個月的改變比例都不同,最極端的時候曾經有60%進行了換倉。用大數據預測熱點變化,市場熱點往往更迭很快;但同時也要考慮交易成本。兩方面考慮,網路最後測算認為一個月換一次倉位為最佳。
樣本股對百發100而言是核心機密——據說「全世界只有基金經理和指數編制機構負責人兩個人知道」——都是由機器決定後,基金經理分配給不同的交易員建倉買入。基金經理也沒有改變樣本股的權利。
展望未來,網路金融中心相關負責人躊躇滿志,「百發100指數及基金的推出,只是我們的開端和嘗試,未來將形成多樣化、系列投資產品。」
除了百發100,目前市場上打著大數據旗幟的基金還有2014年9月推出的南方-新浪I100和I300指數基金。
南方-新浪I100和I300是由南方基金、新浪財經和深圳證券信息公司三方聯合編制的。和百發100類似,也是按照財務因子和市場情緒因子進行模型打分,按照分值將前100和前300名股票構成樣本股。推出至今,這兩個指數基金分別上漲了10%左右。
正如百發100的市場情緒因子來自網路,南方-新浪I100和I300的市場情緒因子全部來自新浪平台。其中包括用戶在新浪財經對行情的訪問熱度、對股票的搜索熱度;用戶在新浪財經對股票相關新聞的瀏覽熱度;股票相關微博的多空分析數據等。
此外,阿里巴巴旗下的天弘基金也有意在大數據策略上做文章。據了解,天弘基金將和阿里巴巴合作,推出大數據基金產品,最早將於2015年初問世。
天弘基金機構產品部總經理劉燕曾對媒體表示,「在傳統的調研上,大數據將貢獻於基礎資產的研究,而以往過度依賴線下研究報告。大數據將視野拓展至了線上的數據分析,給基金經理選股帶來新的邏輯。」
在BAT三巨頭中,騰訊其實是最早推出指數基金的。騰訊與中證指數公司、濟安金信公司合作開發的「中證騰安價值100指數」早在2013年5月就發布了,號稱是國內第一家由互聯網媒體與專業機構編制發布的A股指數。不過,業內人士表示,有關指數並沒有真正應用大數據技術。雖然騰訊旗下的微信是目前最熱的社交平台,蘊藏了大量的社交數據,但騰訊未來怎麼開發,目前還並不清晰。
大數據投資平台化
中歐商學院副教授陳威如在其《平台戰略》一書中提到,21世紀將成為一道分水嶺,人類商業行為將全面普及平台模式,大數據金融也不例外。
然而,由於大數據模型對成本要求極高,就好比不可能每家公司都搭建自己的雲計算系統一樣,讓每家機構自己建設大數據模型,從數據來源和處理技術方面看都是不現實的。業內人士認為,大數據未來必將成為平台化的服務。
目前,阿里、網路等企業都表示下一步方向是平台化。
螞蟻金服所致力搭建的平台,一方麵包括招財寶一類的金融產品平台,另一方麵包括雲計算、大數據服務平台。螞蟻金服人士說,「我們很清楚自己的優勢不是金融,而是包括電商、雲計算、大數據等技術。螞蟻金服希望用這些技術搭建一個基礎平台,把這些能力開放出去,供金融機構使用。」
網路亦是如此。接近網路的人士稱,未來是否向平台化發展,目前還在討論中,但可以確定的是,「網路不是金融機構,目的不是發產品,百發100的意義在於打造影響力,而非經濟效益。」
當BAT還在摸索前行時,已有嗅覺靈敏者搶佔了先機,那就是通聯數據。
通聯數據股份公司(DataYes)由曾任博時基金副董事長肖風帶隊創建、萬向集團投資成立,總部位於上海,公司願景是「讓投資更容易,用金融服務雲平台提升投資管理效率和投研能力」。該平台7月上線公測,目前已擁有130多家機構客戶,逾萬名個人投資者。
通聯數據目前有四個主要平台,分別是通聯智能投資研究平台、通聯金融大數據服務平台、通聯多資產投資管理平台和金融移動辦公平台。
通聯智能投資研究平台包括雅典娜-智能事件研究、策略研究、智能研報三款產品,可以對基於自然語言的智能事件進行策略分析,實時跟蹤市場熱點,捕捉市場情緒。可以說,和百發100類似,其核心技術在於將互聯網非結構化數據的量化使用。
通聯金融大數據服務平台更側重於專業金融數據的分析整理。它可以提供公司基本面數據、國內外主要證券、期貨交易所的行情數據、公司公告數據、公關經濟、行業動態的結構化數據、金融新聞和輿情的非結構化數據等。
假如將上述兩個平台比作「收割機」,通聯多資產投資管理平台就是「廚房」。在這個「廚房」里,可以進行全球跨資產的投資組合管理方案、訂單管理方案、資產證券化定價分析方案等。
通聯數據可以按照主題熱點或者自定義關鍵字進行分析,構建知識圖譜,將相關的新聞和股票提取做成簡潔的分析框架。例如用戶對特斯拉感興趣,就可以通過主題熱點看到和特斯拉相關的公司,並判斷這個概念是否值得投資。「過去這個搜集過程要花費幾天時間,現在只需要幾分鍾就可以完成。」王政表示。
「通聯數據就好比一家餐館,我們把所有原料搜集來、清洗好、准備好,同時准備了一個鍋,也就是大數據存儲平台。研究員和基金經理像廚師一樣,用原料、工具去『烹制』自己的策略。」王政形容道。
大數據在平台上扮演的角色,就是尋找關聯關系。人類總是習慣首先構建因果關系,繼而去倒推和佐證。機器學習則不然,它可以在海量數據中查獲超越人類想像的關聯關系。正如維克托`邁爾-舍恩伯格在《大數據時代》中所提到的,社會需要放棄它對因果關系的渴求,而僅需關注相互關系。
例如,美國超市沃爾瑪通過大數據分析,發現颶風用品和蛋撻擺在一起可以提高銷量,並由此創造了頗大的經濟效益。如果沒有大數據技術,誰能將這毫無關聯的兩件商品聯系在一起?
通聯數據通過機器學習,也能找到傳統量化策略無法發現的市場聯系。其中包括各家公司之間的資本關系、產品關系、競爭關系、上下游關系,也包括人與人之間的關系,例如管理團隊和其他公司有沒有關聯,是否牽扯合作等。
未來量化研究員是否將成為一個被淘汰的職業?目前研究員的主要工作就是收集整理數據,變成投資決策,而之後這個工作將更多由機器完成。
「當初醫療科技發展時,人們也認為醫生會被淘汰,但其實並不會。同理,研究員也會一直存在,但他們會更注重深入分析和調研,初級的數據搜集可以交給機器完成。」王政表示。
但當未來大數據平台並廣泛應用後,是否會迅速擠壓套利空間?這也是一個問題。回答根據網上資料整理
『貳』 大數據信息安全分析
大數據信息安全分析
企業和其他組織一直在充滿敵意的信息安全環境中運行,在這個環境中,計算和存儲資源成為攻擊者使用入侵系統進行惡意攻擊的目標。其中,個人機密信息被竊取,然後被放在地下市場出售,而國家支持的攻擊導致大量數據泄露。在這種情況下,一個企業需要部署大數據安全性分析工具
來保護有價值的公司資源。
信息安全的很大一部分工作是監控和分析伺服器、網路和其他設備上的數據。如今大數據分析方面的進步也已經應用於安防監控中,並且它們可被用於實現更廣泛和更深入的分析。它們與傳統的信息安全分析存在顯著的差異,本文將從兩個方面分別介紹大數據安全分析的新的特點,以及企業在選擇大數據分析技術時需要考慮的關鍵因素。
大數據安全分析的特徵
在許多方面,大數據安全分析是[安全信息和事件管理security information and event management ,SIEM)及相關技術的延伸。雖然只是在分析的數據量和數據類型方面存在量的差異,但對從安全設備和應用程序提取到的信息類型來說,卻導致了質的差異。
大數據安全分析工具通常包括兩種功能類別:SIEM,以及性能和可用性監控(PAM)。SIEM工具通常包括日誌管理、事件管理和行為分析,以及資料庫和應用程序監控。而PAM工具專注於運行管理。然而,大數據分析工具比純粹地將SIEM和PAM工具放在一起要擁有更多的功能;它們的目的是實時地收集、整合和分析大規模的數據,這需要一些額外的功能。
與SIEM一樣,大數據分析工具具有在網路上准確發現設備的能力。在一些情況下,一個配置管理資料庫可以補充和提高自動收集到的數據的質量。此外,大數據分析工具還必須能夠與LDAP或ActiveDirectory伺服器,以及其他的第三方安全工具進行集成。對事件響應工作流程的支持對於SIEM工具可能並不是非常重要,但是當日誌和其他來源的安全事件數據的的數據量非常大時,這項功能就必不可少了。
大數據信息安全分析與其他領域的安全分析的區別主要表現在五個主要特徵。
主要特性1:可擴展性
大數據分析其中的一個主要特點是可伸縮性。這些平台必須擁有實時或接近實時的數據收集能力。網路流通是一個不間斷的數據包流,數據分析的速度必須要和數據獲取的速度一樣快。 該分析工具不可能讓網路流通暫停來趕上積壓的需要分析的數據包。
大數據的安全分析不只是用一種無狀態的方式檢查數據包或進行深度數據包分析,對這個問題的理解是非常重要的。雖然這些都是非常重要和必要的,但是具備跨越時間和空間的事件關聯能力是大數據分析平台的關鍵。這意味著只需要一段很短的時間,一個設備(比如web伺服器)上記錄的事件流,可以明顯地與一個終端用戶設備上的事件相對應。
主要特性2:報告和可視化
大數據分析的另一個重要功能是對分析的報告和支持。安全專家早就通過報表工具來支持業務和合規性報告。他們也有通過帶預配置安全指標的儀錶板來提供關鍵性能指標的高層次概述。雖然現有的這兩種工具是必要的,但不足以滿足大數據的需求。
對安全分析師來說,要求可視化工具通過穩定和快速的識別方式將大數據中獲得的信息呈現出來。例如,Sqrrl使用可視化技術,能夠幫助分析師了解相互連接的數據(如網站,用戶和HTTP交易信息)中的復雜關系。
主要特性3:持久的大數據存儲
大數據安全分析名字的由來,是因為區別於其他安全工具,它提供了突出的存儲和分析能力。大數據安全分析的平台通常採用大數據存儲系統,例如Hadoop分布式文件系統(HDFS)和更長的延遲檔案儲存,以及後端處理,以及一個行之有效的批處理計算模型MapRece。但是MapRece並不一定是非常有效的,它需要非常密集的I / O支出。一個流行工具Apache Spark可以作為MapRece的替代,它是一個更廣義的處理模型,相比MapRece能更有效地利用內存。
大數據分析系統,如MapRece和Spark,解決了安全分析的計算需求。同時,長時持久存儲通常還取決於關系或NoSQL資料庫。例如,SplunkHunk平台支持在Hadoop和NoSQL資料庫之上的分析和可視化。該平台位於一個組織的非關系型數據存儲與應用環境的其餘部分之間。Hunk應用直接集成了數據存儲,不需要被轉移到二級內存存儲。Hunk平台包括用於分析大數據的一系列工具。它支持自定義的儀錶板和Hunk應用程序開發,它可以直接構建在一個HDFS環境,以及自適應搜索和可視化工具之上。
大數據安全分析平台的另一個重要特點是智能反饋,在那裡建立了漏洞資料庫以及安全性博客和其他新聞來源,潛在的有用信息能夠被持續更新。大數據安全平台可從多種來源提取數據,能夠以它們自定義的數據收集方法復制威脅通知和關聯信息。
主要特性4:信息環境
由於安全事件產生這么多的數據,就給分析師和其他信息安全專業人員帶來了巨大的風險,限制了他們辨別關鍵事件的能力。有用的大數據安全分析工具都在特定用戶、設備和時間的環境下分析數據。
沒有這種背景的數據是沒什麼用的,並且會導致更高的誤報率。背景信息還改善了行為分析和異常檢測的質量。背景信息可以包括相對靜態的信息,例如一個特定的雇員在特定部門工作。它還可以包括更多的動態信息,例如,可能會隨著時間而改變的典型使用模式。例如,周一早晨有大量對數據倉庫的訪問數據是很正常的,因為管理者需要進行一些臨時查詢,以便更好地了解周報中描述的事件。
主要特性5:功能廣泛性
大數據安全分析的最後一個顯著特徵是它的功能涵蓋了非常廣泛的安全領域。當然,大數據分析將收集來自終端設備的數據,可能是通過網際網路連接到TCP或IP網路的任何設備,包括筆記本電腦、智能手機或任何物聯網設備。除了物理設備和虛擬伺服器,大數據安全分析必須加入與軟體相關的安全性。例如,脆弱性評估被用於確定在給定的環境中的任何可能的安全漏洞。網路是一個信息和標準的豐富來源,例如Cisco開發的NetFlow網路協議,其可以被用於收集給定網路上的流量信息。
大數據分析平台,也可以使用入侵檢測產品分析系統或環境行為,以發現可能的惡意活動。
大數據安全分析與其他形式的安全分析存在質的不同。需要可擴展性,需要集成和可視化不同類型數據的工具,環境信息越來越重要,安全功能的廣泛性,其讓導致供應商應用先進的數據分析和存儲工具到信息安全中。
如何選擇合適的大數據安全分析平台
大數據安全分析技術結合了先進的安全事件分析功能和事故管理系統功能(SIEM),適用於很多企業案例,但不是全部。在投資大數據分析平台之前,請考慮公司使用大數據安全系統的組織的能力水平。這里需要考慮幾個因素,從需要保護的IT基礎設施,到部署更多安全控制的成本和益處。
基礎設施規模
擁有大量IT基礎設施的組織是大數據安全分析主要候選者。應用程序、操作系統和網路設備都可以捕獲到惡意活動的痕跡。單獨一種類型的數據不能提供足夠的證據來標識活動的威脅,多個數據源的組合可以為一個攻擊的狀態提供更全面的視角。
現有的基礎設施和安全控制生成了原始數據,但是大數據分析應用程序不需要收集、採集和分析所有的信息。在只有幾台設備,而且網路結構不是很復雜的環境中,大數據安全分析可能並不是十分必要,在這種情況下,傳統的SEIM可能已經足夠。
近實時監控
驅動大數據安全分析需求的另一個因素是近實時採集事故信息的必要性。在一些保存著高價值數據、同時又容易遭受到嚴重攻擊的環境中,實時監控尤為重要,如金融服務、醫療保健、政府機構等。
最近Verizon的研究發現,在60%的事件,攻擊者能夠在幾分鍾內攻克系統,但幾天內檢測到漏洞的比例也很低。減少檢測時間的一種方法是從整個基礎設施中實時地收集多樣數據,並立即篩選出與攻擊事件有關的數據。這是一個大數據分析的關鍵用例。
詳細歷史數據
盡管盡了最大努力,在一段時間內可能檢測不到攻擊。在這種情況下,能夠訪問歷史日誌和其它事件數據是很重要的。只要有足夠的數據可用,取證分析可以幫助識別攻擊是如何發生的。
在某些情況下,取證分析不需要確定漏洞或糾正安全弱點。例如,如果一個小企業受到攻擊,最經濟有效的補救措施可能雇安全顧問來評估目前的配置和做法,並提出修改建議。在這種情況下,並不需要大數據安全分析。其他的安全措施就可能很有效,而且價格便宜。
本地vs雲基礎架構
顧名思義,大數據安全分析需要收集和分析大量各種類型的數據。如捕獲網路上的所有流量的能力,對捕獲安全事件信息的任何限制,都可能對從大數據安全分析系統獲得的信息的質量產生嚴重影響。這一點在雲環境下尤其突出。
雲提供商限制網路流量的訪問,以減輕網路攻擊的風險。例如,雲計算客戶不能開發網段來收集網路數據包的全面數據。前瞻性的大數據安全分析用戶應該考慮雲計算供應商是如何施加限制來遏制分析范圍的。
有些情況下,大數據安全分析對雲基礎設施是有用的,但是,特別是雲上有關登錄生成的數據。例如,亞馬遜Web服務提供了性能監控服務,稱為CloudWatch的,和雲API調用的審計日誌,稱為CloudTrail。雲上的操作數據可能不會和其他數據源的數據一樣精細,但它可以補充其他數據源。
利用數據的能力
大數據安全分析攝取和關聯了大量數據。即使當數據被概括和聚集的時候,對它的解釋也可能是很有挑戰性的。從大數據分析產生的信息的質量,部分上講是分析師解釋數據能力的一項指標。當企業與安全事件扯上關系的時候,它們需要那些能夠切斷攻擊鏈路,以及理解網路流量和操作系統事件的安全分析師。
例如,分析師可能會收到一個資料庫伺服器上有關可疑活動的警報。這很可能不是一個攻擊的第一步。分析師是否可以啟動一個警報,並通過導航歷史數據找到相關事件來確定它是否確實是一個攻擊?如果不能,那麼該組織並沒有意識到大數據安全分析平台帶來的好處。
其他安全控制
企業在投身大數據安全分析之前,需要考慮它們在安全實踐方面的整體成熟度。也就是說,其他更便宜和更為簡單的控制應該放在第一位。
應該定義、執行和監測清晰的身份和訪問管理策略。例如,操作系統和應用程序應該定期修補。在虛擬環境的情況下,機器圖像應定期重建,以確保最新的補丁被並入。應該使用警報系統監視可疑事件或顯著的環境變化(例如伺服器上增加了一個管理員帳戶)。應當部署web應用防火牆來減少注入攻擊的風險和其他基於應用程序的威脅。
大數據安全分析的好處可能是巨大的,尤其是當部署到已經實現了全面的防禦戰略的基礎設施。
大數據安全分析商業案例
大數據安全分析是一項新的信息安全控制技術。這些系統的主要用途是合並來自於多個來源的數據,並減少手動集成解決方案的需求。同時還解決了其他安全控制存在的不足,例如跨多個數據源查詢困難。通過捕獲來自於多個來源的數據流,大數據分析系統提高了收集取證重要細節的機會。
『叄』 大數據攻略案例分析及結論
大數據攻略案例分析及結論
我們將迎來一個「大數據時代」。與變化相始終的中國企業,距離這場革命還有多遠?而追上領先者又需要多快的步伐?
{研究結論}
怎樣才能用起來大數據?障礙如何解決?中國企業家研究院對10多家在大數據應用方面的領先企業進行了采訪調研,更多家企業進行了書面資料調研,我們發現:
■ 當前中國企業的大數據應用可以歸類為:大數據運營、大數據產品、大數據平台三大=領域,前兩者更多是企業內部的應用,後者則在於用大數據來繁榮整個平台企業群落的生態。
■ 大數據營銷的本質是一個影響消費者購物前心理路徑的問題,而這在大數據時代前很難做到。
■ 對於傳統企業而言,要打通線上與線下營銷,實現新的商業模式,如O2O等,離不開大數據。
■ 雖然大數據應用往往集中於大數據營銷,但對於一些企業,大數據的應用早已超越了營銷范疇,全面進入了企業供應鏈、生產、物流、庫存、網站和店內運營等各個環節。
■ 對於大部分企業,由於數據分析人員與業務人員之間的彼此視角與思考方向不同,大數據分析和運營之間存在脫節情況,這是大數據無法用於企業運營最大的阻力
■ 對於大多數互聯網公司來說,大數據量、大用戶量是一個相互促進,強者越強的循環過程。
■ 對於大型互聯網平台,大數據已經成為其生態循環中的血液,對於這些企業,最重要
的不是如何利用大數據改進自身運營,而是利用大數據更好地繁榮平台生態。
■ 對於平台企業,它們的大數據策略正逐漸從大數據運營,向運營大數據轉變,前者和
後者的差別在於,前者只是運營改進的動力,而後者則成為企業實現未來戰略的核心資源。
我們都已被反復告知:我們將迎來一個「大數據時代」。
大數據應用,將和雲計算、3D列印這些技術變革一樣,顛覆既有規則,並成為先行企業的制勝關鍵。
與變化相始終的中國企業,距離這場革命還有多遠?而追上領先者又需要多快的步伐?
來自於互聯網、移動互聯網、物聯網感測器、視頻採集系統的數據正海量增長,匯成大數據的海洋,相伴的是海量數據存儲、分析技術的突破性發展,所有這一切都給企業的應用帶來了無限可能性。
許多企業希望將大數據用起來,帶動企業的經營,但不知從哪裡著手。它們不惜重金投資大數據信息系統、分析系統,聘請更多的人才,希望能從這個新趨勢中獲益,不過卻無奈地發現,大數據仍然停留在雲端,沒有帶來多少實際收益。它們找不到大數據與業務結合的突破口。而一些真正將大數據應用於實戰的企業,卻在應用過程中困難重重:大數據無法與業務結合;沒有收集、分析海量數據的能力;經營人員缺少應用大數據的動力;數據來源魚龍混雜難以使用……
中國企業家研究院對當前中國企業大數據應用的狀況進行了歸納分類,以幫助企業了解實際應用大數據時的困局難點,並提供領先企業的典型案例以資借鑒。
表1
表2
大數據運營—企業提升效率的助推力
對於大多數企業而言,運營領域的應用是大數據最核心的應用,之前企業主要使用來自生產經營中的各種報表數據,但隨著大數據時代的到來,來自於互聯網、物聯網、各種感測器的海量數據撲面而至。於是,一些企業開始挖掘和利用這些數據,來推動運營效率的提升。大數據運營應用中,大數據的應用分為三類:用於企業外部營銷、用於內部運營,以及用於領導層決策。
一、大數據營銷
大數據營銷的本質是影響目標消費者購物前的心理路徑,它主要應用在三個方面:1、大數據渠道優化,2、精準營銷信息推送,3、線上與線下營銷的連接。在消費者購物前,通過各種方式,直接介入其信息收集和決策過程。而這種介入,是建立在對於線上與線下海量用戶數據分析的基礎之上。相比傳統狂轟濫炸或等客上門的營銷,大數據營銷無論在主動性和精準性方面,都有非常大的優勢。它是目前主要的大數據應用領域。
大數據營銷不僅僅是用大數據找出目標顧客,向其發布促銷信息,它還可以做到:
實現渠道優化。根據用戶的互聯網痕跡進行渠道營銷效果優化,就是根據互聯網上顧客的行為軌跡來找出哪個營銷渠道的顧客來源最多,哪個來源顧客實際購買量最多,是否是目標顧客等等,從而調整營銷資源在各個渠道的投放。例如東風日產,它利用對顧客來源的追蹤,來改進營銷資源在各個網路渠道如門戶網站、搜索和微博的投放。
精準營銷信息推送。精準建立在對海量消費者的行為分析基礎之上,消費者網路瀏覽、搜索行為被網路留下,線下的購買和查看等行為可以被門店的POS機和視頻監控記錄,再加上他們在購買和注冊過程中留下的身份信息,在商家面前,正逐漸呈現出消費者信息的海洋。
一些企業通過收集海量的消費者信息,然後利用大數據建模技術,按消費者屬性(如所在地區、性別)和興趣、購買行為等維度,挖掘目標消費者,然後進行分類,再根據這些,對個體消費者進行營銷信息推送。比如孕婦裝品牌十月媽咪通過對自己微博上粉絲評論的大數據分析,找出評論有「喜愛」相關關鍵詞的粉絲,然後打上標簽,對其進行營銷信息推送。京東商城副總經理李曦表示:「用大數據找出不同細分的顧客需求群,然後進行相應的營銷,是京東目前在做的事情。」小也化妝品將自身網站作為收集消費者信息的雷達,對不同消費者推薦相應的肌膚解決方案,創始人肖尚略希望在未來,大數據營銷能替代網站的作用,真正成為面向顧客的前端。
打通線上線下營銷。一些企業將互聯網上海量消費者的行為痕跡數據與線下購買數據打通,實現了線上與線下營銷的協同。比如東風日產,線上與線下的協同營銷方式為:其門戶網站帶來訂單線索,而通過這些線索,服務人員進行電話回訪,從而推動顧客在線下交易。在此過程中,東風日產記錄了消費者進入、瀏覽、點擊、注冊、電話回訪和購買各個環節的數據,實現了一個橫跨線上線下,以大數據分析為支持的,營銷效果不斷優化的閉環營銷通路。而國雙科技,衡量某一地區線下促銷活動的效果,就是看互聯網上,來自這個地區對於促銷內容的搜索量。一些企業,通過鼓勵線下顧客使用微信和Wi-Fi等可追蹤消費者行為和喜好的設備,來打通線上與線下數據流,銀泰百貨計劃鋪設Wi-Fi,鼓勵顧客在商場內使用,然後根據Wi-Fi賬號,找出這個顧客,再通過與其它大數據挖掘公司合作,以大數據的手段,發掘這個顧客在互聯網的歷史痕跡,來了解這個顧客的需求類型。
二、大數據用於內部運營
相比大數據營銷,大數據在內部運營中的應用更深入,對於企業內部的信息化水平,以及數據採集和分析能力的要求更高。本質上,是將企業外部海量消費者數據與企業內部海量運營數據聯系起來,在分析中得到新的洞察,提升運營效率。(詳見P96表5:大數據在內部運營中的應用)
表5
三、大數據用於決策
在大數據時代,企業面對眾多新的數據源和海量數據,能否基於對這些數據的洞察,進行決策,進而將其變成一項企業競爭優勢的來源?同大數據營銷和大數據內部運營相比,運用大數據決策難度最高,因為它需要一種依賴數據的思維習慣。
已有少數企業開始嘗試。比如國內一些金融機構在推出一個金融產品時,會廣泛分析該金融產品的應用情況和效果、目標顧客群數據、各種交易數據和定價數據等,然後決定是否推出某個金融產品。
但是,中國企業家研究院在調研中發現,目前中國企業當中,大數據決策的應用非常之少,許多企業領導者進行決策時,仍習慣於憑借歷史經驗和直覺。
大數據產品——企業利潤滋長的新源泉
大數據除了用於運營外,還能夠與企業產品結合,成為企業產品背後競爭力的核心支持或者直接成為產品。提供大數據產品的企業分為兩類,直接提供大數據產品的企業,以及將大數據作為產品和服務核心支撐的企業。前者主要為大數據產業鏈中提供數據服務的參與者,包括數據擁有者、存儲企業,挖掘企業、分析企業等,後者則主要是那些以大數據為產品核心支撐的企業,它們大多是互聯網企業,其產品和服務先天就有大數據基因,這些企業包括搜索引擎、在線殺毒、互聯網廣告交易平台以及眾多植根於移動互聯網之上,為用戶提供生活和資訊服務的APP等。
表3
表4
一、大數據作為產品核心支持
它們主要在以下幾方面使用大數據:
1、提供信息服務。很多互聯網企業通過對海量互聯網信息和線下信息的整合和分析,為個人和企業提供信息服務,典型的如網路、去哪兒、一淘、高德地圖、春雨醫生等等。在美國,一些互聯網企業甚至根據大數據提供更深度的預測信息服務,美國科技創新公司farecast,通過分析特定航線機票的價格,幫助消費者預測機票價格走勢。
2、分析用戶的個性化需求,藉此提供個性化產品和服務,或者實現更精準的廣告。典型的有移動社交工具陌陌、網路、騰訊、廣告交易平台品友互動以及一些互聯網游戲商。這種應用往往先是收集海量用戶的互聯網行為數據,將用戶分類,根據不同類型的用戶,提供個性化的產品,或者提供個性化的促銷信息。比如網易等門戶網站推出了訂閱模式,讓使用者按照個人喜好方便地定製和整合不同來源的信息。
3、增強產品功能。對於很多互聯網產品,如殺毒軟體、搜索引擎等等,海量數據的處理能夠讓產品變得更聰明更強大,如果沒有大數據,產品的功能就大大減弱。比如奇虎360公司的360殺毒軟體,憑借每天海量的殺毒處理,建立了龐大的病毒庫,這使它能夠更快地發現病毒,而一些小的殺毒軟體公司則無法做到這一點。
4、掌控信用狀況,提供信貸服務。阿里巴巴上匯集了海量中小企業的日常資金與貨品往來,通過對這些往來數據的匯總與分析,阿里巴巴能發現單個企業的資金流與收入情況,分析其信用,找出異常情況與可能發生的欺詐行為,控制信貸風險。
5、實現智能匹配。婚戀網站、交易平台等,利用大數據可以進行精準而高效的配對服務。網易花田會挖掘用戶行為數據,比如點擊哪些異性的頁面,發表什麼樣的評論,建立用戶興趣模型,從而挖掘到用戶所期待另一半的類型,然後主動推薦與對方匹配度比較高的人選。2010年,阿里巴巴嘗試性地推出「輕騎兵」服務,由阿里巴巴將中國各產業集群地的供應商與海外買家的個性采購需求進行快速匹配,所憑借的,就是對供應商的海量交易數據信息的整合與挖掘。
大數據作為產品核心支撐的關鍵在於用戶量。對於大多數互聯網公司來說,用戶量越多,收集的數據越多,憑借更多的數據,其產品與商業模式會不斷改進,進而帶來更多的用戶。
二、大數據直接作為產品
對一些企業,大數據直接成為了產品,這些產品包括海量數據、分析、存儲與挖掘的服務等,目前大數據產業鏈正在形成過程中,出現了一批開放、出售、授權大數據和提供大數據分析、挖掘的公司和機構,前者主要是一些擁有海量數據的公司,將數據服務作為新的盈利來源。如大型的互聯網平台、民航、電信運營商、一些擁有大數據的政府機構等等,後者主要包括一些能夠存儲海量數據或者將海量數據與業務場景結合,進行分析和挖掘,或者提供相關產品的公司,如IBM、SAP、拓而思、天睿公司。它們為大數據應用者們提供海量數據存儲、數據挖掘、圖像視頻、智能分析等服務以及相關系統產品。
大數據平台——企業群落繁榮的滋養劑
相對企業本身對大數據的應用,大數據平台更多是利用大數據來搭建企業生態。一些擁有龐大數據資源的大型互聯網平台,已變為包含海量寄生者的生態系統。在這個生態系統中,它們將海量用戶互聯網行為痕跡和分析提供給平台上的企業,用於它們改善經營,推動整個平台生態繁榮,在這一過程中,它們也收取數據服務費。阿里巴巴就是一個典型的例子,從數據魔方、黃金策到聚石塔,阿里巴巴不斷地為平台上中小電商提供數據產品和服務。
而網路已建成了包括網路指數、司南、風雲榜、數據研究中心和網路統計在內的五大數據體系平台,幫助其營銷平台上的企業了解消費者行為、興趣變化,以及行業發展狀況、市場動態和趨勢、競爭對手動向等信息。
而當大數據從企業內部運營的動力,變成平台企業的產品和服務時,平台企業也在經歷著一個從大數據運營到運營大數據的階段。數據從運營的支持工具,變成了生產資料。此前平台們的關注點,更多的是如何用好現有的大數據。而未來,它們的關注點則更多是如何將大數據這個生產資料管理好、經營好,如何更好地為平台上的企業服務。這就涉及到收集的數據質量怎樣?格式標準是否統一?數據作為一種原材料,其精細化程度如何?是否符合平台上企業應用的具體場景?是平台上企業拿來就能用的,還是還需要平台上的企業再加工?
為解決這些問題,各個平台在積極地努力。比如阿里巴巴建立了數據委員會,在統一數據格式標准、從源頭上保證數據的質量,採集和加工出精細化的數據,確保其能符合平台企業的應用場景等方面,不遺餘力地嘗試。尤其在大數據精細化方面,阿里巴巴更是作為其大數據戰略的重點。這方面,騰訊目前也在加快步伐。比如新版騰訊網出現了「一鍵登錄」的提示,用戶可以在上面通過一些細分標簽,訂閱自己關注的內容。實際上,這也是騰訊收集更精細化的用戶興趣數據的一個有效手段。
Tips
大數據實戰手冊
將大數據應用於內部運營中時,企業會遇到一些常見問題
1企業如何獲取與分析數據?
互聯網是大數據的一個主要來源,一些線下的傳統企業很難獲得。但它們可以:
a 和擁有或能抓取海量數據的平台、企業以及政府機構合作。比如淘寶上的電商就購買淘寶收集的海量數據中與自身運營相關的部分,用於自身業務。再如卡夫通過與IBM合作,在博客、論壇和討論版的內容中抓取了47.9萬條關於自己產品的討論信息,通過大數據分析出消費者對卡夫食品的喜愛程度和消費方式。
b 建立自己在互聯網上的平台,比如朝陽大悅城利用自己的微信、微博等平台收集消費者評論數據。
c 許多傳統企業沒有分析海量數據的能力,此時它們可以和大數據分析和挖掘公司合作,目前市場上已經有天睿公司、IBM、百分點、華勝天成等一批提供大數據分析和挖掘服務的公司,它們是傳統企業進行大數據分析可以藉助的力量。
2 如何避免大數據應用時的部門分割?
對於許多企業,其信息流被各部門彼此分割,數據難以互通,對於這種情況下,大數據的共享和匯集就只是一個泡影,更難以實現大數據的深度應用。
要打通部門之間信息分割的局面,首先要建立統一的、集中的數據系統。就像立白信息與知識總監王永紅所說的,「要真正用好大數據,企業要採用大集中的信息系統。」從更深入的角度來談,企業信息流的部門分割,更在於企業部門之間的分割,比如有一些企業的營銷按照渠道分割,導致對於顧客的大數據收集和分析效果大打折扣。
IBM智慧商務技術總監楊旭青認為,「很多時候由於組織結構問題,大數據分析有效性大大降低了。」這就需要組織與流程層面的重新設計,在這方面,阿里巴巴的部門負責人輪崗制度,對於打破部門壁壘無疑是一劑好葯。而一些企業為了打破部門分割,建立了矩陣型的組織結構,強化部門間的橫向合作,這些無疑為大數據的匯集、共享與應用創造了良好條件。
3 如何讓業務人員重視大數據的應用?
解決這個問題,一方面在於一把手對整個企業數據文化的倡導,比如1號店董事長於剛就要求業務人員無論在開會,還是匯報工作時,都以數據說話,而馬雲更是將大數據提升到了戰略高度。
另一方面,也在於數據部門的帶動,阿里巴巴數據委員會負責人車品覺分享了經驗,「因為運營部門的業務人員很難看到大數據的潛力,可以首先從一些對業務見效快,見效顯著的數據項目出發,通過一兩個項目的成功,調動對方的積極性,然後再逐步一個個地引導。」
4 為何大數據工作與運營需求脫節?
這往往是由於數據人員與業務人員視角、專業知識不同而導致的。大數據人員做了很多努力,但是業務人員卻認為這些努力無關痛癢。如何解決這個問題?
有的企業從組織設計上發力,將大數據納入業務分析部門的管理之下,用業務統馭數據。對於朝陽大悅城,由主要負責戰略和經營分析的部門來管理大數據工作,其中的大數據分析人員則作為支持人員。在負責人張岩看來,大數據要靠商業法則指導,關鍵是找到業務需求的點,然後由數據分析和挖掘人員實現。在具體操作中,大悅城對微信的數據挖掘,挖掘什麼樣的關鍵詞,由業務分析人員確定,而具體挖掘則由數據部門做;有的企業從流程設計上著手,推動業務部門與數據部門人員之間的溝通,建立數據人員工作與效果掛鉤的考核機制。
例如阿里巴巴根據數據挖掘的成效(比如帶來的商品轉化率的提升)來考核數據挖掘師,考核數據分析師則看其分析結果能否出現在經營負責人的報告中。從數據部門自身角度則需要降低運營部門使用數據的障礙和門檻,比如立白集團的數據人員會努力嘗試向運營部門提供更易懂、更生動的圖形化數據分析界面,在立白老闆辦公室上,就有一份「客戶運營健康體檢表」,讓老闆對全國經銷商的當月銷售情況一目瞭然。再如阿里巴巴開發的無線Bi,讓經營人員在手機上也可以看到大數據分析結果,拿車品覺的話說,「以數據之氧氣包圍經營人員。」
以上是小編為大家分享的關於大數據攻略案例分析及結論的相關內容,更多信息可以關注環球青藤分享更多干貨
『肆』 大數據基金靠譜嗎
一、導語
最近一年,有幾個概念廣受追捧,分別是「大數據」,「股市」和「互聯網金融」,而不斷推出的「大數據基金」更是將這幾個熱門概念融合起來,為投資者帶來了嶄新的投資選擇。「大數據基金」的團隊也可謂陣容豪華,「網路」加「廣發基金」,「阿里」加「博時基金」,「新浪」加「南方基金」,都是互聯網巨頭和實力基金公司的強強聯合。那麼「大數據基金」到底靠譜嗎?它到底是基金的未來,還是僅僅藉助了新概念的噱頭呢?
二、大數據分析在投資中有價值嗎?
先說結論再說解釋,大數據對投資一定是有價值的。這與市場上現有大數據基金業績如何無關,而是因為大數據作為之前投資過程中沒有被利用過的用戶行為信息,一定可以通過科學的方法提取出有價值的數據。我們可以從邏輯上驗證這個觀點,舉一個邏輯假象的例子即可說明。
例子:網路通過搜索行為尋找聰明的投資者
「博時淘金100」這支基金錶現類似「廣發百發100」,在下跌行情中表現較差。
從價格比值走勢圖看出,無論大數據指數還是大數據基金,產品化之後的表現都出現了不同程度的下滑。具體而言,幾只大數據指數在長期的歷史回溯期上,其相對於中證500的價格比值走勢持續上升,波動較小;而在產品化之後(圖中的小黑圈之後)的評價期上,期價格比值基本走平,且有較大的波動,因此就這段不太長的實盤產品運作期間而言,其業績相對於傳統股市指數並沒有顯著優勢。
五、如何看待大數據基金?
通過上面的分析,我們發現到目前為止,「大數據基金」相比傳統股市指數並沒有明顯的優勢,而由於各支大數據基金的上市時間都不到一年,所以還不能肯定他們的未來業績。但對於這樣一種嶄新的基金形式,建議每位投資者都應保持關注。因為我們相信大數據中蘊含的價值,期待有一家靠譜的基金公司能夠利用現代分析工具有效發覺利用,轉變為實在的價值,真正讓大數據基金變成基金行業的未來。
『伍』 大數據下互聯網金融怎麼投資
隨著網路經濟迅速發展,網路金融、網上購物等電子商務的發展如雨後春筍,人們不得不意識到,互聯網金融時代來了。支付寶、余額寶、微信紅包??,互聯網金融大戰在馬年春節就已拉響。
1第一是傳統的金融藉助互聯網渠道為大家提供服務。這個是大家熟悉的網銀。互聯網在其中發揮的作用應該是渠道的作用。
2第二種模式,類似金融平台,由於它具有電商的平台,為它提供信貸服務創造的優於其他放貸人的條件。互聯網在里邊發揮的作用是依據大數據收集和分析進而得到信用支持.
3第三種模式,大家經常談到的P2P的模式,這種模式更多的提供了中介服務,這種中介把資金出借方需求方結合在一起。發展至今由P2P的概念已經衍生出了很多模式。
4以上三種模式穩貸建議大家要做好詳細的分析,再進行投資這樣投資有保證。
『陸』 天弘基金打造三領域領先的大數據指數
天弘基金打造三領域領先的大數據指數
國務院近日發布了《促進大數據發展行動綱要》(以下簡稱《綱要》),將大數據發展提升為國家戰略,大數據所蘊含的巨大價值將被進一步挖掘。作為國內大數據投研的領先者,天弘基金開發定製的國內首隻社交投資大數據指數——雪球100指數於9月15日正式發布,從此日開始,投資者可通過雪球網、Wind等數據終端查看指數行情,了解具體的點位、漲跌幅、分時走勢等數據。
雪球100指數的特點是投資者最為關心的問題,對此,天弘基金投研部總經理肖志剛介紹稱,天弘基金所定製開發的雪球100指數,在三方面做到領先。第一,率先引入投資眾包思維,篩選大量有經驗的投資者的智慧,將其智慧轉化為有指導意義的、可視化的指數;第二,採用雪球獨特的數據資源,打造國內首隻社交投資大數據指數;第三,編制中剔除其他重復性因子,也是國內首隻純粹的大數據指數。
肖志剛同時表示,天弘基金選擇以雪球的數據來編制大數據指數,是看中了雪球作為社交投資平台,具備去中心化的投資體系。「雪球的數據量大,裡面肯定有很多優秀的投資人,優秀的想法,如果能用一定的方法把這些人篩選出來,把這些想法集中起來,必定能在大概率上跑贏市場。而且雪球的模擬組合能把投資者的投資思路數據化,更加直觀,處理起來也更加方便,因此我們想到了合作開發這樣一隻指數,把大眾的智慧調動起來。」肖志剛表示,在雪球100指數發布後,天弘基金將盡早發行跟蹤雪球100指數的基金,目前產品正在籌備中。
天弘基金在編制雪球100指數時,也打破傳統,採用創新模式,為的是給投資者提供簡單、清晰、有效的工具。
肖志剛表示,在編制過程中,綜合考慮了雪球用戶對股票的認同,用戶的研究能力、投資能力,最後的組合等來綜合決策,是一個經歷了層層篩選的策略,模擬真實的投資決策,能夠反映具有投資能力和研究能力的用戶的股票持倉及增減倉總體情況。簡單來說,雪球100的編制,先篩選出得到用戶認可的大V,然後對其研究能力和投資能力進行量化,再對其股票綜合評分,選取高分組合。
首先,在雪球的全部注冊用戶中,選取粉絲數排名前5%的用戶作為參考用戶;在參考用戶創建的所有自選組合中,選取最近一個月內倉位發生過變動的組合作為參考組合。在全部參考組合所覆蓋的股票中,選取至少被20個參考用戶所持有的股票(截至月末)作為待選樣本;其次,對大V的研究能力和投資能力根據其評論和調倉等數據進行量化。對每個待選樣本所覆蓋的參考用戶,根據其相關的組合歷史業績和線上活躍度進行評分(當組合創建時間不足一年時,相關歷史業績評分為零),得到單個參考用戶關於某待選樣本的能力評分。計算單個待選樣本的持倉評分與調倉評分(增持為正,減持為負),並由此通過加權得到其綜合評分。選取綜合評分最高的100隻待選樣本作為指數樣本股。
另外,雪球100指數的成分股每個月調整一次。最近一期的100隻成分股中,滬市、深市、創業板的股票數量佔比分別為42%、39%和19%,持倉市值佔比分別為57.22%、34.34%和8.44%,包括浦發銀行、民生銀行、中國石化、包鋼股份、復星醫葯等。而且,該指數採用流通市值加權的方式,防止小股票權重過高。目前看,該指數的模擬業績效果很好,走勢相對穩健,換手率較低,近8個月都在30%以下,年化超額收益在30%以上。而且在市場大幅震盪中回撤幅度遠小於其他大數據指數。
以上是小編為大家分享的關於天弘基金打造三領域領先的大數據指數的相關內容,更多信息可以關注環球青藤分享更多干貨
『柒』 全球大數據產業現狀及投資前景預測
全球大數據產業現狀及投資前景預測
縱觀國內外,大數據已經形成產業規模,並上升到國家戰略層面,大數據技術和應用呈現縱深發展。面向大數據的雲計算技術、大數據計算框架等不斷推出,新型大數據挖掘方法和演算法大量出現,大數據新模式、新業態層出不窮,傳統產業開始利用大數據實現轉型升級。人工智慧、深度學習、工業物聯網、虛擬現實、智慧城市等領域的發展推動大數據的應用普及。新興行業、傳統行業圍繞數據服務體系,已經形成了傳統行業數據平台、互聯網數據平台及行業資訊類數據平台。以數據應用為基礎的新一代數據服務企業,在促進主體行業發展的同時,同樣促進了行業內中小企業的發展。
1
大數據發展的產業環境分析
美國政策層面發力推動大數據應用發展。政府推出了一系列的公開數據計劃,在健康、能源、氣候、教育、金融、公共安全等領域開放數據和信息,促進創新的突破,從而推動經濟發展。美國致力於擴大聯邦數據公開范圍和受用對象的范圍,尤其擴大高價值數據資產,探討如何進一步擴展收集和分析工業競爭和創新相關的數據。
為了進一步挖掘聯邦政府數據的應用潛力,促進創新與社會進步,2016年1月美商務部發起了一項旨在使政府數據更加容易使用的數據易用性計劃(CDUP)。5月,白宮發布《聯邦大數據研發戰略計劃》,為未來的大數據研發列出7條戰略計劃,旨在建立大數據創新生態系統,加強數據分析能力,從大量、多樣、實時的資料庫中提取有效信息,服務於科學研究、經濟增長與國家安全。2016年,美國應用大數據預測選舉也引起世界關注,大數據應用開始為廣大公眾所關注,數據的真實性及數據安全成為關注焦點。
英國以數據共享為根本積極推動大數據平台建設。新建哈璀(Hartree)大數據中心,投資1.13億英鎊。新建艾倫圖靈研究所,投資4200萬英鎊,開展大數據科學與技術的研究。投資1.5億英鎊建立第一個國家級老年痴呆症研究所。建立應對重大疾病新的數學研究中心。英國成立大數據戰略委員會,發布《開放數據戰略白皮書》,統一政府數字平台,開通政府部門開放數據通道,設立數據開放共享獎勵基金,2018年還將出台「數據保護通則」的專門法規,旨在開發利用數據資源產生更大的商業價值和經濟增長。
瑞典啟動國家重點科研計劃(NFP)大數據專項(Big Data, NFP75)。2017年正式啟動,計劃投入資金2.5億瑞士法郎,從2017年至2020年為期4年。該專項主要分為三個板快:大數據信息技術:大數據分析基礎性研究、大數據基礎設施構架、資料庫和計算中心;大數據相關社會及法律問題:大數據涉及對社會經濟發展的影響預測(如對貿易、商務模式、人員交通及物流的影響)、個人隱私及空間的保護及相關的社會倫理和法律問題及對策等;大數據應用:對大數據在交通、健康、災害及社會風險控制、能源轉型領域的應用展開基礎性研究。瑞士國家重點科研計劃由瑞士聯邦政府推出,目的是對關系瑞士社會經濟發展全局的重要領域展開基礎性研究並提出對策建議。
我國各地政府積極為大數據發展營造環境。2014年、2015年「大數據」首次寫入國家《政府工作報告》。在2015年3月5日舉行的兩會中,李總理在政府工作報告中提到,制定「互聯網+」行動計劃,推動移動互聯網、雲計算、大數據、物聯網等與現代製造業結合,促進電子商務、工業互聯網和互聯網金融健康發展,引導互聯網企業拓展國際市場。
當前,《國家大數據戰略及行動綱要(2015-2025)》徵求意見稿完成。國家自然基金委、科技部支持了大量大數據研究項目;北京市、上海市、天津市、重慶市、廣東省、貴州省等制定了大數據發展規劃,多地開始建數據產業基地,天津擬打造國家數據聚集區,與北京、河北聯合建「京津冀大數據走廊」;重慶計劃將大數據培育成重要戰略性新興產業,加快建設兩江雲計算產業園,陝西西咸新區、湖北武漢光谷、貴州貴安新區等地提出要設國家級大數據基地。
上海成立數據交易中心。2016年4月1日,上海數據交易中心掛牌成立,上海數據交易中心是經上海市人民政府批准,上海市經濟和信息化委、上海市商務委聯合批復成立的國有控股混合所有制企業,承擔著促進商業數據流通、跨區域的機構合作和數據互聯、公共數據與商業數據融合應用等工作職能。交易中心以國內領先的「技術+規則」雙重架構,創新結合IKVLTP 六要素技術,採用自主知識產權的虛擬標識技術和二次加密數據配送技術,結合面向應用場景的交易規則,將在全面保障個人隱私、數據安全前提下推動數據聚合流動。
上海將圍繞「資源、技術、產業、應用、安全」融合聯動這一條主線,聚焦「政府治理和公共服務能力提升、經濟發展方式轉變」兩個方面,創新「交易機構+創新基地+產業基金+發展聯盟+研究中心」五位一體大數據產業鏈生態發展布局,力爭打造國家數據科學中心、亞太數據交換中心和全球「數據經濟」中心,形成集數據貿易、應用服務、先進產業為一體的大數據戰略高地。
2
大數據產業的行業需求預測
企業需求
傳統企業的大數據轉型。隨著互聯網化進程的不斷推進,在改變了用戶消費習慣的同時,眾多傳統企業面臨了一系列必須面對的問題,其中一條核心主線就是基於已有數據的使用以及對於用戶數據的採集。對於有效利用數據,很多傳統企業開展了試探性的使用和分析,並逐步結合互聯網平台,使數據形成閉環。地產、製造、金融企業已經在逐步建立互聯網銷售平台,其實平台的本身並不是去加大產品銷售量,而是通過平台對傳統營業網點、銷售渠道的信息進行有效管理,從而建立可供判斷或分析的數據之用。
更好的吸納客戶的潛在需求,更快的適應市場變化,從而帶動新一輪研發的生成或變革。而此類企業的成長點,市場化性質,及企業性質將區別於傳統企業,而走上新業態、新模式的道路。包括車聯網、互聯網金融、汽車電商、房產電商,都已經出現了苗頭。對於大數據產業的發展,傳統企業轉型是區別於其他領域的卻又獨樹一幟的重要組成部分。
平台企業的大數據戰略。對於相對IT投入較少,IT基礎較為薄弱的領域,比如零售、餐飲、服裝、農業、出版等行業,企業不會去自建雲計算及大數據平台,更多的則是會依靠專業化的數據服務企業或是數據服務平台來滿足數據分析的需求。行業數據服務平台架構的初衷,主要是用雲服務方式解決上述行業的信息化建設及運維需求。
目前上海類似的行業數據平台不少,建築業的築想網、醫葯業的安捷力等都是在行業垂直領域專業度很高的企業,而且較之通用、普適性的平台,此類平台的發展更具有和行業發展的共存性和相通性,是大數據產業發展過程中一個非常重要的組成部分。
互聯網企業大數據規模化發展。互聯網傳媒是推動企業接觸大數據服務中一個相對快速的行業,傳媒由傳統的單向被動模式轉變成為雙向互動模式,在吸引了用戶群體的同時也通過定義用戶肖像,來推動精準營銷。精準營銷使企業享受了新媒體帶來的最實惠的成果,也為企業帶來了一份較之傳統傳媒更加具體的數據分析報告。
同樣在互聯網領域,無論是社交平台、團購還是移動應用,在其互聯網平台構建的過程中,收集、匯總、分析數據是非常重要的一個環節。通過甄別不同年齡段、性別、愛好的用戶群,來精準定位推送不同的消息,而在這些精準定位的背後,則是每天幾十甚至幾百TB的數據增長量和分析量,可以說,有了互聯網才推進了大數據產業的發展。
熱點關聯領域需求
金融大數據。中國金融信息服務產業存在產業鏈分布廣、市場空間巨大的特點,但與此同時,又表現出產業集中度非常低的現狀。因此,未來必將經歷大量的並購整合,最終出現幾家龐大的IT服務機構。傳統金融服務領域的人才資源、市場能力、技術及研發方面在全國范圍內都具有不可比擬的優勢,產業環境、配套資源都非常成熟。
在金融信息服務產業鏈中,已經擁有了證券、期貨、金融期貨、科技技術等交易所以及鋼鐵、有色金屬等各類生產物資交易所,擁有像安碩信息、萬得資訊、金仕達、銀聯、普蘭金融、春雨供應鏈等一大批具有行業代表性的龍頭企業,還有一批以經爾緯為代表的掌握大數據技術及具有資源整合能力的公司。金融領域的資料庫建設比較完善且都為結構化的數據,隨著人工智慧、深度學習等新興技術的介入,大數據將顯示出大有可為的趨勢,對基於大數據分析的成果的需求也將越加旺盛。
交通大數據。一是智能交通,在交通和環境信息的基礎上,實現交付跟蹤,工作流程監督,和人力資源管理。在智能交通系統中,如果車輛使用了該應用,就可以監測到相關數據。智慧城市首席信息官可以使用從物聯網信息庫中獲取運輸和交通過程的信息。這將大大改善交通運輸,建立服務型的支付方式,而不是簡單的付款程序,如時間收費制度。
智慧城市的核心價值是根據交通數據來建立對公民有益的基礎政策。智能交通也產生了很多新的商業創新。二是自動駕駛,目前GOOGLE藉助大數據及車載技術和感測器,以及高級輔助駕駛系統、軟體、地圖數據、GPS和無線通信數據等,實現了無人駕駛,可以預見,不久的將來,大數據在自動駕駛領域的應用越來越被看好。
新媒體大數據。大數據引領的新媒體已經顛覆了國外數個傳統媒體,比如停刊的美國《新聞周刊》以及德國出現戰後最大的紙媒倒閉潮等。以眼球經濟為基礎的傳統媒體展示型廣告已快速向以數據為基礎的網路媒體精準型廣告進行轉變。百視通和東方明珠的整合已經打造了全國最大的千億級別的傳媒上市公司。在電信、廣電及互聯網領域海量數據處理具有豐富的研發及應用經驗,所用技術涵蓋了分布式計算、海量數據處理、流計算、機器學習及神經網路等,重點關注於互聯網廣告投放技術、效果監測、目標受眾行為分析及精準細分、廣告智能匹配等。未來幾年,新媒體大數據將越來越受到業界的追捧。
製造業大數據。利用大數據推動信息化和工業化深度融合,研究推動大數據在研發設計、生產製造、經營管理、市場營銷、售後服務等產業鏈各環節的應用,研發面向不同行業、不同環節的大數據分析應用平台,選擇典型企業、重點行業、重點地區開展工業企業大數據應用項目試點,積極推動製造業網路化和智能化。最近幾年,從國家到地方政府,日益重視大數據在製造業特別是高端智能製造領域的應用,例如《中國製造2025》。從這個意義上來說,大數據在製造業應該發揮的潛力巨大,釋放空間和餘地很大。
3
大數據投資前景預判
人工智慧等新興領域價值潛力巨大
智能化領域及智慧城市建設。大數據與深度學習、人工智慧交叉的領域成為資本追逐的焦點。例如日本提出建成超智能社會,實現ICT技術在全社會的深度融合應用。日本第五期科技計劃提出建設SOCIETY 5.0(超智能社會),基於以人工智慧、物聯網、大數據為代表的ICT技術,研究開發先進機器人、超級計算機、感測器、高速通信等技術,實現網路空間與現實空間高度融合的信息物理系統,運用大數據促使社會生活各領域實現高度智能化,推進經濟發展與社會進步。日本超智能社會的提出,受到諸多大數據公司和風投的關注。類似,我國各地正在大力推進的智慧城市建設中的與新興技術交叉應用的環節,大數據將有著重要的一席之地。大數據與智慧交通、綠色環保、民生安全等領域的融合,在人工智慧、深度學習的帶動下,大數據應用商機無限。
支撐分享經濟智能平台被看好
分享經濟在短時間內崛起並成為全球現象,規模和影響力都呈現出指數增長。2014年12月,普華永道發布了預測報告指出全球分享經濟的規模將從2015年的150億美元增長到2025年的3350億美元。在全球經濟努力復甦的背景下,分享經濟模式的新穎性和巨大發展潛力受到各國政府的高度支持,甚至提升到了國家戰略的高度。大數據、雲計算、人工智慧將構建支撐分享經濟的智能平台,而這些平台將日益彰顯其經濟價值,從而能夠靈活、便利、及時、安全、經濟地連接不同需求的陌生人,從而在分享經濟的新模式中,大數據起到了核心作用,佔領核心的地位,其價值不言而喻。