A. 大數據技術在金融行業中的典型應用
大數據技術在金融行業中的典型應用
近年來,我國金融科技快速發展,在多個領域已經走在世界前列。大數據、人工智慧、雲計算、移動互聯網等技術與金融業務深度融合,大大推動了我國金融業轉型升級,助力金融更好地服務實體經濟,有效促進了金融業整體發展。在這一發展過程中,又以大數據技術發展最為成熟、應用最為廣泛。從發展特點和趨勢來看,「金融雲」快速建設落地奠定了金融大數據的應用基礎,金融數據與其他跨領域數據的融合應用不斷強化,人工智慧正在成為金融大數據應用的新方向,金融行業數據的整合、共享和開放正在成為趨勢,給金融行業帶來了新的發展機遇和巨大的發展動力。
大數據在金融行業的典型應用場景
大數據涉及的行業過於廣泛,除金融外,還包括政治、教育、傳媒、醫學、商業、工農業、互聯網等多個方面,各行業對大數據的定義目前尚未統一。大數據的特點可歸納為「4V」。第一,數據體量大(Volume),海量性也許是與大數據最相關的特徵。第二,數據類型繁多(Variety),大數據既包括以事務為代表的傳統結構化數據,還包括以網頁為代表的半結構化數據和以視頻、語音信息為代表的非結構化數據。第三,價值密度低(Value),大數據的體量巨大,但數據中的價值密度卻很低。比如幾個小時甚至幾天的監控視頻中,有價值的線索或許只有幾秒鍾。第四,處理速度快(Velocity),大數據要求快速處理,時效性強,要進行實時或准實時的處理。
金融行業一直較為重視大數據技術的發展。相比常規商業分析手段,大數據可以使業務決策具有前瞻性,讓企業戰略的制定過程更加理性化,實現生產資源優化分配,依據市場變化迅速調整業務策略,提高用戶體驗以及資金周轉率,降低庫存積壓的風險,從而獲取更高的利潤。
當前,大數據在金融行業典型的應用場景有以下幾個方面:
在銀行業的應用主要表現在兩個方面:一是信貸風險評估。以往銀行對企業客戶的違約風險評估多基於過往的信貸數據和交易數據等靜態數據,內外部數據資源整合後的大數據可提供前瞻性預測。二是供應鏈金融。利用大數據技術,銀行可以根據企業之間的投資、控股、借貸、擔保及股東和法人之間的關系,形成企業之間的關系圖譜,利於企業分析及風險控制。
在證券行業的應用主要表現為:一是股市行情預測。大數據可以有效拓寬證券企業量化投資數據維度,幫助企業更精準地了解市場行情,通過構建更多元的量化因子,投研模型會更加完善。二是股價預測。大數據技術通過收集並分析社交網路如微博、朋友圈、專業論壇等渠道上的結構化和非結構化數據,形成市場主觀判斷因素和投資者情緒打分,從而量化股價中人為因素的變化預期。三是智能投資顧問。智能投資顧問業務提供線上投資顧問服務,其基於客戶的風險偏好、交易行為等個性化數據,依靠大數據量化模型,為客戶提供低門檻、低費率的個性化財富管理方案。
在互聯網金融行業的應用,一是精準營銷。大數據通過用戶多維度畫像,對客戶偏好進行分類篩選,從而達到精準營銷的目的。二是消費信貸。基於大數據的自動評分模型、自動審批系統和催收系統可降低消費信貸業務違約風險。
金融大數據的典型案例分析
為實時接收電子渠道交易數據,整合銀行內系統業務數據。中國交通銀行通過規則欲實現快速建模、實時告警與在線智能監控報表等功能,以達到實時接收官網業務數據,整合客戶信息、設備畫像、位置信息、官網交易日誌、瀏覽記錄等數據的目的。
該系統通過為交通銀行卡中心構建反作弊模型、實時計算、實時決策系統,幫助擁有海量歷史數據,日均增長超過兩千萬條日誌流水的銀行卡中心,形成電子渠道實時反欺詐交易監控能力。利用分布式實時數據採集技術和實時決策引擎,幫助信用卡中心高效整合多系統業務數據,處理海量高並發線上行為數據,識別惡意用戶和欺詐行為,並實時預警和處置;通過引入機器學習框架,對少量數據進行分析、挖掘構建並周期性更新反欺詐規則和反欺詐模型。
系統上線後,該銀行迅速監控電子渠道產生的虛假賬號、偽裝賬號、異常登錄、頻繁登錄等新型風險和欺詐行為;系統穩定運行,日均處理逾兩千萬條日誌流水、實時識別出近萬筆風險行為並進行預警。數據接入、計算報警、案件調查的整體處理時間從數小時降低至秒級,監測時效提升近3000倍,上線3個月已幫助卡中心挽回數百萬元的風險損失。
網路的搜索技術正在全面注入網路金融。網路金融使用的梯度增強決策樹演算法可以分析大數據高維特點,在知識分析、匯總、聚合、提煉等多個方面有其獨到之處,其深度學習能力利用數據挖掘演算法能夠較好地解決大數據價值密度低等問題。網路「磐石」系統基於每日100億次搜索行為,通過200多個維度為8.6億賬號精確畫像,高效劃分人群,能夠為銀行、互聯網金融機構提供身份識別、反欺詐、信息檢驗、信用分級等服務。該系統累計為網路內部信貸業務攔截數十萬欺詐用戶,攔截數十億不良資產、減少數百萬人力成本,累計合作近500家社會金融機構,幫助其提升了整體風險防控水平。
金融大數據應用面臨的挑戰及對策
大數據技術為金融行業帶來了裂變式的創新活力,其應用潛力有目共睹,但在數據應用管理、業務場景融合、標准統一、頂層設計等方面存在的瓶頸也有待突破。
一是數據資產管理水平仍待提高。主要體現在數據質量不高、獲取方式單一、數據系統分散等方面。
二是應用技術和業務探索仍需突破。主要體現在金融機構原有的數據系統架構相對復雜,涉及的系統平台和供應商較多,實現大數據應用的技術改造難度很大。同時,金融行業的大數據分析應用模型仍處於起步階段,成熟案例和解決方案仍相對較少,需要投入大量的時間和成本進行調研和試錯。系統誤判率相對較高。
三是行業標准和安全規范仍待完善。金融大數據缺乏統一的存儲管理標准和互通共享平台,對個人隱私的保護上還未形成可信的安全機制。
四是頂層設計和扶持政策還需強化。體現在金融機構間的數據壁壘較為明顯,各自為戰問題突出,缺乏有效的整合協同。同時,行業應用缺乏整體性規劃,分散、臨時、應激等特點突出,信息價值開發仍有較大潛力。
以上問題,一方面需要國家出台促進金融大數據發展的產業規劃和扶持政策,同時,也需要行業分階段推動金融數據開放、共享和統一平台建設,強化行業標准和安全規范。只有這樣,大數據技術才能在金融行業中穩步應用發展,不斷推動金融行業的發展提升。
B. 怎麼在大數據上下載上證指數的季度數據
共享一個可以下載上證指數(000001)股票歷史數據的工具。
親測可以下載500+個主流指數的歷史數據,歷史數據是從指數建立那天一直到今天的所有歷史交易數據,還是很全的。數據下載是很方便的,在公主號里進行1、2兩個步驟就可以了,就能收到數據。【提供企業級股票歷史行情資料庫、每天行情數據更新服務,個人用戶獲取股票歷史行情數據一直免費】
C. 茅台二級市場大數據在哪裡看
茅台二級市場大數據在茅台實陸蘆時行情價格APP。根據查詢相關資料顯示茅台實時行情價格APP是國內領早液帶先的專埋瞎業飛天茅台實時行情價格查詢平台,是經銷商、回收商普遍使用的系統。
D. 可以利用大數據炒股嗎
大數據可以用於股票交易,所謂大數據,就是一個新的分析概念,利用新的系統、新的工具、新的模型來挖掘大量動態的、可持續的數據,從而獲得具有洞察力和新價值的東西。大數據已經在一些金融工具中有所體現,大數據會將股票之前的數據全都發布出來,股民可以根據這只股票之前的數據來進行對比。
其實大數據只能說是個趨勢,我們可以通過打數據讓投資者能夠有一個參考性,但不能夠過度依賴大數據,畢竟著只是數據,這些數據是死的,而股市卻是千變萬化的,我們不能過度的依賴大數據得出的分析與結論,大數據也只是作為一個參考數據。世事無絕對,更何況是股票,可能上一秒還是盈利的狀態,但是下一秒就已經處於虧損了,不少人也因為炒股傾家盪產,所以這邊還是要提醒大家一下,謹慎行事,不要盲目跟風。
E. 大數據的發展前景怎麼樣呢,現在行情怎麼樣
謝謝邀請!
關於大數據的發展前景我們可以從以下四個點來正隱分析:
1.從最近兩年國家的大數據戰略就可以看出,大數據產業的發展一片光明。
2.目前大數據從業人員全國只有46萬,而人才缺口大100萬,未來2-3年人才缺口將逐漸擴大。
3.2019年大數據行業月薪平均19.7k排所有行業榜首,而且遠遠超出第二、第三名6-7K。
4.大數據廳改與AI、雲計算,以及其他行業的對接愈扮清判加緊密,未來將創造出更多的就業崗位。
相信通過以上幾個點你能夠對大數據的行情有個大致的了解,希望我的回答對你有所幫助,望採納,謝謝!
F. 半導體行業大數據分析有哪些
目前半導體行業沒有統一公認的大數據分析平台,因為半導體的製程復雜,各個節點的數據都是分散和不公開的,因此沒有統一的大數據分析蠢明平台,雖然製程階段沒有大數據分析平台,但是在監控半導體市場行情動態方面,芯查查有推出一款元器件供應鏈波動監控帶唯告系統,可以作為分析半導體行業動態行情的平台參考山沖。
G. 清明節後股市怎麼走+大數據告訴你
清明節,又稱踏青節,是二十四節氣之一,這一時節萬物「吐故納新」。今年的A股也萬象更新,迎來暖春行情。
A股暖春行情
近期A股凌厲的走勢恐怕很多人都沒有想到,現在反過來看,這一波行情的轉折恰好在央行降准和春節兩個節點。
1月4日晚央行宣布降准,釋放出巨額流動性,當時被市場解讀為利好,不過整個1月滬指僅呈現低位小幅反彈走勢,而且當時正是上市公司密集發布業績預告之時,因計提商譽減值引發了上市公司業績爆雷潮,對市場走勢形成較為負面的影響。
春節後A股似乎一下子完成從熊市到牛市的轉換,主要股指快速上行,僅十餘個交易日滬指就突破了3000點整數關,本周站上3200點再創反彈新高,數據寶統計顯示,春節之後滬指累計上漲了24%,深成指也突破萬點大關,累計上漲35.6%,中小板指、創業板指分別上漲33%、40%。市值方面,最新A股總市值達59萬億元,與春節前最後一個交易日相比,A股總市值增加了13.4萬億元,相比去年末市值增加了15.6萬億元。
個股方面,春節以來99%的個股(未統計期間上市新股)呈現上漲態勢,漲幅翻倍的有79隻,其中大智慧、順灝股份、科藍軟體等期間漲幅超過200%;漲幅在50%~100%的有近700隻,漲幅在20%~50%的有2300多隻。
各路資金蜂擁入市 股民跑步進場
A股行情轉暖,不少機構對行情的看法也從「反彈市」變成「牛市來了」。各路資金入市加速。統計顯示,北上資金延續春節前凈買入態勢,春節後累計凈買入636億元,今年以來累計凈買入近1300億,相當於去年全年凈買入的四成多。
杠桿資金也是在春節後迅速增加。數據顯示,深滬兩融余額在春節前最後一個交易日創出7169.51億元的階段新低,到底有多低呢?往前追溯這是上一輪牛市之後最低點,也即是兩融余額從兩萬億的高位降下來之後的最低點,春節後兩融余額連續攀升,最新值為9452億元,這一輪加速上行的行情兩融余額總計增加了近2300億元。基金發行也熱度提升,比例配售重新出現。
行情向好,股民入市加速。目前由於公布的相關數據不多我們僅能從已知道的一些公開數據中看出蛛絲馬跡。深交所最新公布的數據顯示,3月份深市新增開戶數近300萬,環比激增一倍,交易戶數也增加三成多,總之一句話,人氣回來了,這也可以從A股的每日成交額進行印證。
歷年清明後大盤走勢
市場交投活躍、股指連創新高的情況下,對於後續行情,小編雖不好說,卻發現了歷年清明前後市場短期走勢的一個大概率事件。統計顯示,2008年以來歷年清明前後市場大概率走好。2008年-2018年這11年的表現中,清明節前一日有8次上漲,3次下跌,清明節後有10次上漲、1次下跌,昨日市場的走勢出現了大概率的上漲,清明節後會不會依然如此呢?進一步統計,過去11年中不僅清明節後首日大概率上漲,節後五日滬指上漲的也有9次,下跌的僅2次。
H. 持倉大數據你還知道怎麼用嗎
NO.1 多空持倉人數比
指標定義: 該指標展示某一時間內持有對應幣種合約多倉總人數與空倉總人數的比值情況。統計數據包含本周、次周與季度交割合約以及永續合約的情況總和。(多空方向以該用戶此幣種凈頭寸方向計算)
用法:
1、多空持倉人數比與行情呈負相關性,當行情下跌,多空持倉人數比仍然增長,或者當行情含碼增長,多空持倉人數比仍然減少時,行情大概率還會延續之前走勢。
2、當多空持倉人數較高或較低時,大概率行情會出現插針現象。
3、當行情在高位,多空持倉人數比明顯增長時,行情大概率會發生反轉,但行情在高位,多空持倉人數比是適中(接近1:1的比例)情況時,則大概率會延續上漲行情。
對應BTC 9月12日到今天的K線走勢圖,我們可以看出持倉比也是從高位往下走。
NO.2 多空精英趨向指標
指標定義: 該指標反映持倉的精英操盤手賬戶排名頭數百個凈持倉(凈頭寸)的多空比例。(只運用有持倉的賬號來計算持倉比例;一個用戶就當一票,不理會具體的持倉量多少。)
N0.3 精英多空平均持倉比例
指標定義: 該指標反映持倉經驗操盤手賬號排名頭數百名動用保證金賬號資金的平均實時狀況。有別於精英趨向指標,持倉比不是利用投票模式進行分析,而是利用每個持倉賬號的資金利用的平均值來計算的。
這個指標雖然也有滯後性,當行情開始上漲下跌後,多空平均持倉比例才開始變化,沒有辦法判斷行情什麼時候開始以及什麼時候反轉,但是對於行情開山老源始之後的是否會接著延續,則有明確的指導,可以較為提前的判斷。
用法:
當行情已經下跌一段時間後開始橫盤時,如果多頭的持倉比例一直在升高(30%以上),並維持高位,且數據沒有明顯有下降的情況出現,則之後的行情大概率會延續之前的走勢,直到數據從高位下降到一個適中水平為止。反之亦然。
多空分歧嚴重的時候,往往會朝著反的方向走。哪邊持倉多,爆哪邊。
NO.4 持倉總量及交易量
指標定義: 持倉總量:對應時刻該幣種的交割與永續合約的多空持倉量總和。交易量:單位時間內該幣種交割和永續合約的成交總量。
用法:
1、當行情處於低位,總持倉量不斷增加,而交易量整體較小,且沒有放大的話,之後的行情大概率會上漲。
2、當行情處於高位,總持倉量屢創新高,交易量放大行情卻處於橫盤或者陰跌的狀態,之後的行情大概率會大幅下跌。
3、當交易量上漲,而同一時間持倉量下降,說明有大量單子被平倉或者爆倉。
下圖我們可以看出,在 9月26號出現了天量的持倉量,這一天也是 BTC從9000刀破位的時候,這就是上面第二條講的一種情況,如果是低位的話,就是看漲的行情。
NO.5 合約基差
指標定義: 該指標展示同一時刻現貨指數價格與合約價格及其差值的變化情況。其中某一時刻基差=合約價格-現逗態貨指數價格。
期貨合約基差=現貨價格-期貨價格 期貨合約基差是指被對沖資產的現貨價格與用於對沖的期貨合約的價格之差。由於期貨價格和現貨價格都是波動的,在期貨合同的有效期內,基差也是波動的。基差的不確定性被稱為基差風險,降低基差風險實現套期保值關鍵是選擇匹配度高的對沖期貨合約。
用法:1. 當基差為很大正數時,說明投資者普遍看漲,做多情緒較高。
2.當基差為負數且數值很大時,說明投資者普遍看跌,做空情緒較高。
NO.6 主動買入/賣出情況
指標定義: 主動買入量:展示單位時間內,主動性買盤的成交量(taker吃掛單買入),即資金流入量。主動賣出量:展示單位時間內,主動性賣盤的成交量(taker吃掛單賣出),即資金流出量。
用法:1.當買入成交量持續大於賣出成交量,後市看漲。反之亦然!
通過以上的持倉大數據我們可以分析出當前市場的多空情緒,可以合理的避免不必要的損失。 我在10月19號就在微信群里發了當天的持倉截圖,多空比列懸殊過大,而一般這種持倉比例一般都是哪邊多哪邊爆倉,2/8定律就是這樣,虧錢的肯定是大多數人,賺錢的只能是少部分人。
I. 大數據是什麼
作者:李麗
鏈接:https://www.hu.com/question/23896161/answer/28624675
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
"大數據"是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。
研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。
二、大數據分析
從所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那麼越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於如此的認識,大數據分析普遍存在的方法理論有哪些呢?
1、可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了
2、數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3、預測性分析能力
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4、數據質量和數據管理
大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
三、大數據技術
1、數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
2、數據存取:關系資料庫、NOSQL、SQL等。
3、基礎架構:雲存儲、分布式文件存儲等。
4、數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
5、統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
6、數據挖掘:分類
(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or
association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text,
Web ,圖形圖像,視頻,音頻等)
7、模型預測:預測模型、機器學習、建模模擬。
8、結果呈現:雲計算、標簽雲、關系圖等。
四、大數據特點
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
1、
數據體量巨大。從TB級別,躍升到PB級別。
2、
數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
3、
價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
4、
處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。
大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模,也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。因此,大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發,搶占時代發展的前沿。
五、大數據處理
大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理
六、大數據應用與案例分析
大數據應用的關鍵,也是其必要條件,就在於"IT"與"經營"的融合,當然,這里的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。以下是關於各行各業,不同的組織機構在大數據方面的應用的案例,在此申明,以下案例均來源於網路,本文僅作引用,並在此基礎上作簡單的梳理和分類。
大數據應用案例之:醫療行業
[1] Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。
[3] 它讓更多的創業者更方便地開發產品,比如通過社交網路來收集數據的健康類App。也許未來數年後,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
大數據應用案例之:能源行業
[1] 智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低采購成本。
[2] 維斯塔斯風力系統,依靠的是BigInsights軟體和IBM超級計算機,然後對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足1小時便可完成。
大數據應用案例之:通信行業
[1] XO Communications通過使用IBM SPSS預測分析軟體,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,並找出存在缺陷的環節,從而幫助公司及時採取措施,保留客戶。此外,IBM新的Netezza網路分析加速器,將通過提供單個端到端網路、服務、客戶分析視圖的可擴展平台,幫助通信企業制定更科學、合理決策。
[2] 電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。
[3] 中國移動通過大數據分析,對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。
[4] NTT docomo把手機位置信息和互聯網上的信息結合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。
J. 大數據告訴你A股的秘密規律
大數據告訴你A股的秘密規律
1、收盤前上漲概率較高
統計數據表明,2009年1月至2015年9月期間,對比指數每五分鍾的漲跌幅發現,午盤收盤前和全天收盤前,市場呈現較高概率的上漲,上漲概率高達60.3%和79.1%。
尾盤耐灶上漲現象與市場交易機制有較大關系,例如尾盤機構集中建倉、以及大宗交易的影響。但綜合而言,對該現象的產生,目前尚沒有完美的解釋。
2、周一上漲概率大
統計每周的交易時間發現,周一上漲的概率和幅度最大。分段統計後發現,牛市期間,股市在周一上漲的幅度較大,而熊市中這種現象不明顯。
「周一更容易上漲現象」在美國等成熟市場則並不明顯,這很可能是由於成熟市場投資者情緒化不明顯造成的。
周一出現極端漲跌幅的概率較高,這也與市場預期有關。例如投資者未預期到的周末市場數據和突發事件出現,或者預期落空帶來的市場波動散啟,在我國以散戶為主的市場中,這種市場情緒波動更大。
統計月度數據發現,我國資本市場的上半月效應明顯。而這種現象,與SHIBOR短端利率上半月較低的統計規律遙相呼應。
3、四月份要賣
「Sell In may and goaway」是一句廣為流傳的股市諺語,指的是股市在經過5月份後,市場就開始疲軟,投資者在5月就可以獲利了結。
通過隨機測算上證綜指的投資收益率:在每年任意時間買入指數,在之後任意時間賣出獲利。發現年初買入、四月賣出獲得正收益的概率最大。同時對比美國標普500指數,此期間交易帶來的正收益概率也是最大的。
同時,美國的長期投資價值凸顯,從年度隨機投資收益的分布來看,均顯示最長時間的持股,投資收益最高。對比標普500的指數的長期走勢,發現標普500指數的價值是通過時間來檢驗的,持有時間越長,收益越高。
如果從月度漲跌幅的角度去看市場,上證綜指和標普500指數均在上半年取得比較好的正收益,上漲的概率較高,而進入6月份後,市場的回報率和上漲概率均下行。
4、牛市波動增強
用兩種方法來表示股票市場的波動,日內分鍾收益率的標准差和開盤收盤價格波幅。
從日內分鍾數據的標准差來看,在上證綜指的階段性頂點時,市場的波動顯著增強,而這種現象在市場趨勢性上漲的尾端更為明顯。
從開盤收盤價格的波幅來看,波動帶來的規律並不如上一種方式明顯。
但對開盤收盤的價格進行了策略化處理後,回測其效果即:高開買進、低開賣出的雙向操作。
回測結果顯示,這樣的策略長期表現要好於指數,但其效果存在失效期。用同樣的方法測試了滬深300股指期貨主力合約,策略失效同樣存在,其長期效果尚可,年化回報率為12.2%。
5、春節前後上漲概率大
每當長假來臨,持幣過節還是持股過節的問題,都會備受投資者關注。
研究結果表明,在節前五個交易日,節後七個交易日里,上證綜指表現較好。在迄今為止的22個春節前後,上證綜指上漲次數為18次,上漲概率高達81.81%,漲跌幅的中值為3.19%,均值為3.72%。春節效應比十一效應更加明顯,持續時間更長、平均上漲幅度更大。
在十一長假之前的三個交易日和假日之後的兩個交易日,上證綜指表現較好。在16次十一長假前後,上證綜指有11次上漲,上漲概率為68.75%,指數漲跌幅的中值為1.87%,均值為1.05%。由此可見,在十一假日前後,指數上漲的概率較大,十一效應在A股市場中較為明顯。
整體而言,我國的假期效應明顯,尤其是春節效應,其持續時間和漲幅都比較高。
統計標普500指數的聖誕節效應,發現同樣存在節日效應,尤其是在聖誕節之後,市場表現相對較好。
6、均線系統仍有效
技術分析在我國股票市場應用依然較為廣泛,而技術分析的有效性,也是廣大投資者爭論不休的事情。
回昌掘扮測結果顯示,在多數發展比較完善的資本市場,例如美國,日本、英國、法國,均線系統下的技術分析已經失效,而新興市場國家和地區依然有效,而且德國DAX30指數有效性也較強。
值得一提的是,雙均線系統的有效期,比單均線有效期要長久一些,或許這暗示著技術分析也要進行不斷的演化,以適應市場的發展。
7、7倍PE肯定見底
資本市場有其自身規律,也有著估值的上下限。「樹不會長到天上去」,脫離資本市場規律的事情不可能長久。
8、低價股收益率最高
對比A股的不同市場風格指數發現,在A股中,低估值個股,包括低市盈率和低市凈率指數,長期走勢均好於中、高估值品種,且其長期收益率要高於上證綜指。在資本市場的長線低估值走勢較好。
9、新股上市第一年收益欠佳
由於我國資本市場的結構和上市制度,導致上市公司在上市前報表的盈利能力較高,而一旦上市,其整體盈利能力開始下滑。
統計前五年上市公司的RoE分布表明,隨著上市時間的延長,低盈利能力的公司開始增加,收益率的眾數開始向較低的RoE水平傾斜。
對比上市公司不同年限的投資價值,上市第一年的投資收益並不好,其後明顯好轉。
10、金融板塊行情獨立
從行業的月度收益率出發,尋找行業之間的聯動性。
數據顯示,金融行業與其他行業的相關性最小,而在每個月上漲前五名的行業中,銀行業出現的次數最多。