㈠ 大數據時代的案例分析
個案一
你開心他就買你焦慮他就拋
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以「1」到「50」進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司(IBM)估測,這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街,這一時效至關重要。曾經,華爾街2%的企業搜集微博等平台的「非正式」數據;如今,接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃,和微博推特是合作夥伴。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網頁流量分析工具)公司,你可以知道有多少人訪問你的網站,以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉,進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化:他把客戶請到辦公室,將包含這些公司的數據圖譜展現出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型,弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb
商用大數據生態圈:
1、一體機資料庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
㈡ 誰能告訴我一下咋理解大數據分析
什麼是大數據分析
大數據分析是指對規模巨大的數據(網民吃喝玩產生了大量的數據)進行分析。
大數據分析的步驟
統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
導入/預處理
將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
挖掘
比較典型演算法有用於聚類的K-Means、用於統計學習的SVM和用於分類的Naive Bayes,主要使用的工具有HadoopMahout。
㈢ 大數據分析一般用什麼工具分析
大數據分析的前瞻性使得很多公司以及企業都開始使用大數據分析對公司的決策做出幫助,而大數據分析是去分析海量的數據,所以就不得不藉助一些工具去分析大數據,。一般來說,數據分析工作中都是有很多層次的,這些層次分別是數據存儲層、數據報表層、數據分析層、數據展現層。對於不同的層次是有不同的工具進行工作的。下面小編就對大數據分析工具給大家好好介紹一下。
首先我們從數據存儲來講數據分析的工具。我們在分析數據的時候首先需要存儲數據,數據的存儲是一個非常重要的事情,如果懂得資料庫技術,並且能夠操作好資料庫技術,這就能夠提高數據分析的效率。而數據存儲的工具主要是以下的工具。
1、MySQL資料庫,這個對於部門級或者互聯網的資料庫應用是必要的,這個時候關鍵掌握資料庫的庫結構和SQL語言的數據查詢能力。
2、SQL Server的最新版本,對中小企業,一些大型企業也可以採用SQL Server資料庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
3、DB2,Oracle資料庫都是大型資料庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,一般大型資料庫公司都提供非常好的數據整合應用平台;
接著說數據報表層。一般來說,當企業存儲了數據後,首先要解決報表的問題。解決報表的問題才能夠正確的分析好資料庫。關於數據報表所用到的數據分析工具就是以下的工具。
1、Crystal Report水晶報表,Bill報表,這都是全球最流行的報表工具,非常規范的報表設計思想,早期商業智能其實大部分人的理解就是報表系統,不藉助IT技術人員就可以獲取企業各種信息——報表。
2、Tableau軟體,這個軟體是近年來非常棒的一個軟體,當然它已經不是單純的數據報表軟體了,而是更為可視化的數據分析軟體,因為很多人經常用它來從資料庫中進行報表和可視化分析。
第三說的是數據分析層。這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
1、Excel軟體,首先版本越高越好用這是肯定的;當然對Excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
2、SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體。
最後說表現層的軟體。一般來說表現層的軟體都是很實用的工具。表現層的軟體就是下面提到的內容。
1、PowerPoint軟體:大部分人都是用PPT寫報告。
2、Visio、SmartDraw軟體:這些都是非常好用的流程圖、營銷圖表、地圖等,而且從這里可以得到很多零件;
3、Swiff Chart軟體:製作圖表的軟體,生成的是Flash
㈣ 大數據分析方法解讀以及相關工具介紹
大數據分析方法解讀以及相關工具介紹
要知道,大數據已不再是數據大,最重要的現實就是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。
越來越多的應用涉及到大數據,這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以,大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於此,大數據分析方法理論有哪些呢?
大數據分析的五個基本方面
(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標准化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。
AnalyticVisualizations(可視化分析)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。
SemanticEngines(語義引擎)
我們知道由於非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從「文檔」中智能提取信息。
DataMiningAlgorithms(數據挖掘演算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的演算法讓我們深入數據內部,挖掘價值。這些演算法不僅要處理大數據的量,也要處理大數據的速度。
假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。
大數據處理
大數據處理數據時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。具體的大數據處理方法其實有很多,但是根據長時間的實踐,筆者總結了一個基本的大數據處理流程,並且這個流程應該能夠對大家理順大數據的處理有所幫助。整個處理流程可以概括為四步,分別是採集、導入和預處理、統計和分析,以及挖掘。
採集
大數據的採集是指利用多個資料庫來接收發自客戶端的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的K-Means、用於統計學習的SVM和用於分類的Naive Bayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,還有,常用數據挖掘演算法都以單線程為主。
大數據分析工具詳解 IBM惠普微軟工具在列
去年,IBM宣布以17億美元收購數據分析公司Netezza;EMC繼收購數據倉庫軟體廠商Greenplum後再次收購集群NAS廠商Isilon;Teradata收購了Aster Data 公司;隨後,惠普收購實時分析平台Vertica等,這些收購事件指向的是同一個目標市場——大數據。是的,大數據時代已經來臨,大家都在摩拳擦掌,搶占市場先機。
而在這裡面,最耀眼的明星是hadoop,Hadoop已被公認為是新一代的大數據處理平台,EMC、IBM、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。對於大數據來說,最重要的還是對於數據的分析,從裡面尋找有價值的數據幫助企業作出更好的商業決策。下面,我們就來看以下八大關於大數據分析的工具。
EMC Greenplum統一分析平台(UAP)
Greenplum在2010年被EMC收購了其EMC Greenplum統一分析平台(UAP)是一款單一軟體平台,數據團隊和分析團隊可以在該平台上無縫地共享信息、協作分析,沒必要在不同的孤島上工作,或者在不同的孤島之間轉移數據。正因為如此,UAP包括ECM Greenplum關系資料庫、EMC Greenplum HD Hadoop發行版和EMC Greenplum Chorus。
EMC為大數據開發的硬體是模塊化的EMC數據計算設備(DCA),它能夠在一個設備裡面運行並擴展Greenplum關系資料庫和Greenplum HD節點。DCA提供了一個共享的指揮中心(Command Center)界面,讓管理員可以監控、管理和配置Greenplum資料庫和Hadoop系統性能及容量。隨著Hadoop平台日趨成熟,預計分析功能會急劇增加。
IBM打組合拳提供BigInsights和BigCloud
幾年前,IBM開始在其實驗室嘗試使用Hadoop,但是它在去年將相關產品和服務納入到商業版IBM在去年5月推出了InfoSphere BigI雲版本的 InfoSphere BigInsights使組織內的任何用戶都可以做大數據分析。雲上的BigInsights軟體可以分析資料庫里的結構化數據和非結構化數據,使決策者能夠迅速將洞察轉化為行動。
IBM隨後又在10月通過其智慧雲企業(SmartCloud Enterprise)基礎架構,將BigInsights和BigSheets作為一項服務來提供。這項服務分基礎版和企業版;一大賣點就是客戶不必購買支持性硬體,也不需要IT專門知識,就可以學習和試用大數據處理和分析功能。據IBM聲稱,客戶用不了30分鍾就能搭建起Hadoop集群,並將數據轉移到集群裡面,數據處理費用是每個集群每小時60美分起價。
Informatica 9.1:將大數據的挑戰轉化為大機遇
Informatica公司在去年10月則更深入一步,當時它推出了HParser,這是一種針對Hadoop而優化的數據轉換環境。據Informatica聲稱,軟體支持靈活高效地處理Hadoop裡面的任何文件格式,為Hadoop開發人員提供了即開即用的解析功能,以便處理復雜而多樣的數據源,包括日誌、文檔、二進制數據或層次式數據,以及眾多行業標准格式(如銀行業的NACHA、支付業的SWIFT、金融數據業的FIX和保險業的ACORD)。正如資料庫內處理技術加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop裡面,以便充分利用所有這些處理功能,不久會添加其他的數據處理代碼。
Informatica HParser是Informatica B2B Data Exchange家族產品及Informatica平台的最新補充,旨在滿足從海量無結構數據中提取商業價值的日益增長的需求。去年, Informatica成功地推出了創新的Informatica 9.1 for Big Data,是全球第一個專門為大數據而構建的統一數據集成平台。
甲骨文大數據機——Oracle Big Data Appliance
甲骨文的Big Data Appliance集成系統包括Cloudera的Hadoop系統管理軟體和支持服務Apache Hadoop 和Cloudera Manager。甲骨文視Big Data Appliance為包括Exadata、Exalogic和 Exalytics In-Memory Machine的「建造系統」。Oracle大數據機(Oracle Big Data Appliance),是一個軟、硬體集成系統,在系統中融入了Cloudera的Distribution Including Apache Hadoop、Cloudera Manager和一個開源R。該大數據機採用Oracle Linux操作系統,並配備Oracle NoSQL資料庫社區版本和Oracle HotSpot Java虛擬機。Big Data Appliance為全架構產品,每個架構864GB存儲,216個CPU內核,648TBRAW存儲,每秒40GB的InifiniBand連接。Big Data Appliance售價45萬美元,每年硬軟體支持費用為12%。
甲骨文Big Data Appliance與EMC Data Computing Appliance匹敵,IBM也曾推出數據分析軟體平台InfoSphere BigInsights,微軟也宣布在2012年發布Hadoop架構的SQL Server 2012大型數據處理平台。
統計分析方法以及統計軟體詳細介紹
統計分析方法有哪幾種?下面我們將詳細闡述,並介紹一些常用的統計分析軟體。
一、指標對比分析法指標對比分析法
統計分析的八種方法一、指標對比分析法指標對比分析法,又稱比較分析法,是統計分析中最常用的方法。是通過有關的指標對比來反映事物數量上差異和變化的方法。有比較才能鑒別。單獨看一些指標,只能說明總體的某些數量特徵,得不出什麼結論性的認識;一經過比較,如與國外、外單位比,與歷史數據比,與計劃相比,就可以對規模大小、水平高低、速度快慢作出判斷和評價。
指標分析對比分析方法可分為靜態比較和動態比較分析。靜態比較是同一時間條件下不同總體指標比較,如不同部門、不同地區、不同國家的比較,也叫橫向比較;動態比較是同一總體條件不同時期指標數值的比較,也叫縱向比較。這兩種方法既可單獨使用,也可結合使用。進行對比分析時,可以單獨使用總量指標或相對指標或平均指標,也可將它們結合起來進行對比。比較的結果可用相對數,如百分數、倍數、系數等,也可用相差的絕對數和相關的百分點(每1%為一個百分點)來表示,即將對比的指標相減。
二、分組分析法指標對比分析法
分組分析法指標對比分析法對比,但組成統計總體的各單位具有多種特徵,這就使得在同一總體范圍內的各單位之間產生了許多差別,統計分析不僅要對總體數量特徵和數量關系進行分析,還要深入總體的內部進行分組分析。分組分析法就是根據統計分析的目的要求,把所研究的總體按照一個或者幾個標志劃分為若干個部分,加以整理,進行觀察、分析,以揭示其內在的聯系和規律性。
統計分組法的關鍵問題在於正確選擇分組標值和劃分各組界限。
三、時間數列及動態分析法
時間數列。是將同一指標在時間上變化和發展的一系列數值,按時間先後順序排列,就形成時間數列,又稱動態數列。它能反映社會經濟現象的發展變動情況,通過時間數列的編制和分析,可以找出動態變化規律,為預測未來的發展趨勢提供依據。時間數列可分為絕對數時間數列、相對數時間數列、平均數時間數列。
時間數列速度指標。根據絕對數時間數列可以計算的速度指標:有發展速度、增長速度、平均發展速度、平均增長速度。
動態分析法。在統計分析中,如果只有孤立的一個時期指標值,是很難作出判斷的。如果編制了時間數列,就可以進行動態分析,反映其發展水平和速度的變化規律。
進行動態分析,要注意數列中各個指標具有的可比性。總體范圍、指標計算方法、計算價格和計量單位,都應該前後一致。時間間隔一般也要一致,但也可以根據研究目的,採取不同的間隔期,如按歷史時期分。為了消除時間間隔期不同而產生的指標數值不可比,可採用年平均數和年平均發展速度來編制動態數列。此外在統計上,許多綜合指標是採用價值形態來反映實物總量,如國內生產總值、工業總產值、社會商品零售總額等計算不同年份的發展速度時,必須消除價格變動因素的影響,才能正確的反映實物量的變化。也就是說必須用可比價格(如用不變價或用價格指數調整)計算不同年份相同產品的價值,然後才能進行對比。
為了觀察我國經濟發展的波動軌跡,可將各年國內生產總值的發展速度編制時間數列,並據以繪製成曲線圖,令人得到直觀認識。
四、指數分析法
指數是指反映社會經濟現象變動情況的相對數。有廣義和狹義之分。根據指數所研究的范圍不同可以有個體指數、類指數與總指數之分。
指數的作用:一是可以綜合反映復雜的社會經濟現象的總體數量變動的方向和程度;二是可以分析某種社會經濟現象的總變動受各因素變動影響的程度,這是一種因素分析法。操作方法是:通過指數體系中的數量關系,假定其他因素不變,來觀察某一因素的變動對總變動的影響。
用指數進行因素分析。因素分析就是將研究對象分解為各個因素,把研究對象的總體看成是各因素變動共同的結果,通過對各個因素的分析,對研究對象總變動中各項因素的影響程度進行測定。因素分析按其所研究的對象的統計指標不同可分為對總量指標的變動的因素分析,對平均指標變動的因素分析。
五、平衡分析法
平衡分析是研究社會經濟現象數量變化對等關系的一種方法。它把對立統一的雙方按其構成要素一一排列起來,給人以整體的概念,以便於全局來觀察它們之間的平衡關系。平衡關系廣泛存在於經濟生活中,大至全國宏觀經濟運行,小至個人經濟收支。平衡種類繁多,如財政平衡表、勞動力平衡表、能源平衡表、國際收支平衡表、投入產出平衡表,等等。平衡分析的作用:一是從數量對等關繫上反映社會經濟現象的平衡狀況,分析各種比例關系相適應狀況;二是揭示不平衡的因素和發展潛力;三是利用平衡關系可以從各項已知指標中推算未知的個別指標。
六、綜合評價分析
社會經濟分析現象往往是錯綜復雜的,社會經濟運行狀況是多種因素綜合作用的結果,而且各個因素的變動方向和變動程度是不同的。如對宏觀經濟運行的評價,涉及生活、分配、流通、消費各個方面;對企業經濟效益的評價,涉及人、財、物合理利用和市場銷售狀況。如果只用單一指標,就難以作出恰當的評價。
進行綜合評價包括四個步驟:
1.確定評價指標體系,這是綜合評價的基礎和依據。要注意指標體系的全面性和系統性。
2.搜集數據,並對不同計量單位的指標數值進行同度量處理。可採用相對化處理、函數化處理、標准化處理等方法。
3.確定各指標的權數,以保證評價的科學性。根據各個指標所處的地位和對總體影響程度不同,需要對不同指標賦予不同的權數。
4.對指標進行匯總,計算綜合分值,並據此作出綜合評價。
七、景氣分析
經濟波動是客觀存在的,是任何國家都難以完全避免的。如何避免大的經濟波動,保持經濟的穩定發展,一直是各國政府和經濟之專家在宏觀調控和決策中面臨的重要課題,景氣分析正是適應這一要求而產生和發展的。景氣分析是一種綜合評價分析,可分為宏觀經濟景氣分析和企業景氣調查分析。
宏觀經濟景氣分析。是國家統計局20世紀80年代後期開始著手建立監測指標體系和評價方法,經過十多年時間和不斷完善,已形成制度,定期提供景氣分析報告,對宏觀經濟運行狀態起到晴雨表和報警器的作用,便於國務院和有關部門及時採取宏觀調控措施。以經常性的小調整,防止經濟的大起大落。
企業景氣調查分析。是全國的大中型各類企業中,採取抽樣調查的方法,通過問卷的形式,讓企業負責人回答有關情況判斷和預期。內容分為兩類:一是對宏觀經濟總體的判斷和預期;一是對企業經營狀況的判斷和預期,如產品訂單、原材料購進、價格、存貨、就業、市場需求、固定資產投資等。
八、預測分析
宏觀經濟決策和微觀經濟決策,不僅需要了解經濟運行中已經發生了的實際情況,而且更需要預見未來將發生的情況。根據已知的過去和現在推測未來,就是預測分析。
統計預測屬於定量預測,是以數據分析為主,在預測中結合定性分析。統計預測的方法大致可分為兩類:一類是主要根據指標時間數列自身變化與時間的依存關系進行預測,屬於時間數列分析;另一類是根據指標之間相互影響的因果關系進行預測,屬於回歸分析。
預測分析的方法有回歸分析法、滑動平均法、指數平滑法、周期(季節)變化分析和隨機變化分析等。比較復雜的預測分析需要建立計量經濟模型,求解模型中的參數又有許多方法。
㈤ 信息與網路安全需要大數據安全分析
信息與網路安全需要大數據安全分析
毫無疑問,我們已經進入了大數據(Big Data)時代。人類的生產生活每天都在產生大量的數據,並且產生的速度越來越快。根據IDC和EMC的聯合調查,到2020年全球數據總量將達到40ZB。2013年,Gartner將大數據列為未來信息架構發展的10大趨勢之首。Gartner預測將在2011年到2016年間累計創造2320億美元的產值。
大數據早就存在,只是一直沒有足夠的基礎實施和技術來對這些數據進行有價值的挖據。隨著存儲成本的不斷下降、以及分析技術的不斷進步,尤其是雲計算的出現,不少公司已經發現了大數據的巨大價值:它們能揭示其他手段所看不到的新變化趨勢,包括需求、供給和顧客習慣等等。比如,銀行可以以此對自己的客戶有更深入的了解,提供更有個性的定製化服務;銀行和保險公司可以發現詐騙和騙保;零售企業更精確探知顧客需求變化,為不同的細分客戶群體提供更有針對性的選擇;制葯企業可以以此為依據開發新葯,詳細追蹤葯物療效,並監測潛在的副作用;安全公司則可以識別更具隱蔽性的攻擊、入侵和違規。
當前網路與信息安全領域,正在面臨著多種挑戰。一方面,企業和組織安全體系架構的日趨復雜,各種類型的安全數據越來越多,傳統的分析能力明顯力不從心;另一方面,新型威脅的興起,內控與合規的深入,傳統的分析方法存在諸多缺陷,越來越需要分析更多的安全信息、並且要更加快速的做出判定和響應。信息安全也面臨大數據帶來的挑戰。安全數據的大數據化
安全數據的大數據化主要體現在以下三個方面:
1) 數據量越來越大:網路已經從千兆邁向了萬兆,網路安全設備要分析的數據包數據量急劇上升。同時,隨著NGFW的出現,安全網關要進行應用層協議的分析,分析的數據量更是大增。與此同時,隨著安全防禦的縱深化,安全監測的內容不斷細化,除了傳統的攻擊監測,還出現了合規監測、應用監測、用戶行為監測、性能檢測、事務監測,等等,這些都意味著要監測和分析比以往更多的數據。此外,隨著APT等新型威脅的興起,全包捕獲技術逐步應用,海量數據處理問題也日益凸顯。
2) 速度越來越快:對於網路設備而言,包處理和轉發的速度需要更快;對於安管平台、事件分析平台而言,數據源的事件發送速率(EPS,Event per Second,事件數每秒)越來越快。
3) 種類越來越多:除了數據包、日誌、資產數據,安全要素信息還加入了漏洞信息、配置信息、身份與訪問信息、用戶行為信息、應用信息、業務信息、外部情報信息等。
安全數據的大數據化,自然引發人們思考如何將大數據技術應用於安全領域。
傳統的安全分析面臨挑戰
安全數據的數量、速度、種類的迅速膨脹,不僅帶來了海量異構數據的融合、存儲和管理的問題,甚至動搖了傳統的安全分析方法。
當前絕大多數安全分析工具和方法都是針對小數據量設計的,在面對大數據量時難以為繼。新的攻擊手段層出不窮,需要檢測的數據越來越多,現有的分析技術不堪重負。面對天量的安全要素信息,我們如何才能更加迅捷地感知網路安全態勢?
傳統的分析方法大都採用基於規則和特徵的分析引擎,必須要有規則庫和特徵庫才能工作,而規則和特徵只能對已知的攻擊和威脅進行描述,無法識別未知的攻擊,或者是尚未被描述成規則的攻擊和威脅。面對未知攻擊和復雜攻擊如APT等,需要更有效的分析方法和技術!如何做到知所未知?
面對天量安全數據,傳統的集中化安全分析平台(譬如SIEM,安全管理平台等)也遭遇到了諸多瓶頸,主要表現在以下幾方面:
——高速海量安全數據的採集和存儲變得困難
——異構數據的存儲和管理變得困難
——威脅數據源較小,導致系統判斷能力有限
——對歷史數據的檢測能力很弱
——安全事件的調查效率太低
——安全系統相互獨立,無有效手段協同工作
——分析的方法較少
——對於趨勢性的東西預測較難,對早期預警的能力比較差
——系統交互能力有限,數據展示效果有待提高
從上世紀80年代入侵檢測技術的誕生和確立以來,安全分析已經發展了很長的時間。當前,信息與網路安全分析存在兩個基本的發展趨勢:情境感知的安全分析與智能化的安全分析。
Gartner在2010年的一份報告中指出,「未來的信息安全將是情境感知的和自適應的」。所謂情境感知,就是利用更多的相關性要素信息的綜合研判來提升安全決策的能力,包括資產感知、位置感知、拓撲感知、應用感知、身份感知、內容感知,等等。情境感知極大地擴展了安全分析的縱深,納入了更多的安全要素信息,拉升了分析的空間和時間范圍,也必然對傳統的安全分析方法提出了挑戰。
同樣是在2010年,Gartner的另一份報告指出,要「為企業安全智能的興起做好准備」。在這份報告中,Gartner提出了安全智能的概念,強調必須將過去分散的安全信息進行集成與關聯,獨立的分析方法和工具進行整合形成交互,從而實現智能化的安全分析與決策。而信息的集成、技術的整合必然導致安全要素信息的迅猛增長,智能的分析必然要求將機器學習、數據挖據等技術應用於安全分析,並且要更快更好地的進行安全決策。
信息與網路安全需要大數據安全分析
安全數據的大數據化,以及傳統安全分析所面臨的挑戰和發展趨勢,都指向了同一個技術——大數據分析。正如Gartner在2011年明確指出,「信息安全正在變成一個大數據分析問題」。
於是,業界出現了將大數據分析技術應用於信息安全的技術——大數據安全分析(Big Data Security Analysis,簡稱BDSA),也有人稱做針對安全的大數據分析(Big Data Analysis for Security)。
藉助大數據安全分析技術,能夠更好地解決天量安全要素信息的採集、存儲的問題,藉助基於大數據分析技術的機器學習和數據挖據演算法,能夠更加智能地洞悉信息與網路安全的態勢,更加主動、彈性地去應對新型復雜的威脅和未知多變的風險。
㈥ 如何進行大數據分析及處理
1.可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計 學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。
另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如 果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉數據。
語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。
大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
大數據的技術
數據採集: ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取: 關系資料庫、NOSQL、SQL等。
基礎架構: 雲存儲、分布式文件存儲等。
數據處理: 自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。
處理自然語言的關鍵是要讓計算機」理解」自然語言,所以自然語言處理又叫做自然語言理解也稱為計算語言學。
一方面它是語言信息處理的一個分支,另一方面它是人工智慧的核心課題之一。
統計分析: 假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、 方差分析 、 卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、 因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘: 分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測 :預測模型、機器學習、建模模擬。
結果呈現: 雲計算、標簽雲、關系圖等。
大數據的處理
1. 大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的 數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。
比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除 此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶 來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。
並且如何在這些資料庫之間 進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這 些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。
也有一些用戶會在導入時使 用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通 的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於 MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
4. 大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數 據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。
比較典型演算法有用於聚類的Kmeans、用於 統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並 且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。
㈦ 大數據上的數據分析要如何實現
要從收集的數據中提取價值、提高威脅管理活動的效率以及使用法規遵從性活動來推動決策 制定,安全團隊需要使用「大數據」方法來進行安全管理。https://community.emc.com/docs/DOC-42149 這意味著:
採用敏捷的「橫向擴展」基礎架構來響應不斷變化的 IT 環境和不斷發展的威脅。安全管理需要支持影響 IT 的新業務計劃,從新的應用程序到新的交付模式,例如移動性、虛擬化、雲計算和外包。安全管理基礎架構必須能夠在企業層面上收集和管理安全數據,並進行擴展以滿足當今的企業級需求(包括物理要求和經濟要求)。這意味著進行「橫向擴展」而非「縱向擴展」,因為將所有這些數據集中化在實際情況中是不可能的。此外,該基礎架構還需要能夠輕松擴展以適應新的環境,並時刻准備好發展和完善以支持對不斷演變的威脅進行分析。
擁有支持安全分析特性的分析和可視化工具。安全專家需要專業的分析工具來支持其工作。有的分析師需要工具來協助自己找出具備某些支持詳細信息的基本事件。經理們可能只需要關鍵指標的高級可視化圖形和趨勢圖。惡意內容分析師需要重建可疑的文件和工具,以便自動執行這些文件的測試。網路取證分析師需要全面重建關於某個會話的所有日誌和網路信息,以便精確地確定發生的情況。
擁有威脅智能以便對收集的信息應用數據分析技術。組織需要了解當前的外部威脅環境,以便將這些威脅與從組織內部收集到的信息進行關聯。這種關聯工作對於分析師至關重要,可幫助他們清楚地理解當前的威脅指示因素和他們需要尋找的信息。