1. 保護大數據安全的10個要點
一項對2021年數據泄露的分析顯示,總共有50億份數據被泄露,這對所有參與大數據管道工作的人來說,從開發人員到DevOps工程師,安全性與基礎業務需求同等重要。
大數據安全是指在存儲、處理和分析過於龐大和復雜的數據集時,採用任何措施來保護數據免受惡意活動的侵害,傳統資料庫應用程序無法處理這些數據集。大數據可以混合結構化格式(組織成包含數字、日期等的行和列)或非結構化格式(社交媒體數據、PDF 文件、電子郵件、圖像等)。不過,估計顯示高達90%的大數據是非結構化的。
大數據的魅力在於,它通常包含一些隱藏的洞察力,可以改善業務流程,推動創新,或揭示未知的市場趨勢。由於分析這些信息的工作負載通常會將敏感的客戶數據或專有數據與第三方數據源結合起來,因此數據安全性至關重要。聲譽受損和巨額經濟損失是大數據泄露和數據被破壞的兩大主要後果。
在確保大數據安全時,需要考慮三個關鍵階段:
當數據從源位置移動到存儲或實時攝取(通常在雲中)時,確保數據的傳輸
保護大數據管道的存儲層中的數據(例如Hadoop分布式文件系統)
確保輸出數據的機密性,例如報告和儀錶板,這些數據包含通過Apache Spark等分析引擎運行數據收集的情報
這些環境中的安全威脅類型包括不適當的訪問控制、分布式拒絕服務(DDoS)攻擊、產生虛假或惡意數據的端點,或在大數據工作期間使用的庫、框架和應用程序的漏洞。
由於所涉及的架構和環境復雜性,大數據安全面臨著許多挑戰。在大數據環境中,不同的硬體和技術在分布式計算環境中相互作用。比如:
像Hadoop這樣的開源框架在設計之初並沒有考慮到安全性
依賴分布式計算來處理這些大型數據集意味著有更多的系統可能出錯
確保從端點收集的日誌或事件數據的有效性和真實性
控制內部人員對數據挖掘工具的訪問,監控可疑行為
運行標准安全審計的困難
保護非關系NoSQL資料庫
這些挑戰是對保護任何類型數據的常見挑戰的補充。
靜態數據和傳輸中數據的可擴展加密對於跨大數據管道實施至關重要。可擴展性是這里的關鍵點,因為除了NoSQL等存儲格式之外,需要跨分析工具集及其輸出加密數據。加密的作用在於,即使威脅者設法攔截數據包或訪問敏感文件,實施良好的加密過程也會使數據不可讀。
獲得訪問控制權可針對一系列大數據安全問題提供強大的保護,例如內部威脅和特權過剩。基於角色的訪問可以幫助控制對大數據管道多層的訪問。例如,數據分析師可以訪問分析工具,但他們可能不應該訪問大數據開發人員使用的工具,如ETL軟體。最小許可權原則是訪問控制的一個很好的參考點,它限制了對執行用戶任務所必需的工具和數據的訪問。
大數據工作負載所需要的固有的大存儲容量和處理能力使得大多數企業可以為大數據使用雲計算基礎設施和服務。但是,盡管雲計算很有吸引力,暴露的API密鑰、令牌和錯誤配置都是雲中值得認真對待的風險。如果有人讓S3中的AWS數據湖完全開放,並且對互聯網上的任何人都可以訪問,那會怎麼樣?有了自動掃描工具,可以快速掃描公共雲資產以尋找安全盲點,從而更容易降低這些風險。
在復雜的大數據生態系統中,加密的安全性需要一種集中的密鑰管理方法,以確保對加密密鑰進行有效的策略驅動處理。集中式密鑰管理還可以控制從創建到密鑰輪換的密鑰治理。對於在雲中運行大數據工作負載的企業,自帶密鑰 (BYOK) 可能是允許集中密鑰管理而不將加密密鑰創建和管理的控制權交給第三方雲提供商的最佳選擇。
在大數據管道中,由於數據來自許多不同的來源,包括來自社交媒體平台的流數據和來自用戶終端的數據,因此會有持續的流量。網路流量分析提供了對網路流量和任何潛在異常的可見性,例如來自物聯網設備的惡意數據或正在使用的未加密通信協議。
2021年的一份報告發現,98%的組織感到容易受到內部攻擊。在大數據的背景下,內部威脅對敏感公司信息的機密性構成嚴重風險。有權訪問分析報告和儀錶板的惡意內部人員可能會向競爭對手透露見解,甚至提供他們的登錄憑據進行銷售。從內部威脅檢測開始的一個好地方是檢查常見業務應用程序的日誌,例如 RDP、VPN、Active Directory 和端點。這些日誌可以揭示值得調查的異常情況,例如意外的數據下載或異常的登錄時間。
威脅搜尋主動搜索潛伏在您的網路中未被發現的威脅。這個過程需要經驗豐富的網路安全分析師的技能組合,利用來自現實世界的攻擊、威脅活動的情報或來自不同安全工具的相關發現來制定關於潛在威脅的假設。具有諷刺意味的是,大數據實際上可以通過發現大量安全數據中隱藏的洞察力來幫助改進威脅追蹤工作。但作為提高大數據安全性的一種方式,威脅搜尋會監控數據集和基礎設施,以尋找表明大數據環境受到威脅的工件。
出於安全目的監視大數據日誌和工具會產生大量信息,這些信息通常最終形成安全信息和事件管理(SIEM)解決方案。
用戶行為分析比內部威脅檢測更進一步,它提供了專門的工具集來監控用戶在與其交互的系統上的行為。通常情況下,行為分析使用一個評分系統來創建正常用戶、應用程序和設備行為的基線,然後在這些基線出現偏差時進行提醒。通過用戶行為分析,可以更好地檢測威脅大數據環境中資產的保密性、完整性或可用性的內部威脅和受損的用戶帳戶。
未經授權的數據傳輸的前景讓安全領導者徹夜難眠,特別是如果數據泄露發生在可以復制大量潛在敏感資產的大數據管道中。檢測數據泄露需要對出站流量、IP地址和流量進行深入監控。防止數據泄露首先來自於在代碼和錯誤配置中發現有害安全錯誤的工具,以及數據丟失預防和下一代防火牆。另一個重要方面是在企業內進行教育和提高認識。
框架、庫、軟體實用程序、數據攝取、分析工具和自定義應用程序——大數據安全始於代碼級別。 無論是否實施了上述公認的安全實踐,代碼中的安全缺陷都可能導致數據泄漏。 通過在軟體開發生命周期中檢測自研代碼及開源組件成分的安全性,加強軟體安全性來防止數據丟失。
2. 讓你的大數據應用具備更高性能
讓你的大數據應用具備更高性能
大數據應用在大型企業中變得越來越常見。企業具備歷史數據分析和趨勢預測的能力,能夠為自身創造可觀價值;此外,商業智能分析不僅可以避免出現運輸中斷、資源短缺,還能減少服務水平協議SLA和預測客戶所需的產品和服務。BI能夠給企業帶來巨額紅利。
隨著購物節的臨近,利用客戶交互的明顯增加,可以預期到你的企業將會開展更多的BI活動。通過優化大數據應用,提高性能,IT企業應該積極為更大數據量和更多的分析活動做好准備
從哪裡開始DBA、支持人員應將他們的努力集中在以下幾個領域:災難恢復,數據倉庫性能和數據組織以及大數據的應用中的數據存儲。
災難恢復大多數IT人員認為災難恢復並不屬於性能調優的范疇。在大數據環境下,這一誤解又有所加深,因為人們普遍認為建立在大數據應用上的數據分析,相對於計算工資,總帳,訂單輸入,運輸和客戶服務之類的應用來說,並不十分重要。
但是,大數據應用在過去的幾年裡已經日趨成熟,企業所使用的業務分析功能也隨之日臻完善。曾經的臨時查詢現在被作為常規報表來執行;額外的歷史數據允許查詢對大量數據進行比較和分析,通過進行負載均衡,商業分析軟體可以讓你的大數據應用得以更加方便快捷的執行查詢。這使得今天的大數據應用提供了大量的可操作數據,可以提供更好的客戶服務,消耗更低的成本並獲得更高的利潤。
這意味著,即使大數據應用遭遇一次很小的中斷,都可能在你的用戶群中產生連鎖反應,報表無法按時交付、查詢無法正常運行、以及那些基於商業分析結果的決策被延遲等。
DBA應該經常審核DR計劃,以保證大數據應用在其控制之下。他們需要關注下列幾種情況。
審核恢復過程。一年中最忙的時候就是遭到災難性故障的時候。中斷將會顯著的影響企業的營利,特別是在事務頻繁的時期。DBA應該協助恢復過程,避免浪費時間和精力。
驗證恢復時間。很多DR計劃包括一個目標恢復時間,表示可以完全恢復的最晚時間點。對於資料庫來說,這可能意味著從備份文件恢復數據,並將日誌從備份時間調整到恢復時間點。在高峰時期,數據和事務量較大;因此,恢復時間可能延長。為了降低這種風險,DBA應該考慮實施更頻繁的關鍵資料庫備份。由於在數據表恢復過程中,通常需要花時間來重建索引,DBA應該將DB2的備份和恢復能力考慮在內。
數據倉庫性能一般來說,大數據的存儲和分析或存在於企業數據倉庫(EDW)內部,或者與其相關。要整合各地的大數據解決方案,你需要為每一部分的EDW過程設置介面。下面是一個關於EDW子系統的總結,涉及大數據對它們的影響,以及如何提前制定性能計劃。
數據獲取和採集。包括一個在數據轉移到EDW之前,用於暫存數據的方案,以避免硬體故障造成的延誤。還應確定這些新資產和流程將如何影響你的災難恢復計劃。開發人員喜歡在旺季開始之前實現新功能或加固操作系統。其中一些增強數據可能需要傳遞到你的數據倉庫,隨後為大數據應用可能執行的查詢提供服務。在此之前你要確定,這些新應用或者改動後的應用可能需要一個業務分析組件,
數據轉換和遷移。快速遷移大量數據可能需要額外的資源,甚至特殊的軟體或硬體。你的網路有能力將日益增長的數據從操作系統遷移到數據倉庫,並最終部署到大數據應用中么?
數據訪問和分析。隨著數據持續填滿倉庫,在倉庫和大數據的應用合並後,用戶可以運行分析軟體。捕獲數據訪問路徑和數據分布統計信息並留作分析。你需要確定是否有足夠的系統資源(CPU、磁碟存儲、網路容量等)來支持預期的查詢工作負載。
數據歸檔。大量的數據分析,龐大的數據量可能會佔用寶貴的存儲介質,使一些進程運行緩慢。IT和業務合作夥伴必須決定如何以及何時將舊的大數據存檔清除,以及它是否必須保留以供日後使用。
大數據的組織和存儲供應商銷售的第一大數據應用通常是即插即用型的。幾乎沒有調優選項。主要的原因是,應用依賴一個專有的,混合的硬體和軟體解決方案,該解決方案使用大規模並行存儲和I / O,以實現對分析查詢的快速應答。
客戶對於大數據分析的需求日益成熟,供應商解決方案需要提供多個同步存儲和檢索數據的方法。其結果是供應商設計並實現了可選數據存儲和檢索選項。一個例子是指定關鍵記錄如何存儲的能力。設想一個大數據應用,實現了一百個獨立的磁碟驅動器。原始的應用通常將記錄隨機分散到這些驅動器。一些分析查詢可以在邏輯上分成一百個獨立的查詢,每個查詢訪問一個驅動器,所有查詢的結果合並成最終的答案,比相同的序列資料庫查詢快上一百倍。
然而,考慮一個基於鍵的,需要連接兩個表的查詢。隨機分布在一百個磁碟驅動器的兩個表將不再具備性能優勢,因為行連接操作與兩個表存儲在同一個磁碟驅動器上時已經完全不同了。
目前很多大數據應用解決方案包含選項和演算法以支持跨驅動器的表查詢,存儲是按鍵值排序的,並不是隨機分布。通過在每一個磁碟驅動器存儲相同范圍的鍵值行,行連接操作將在同一個驅動器上執行。因此按鍵值指定數據分布的能力提供了巨大性能提升。
考慮到這一點,以下是一些建議,可用於大數據應用的性能調優。
檢查數據分布統計信息。使用RunStats程序來收集表鍵和數據分布信息。特別是主鍵和外鍵索引,因為表連接通常會基於這些列。
審查數據訪問路徑。在本質上分析查詢是臨時的,數據表最有可能使用相同或相似的訪問路徑加被訪問。捕獲和分析這些訪問路徑尋找常見的連接方法。這一信息,加上數據分布統計信息,將幫助您確定數據表應如何按鍵值分布在大數據應用中。
存儲數據訪問路徑以進行分析。作為上面的建議的延伸,你應該有一個方法用於捕獲和儲存分析查詢的訪問路徑。方法返回結果應展示出表和索引是如何被訪問,以及使用了哪些索引,執行了哪些排序等等。查詢獲取更多的數據,數據量增加返過來審查你的歷史訪問路徑並比較。數據量增加引起的變化,觀察訪問路徑的變化都可能表明性能出了問題。
總結通過審核數據恢復流程,提高數據倉庫的性能,評估當前大數據應用性能的優化選項,可以讓你的大數據應用為即將到來高峰做好准備。大數據應用的數據組織方式對性能有這十分顯著的影響;此外,你還應該仔細考慮可能發生的故障,為災難做好准備,即使大數據應用上一個小的中斷都可能對企業利益造成重大影響。
以上是小編為大家分享的關於讓你的大數據應用具備更高性能的相關內容,更多信息可以關注環球青藤分享更多干貨
3. 企業應該如何在大數據基礎架構方面做出選擇
企業應該如何在大數據基礎架構方面做出選擇
如果詢問十家公司他們為了運行大數據負載需要使用怎樣的基礎架構,那麼可能會得到十種不同的答案。現在這個領域當中幾乎沒有可以遵循的原則,甚至沒有可以參考的最佳實踐。
不管是從資源還是從專業性方面來說,大數據分析已經成為基礎架構領域當中真正的難題。顧名思義,大數據分析工具所針對的數據集合,規模將會非常龐大,並且需要大量的計算、存儲和網路資源來滿足性能需求。但是這些大數據工具通常是由超大規模企業開發的,這些企業並不存在普通企業需要考慮的同等級安全問題和高可用性問題,而主流IT企業還沒有深入了解這些工具,再加上大數據在投資回報率方面的不確定性,導致只有非常少的企業願意在大數據方面進行投入。
此外,即便對於曾經在Hadoop、Spark和類似產品上運行過大數據集群的部分企業來說,也會在大數據基礎架構方面遇到技術和業務方面的挑戰。
大數據帶來大問題
一家大型遠程通訊提供商正在構建一種新的數字服務,預計在今年年底正式推出,並且准備使用Hadoop來分析這種服務所產生的內容、使用情況和收入(廣告服務)數據。但是由於這種服務是全新的,因此很難分析應該使用哪種大數據基礎架構,負責這個項目的技術副總裁表示。
「對於一個還沒有推出的項目來說,我們不可能進行任何容量規劃,」他說。
確實,現在很多大數據項目仍然處於初級階段。「大多數大數據項目的性質比我們想像的還要低,」 可擴展存儲基礎架構提供商Coho Data CTO Andrew Warfield表示。
即便企業還不是十分了解大數據技術,但這並不意味著企業不應該在大數據方面投入精力。「但是運行這種技術可能面臨著很大風險,提前認識到這點非常重要,」 Warfield說,他認為企業應該提前考慮基礎架構方面的因素。
對於這家遠程通訊提供商來說,他們將會採用一種漸進的方式,使用來自於BlueData Software的軟體在商用硬體環境當中運行大數據集群,這樣就能夠從現有的存儲系統上訪問數據了。
無處不在的數據
如果數據來自於雲,那麼當然可以直接在雲中進行分析;如果數據全部位於本地,那麼底層的基礎架構也應該位於本地。但是如果數據分散在不同位置,那麼無疑會使得基礎架構更加復雜。
遠程通訊提供商的服務將會同時使用來自於雲和本地的數據。對於任何大數據解決方案來說,考慮到合規性、節省時間和網路帶寬等因素,能夠同時支持兩種數據來源都是十分重要的。「同步生產環境當中的數據是一件非常困難的事情,」這位副總裁說,「我們希望將所有的實例全都指向一個單一數據源。」
此外,雖然數據科學家想要分析的信息是可用的,但是現在還不能進行使用,因為其位於大數據計算工具無法訪問的存儲基礎架構當中,Warfield說。一種解決方案是存儲硬體使用Hadoop Distributed File System或者RESTful API這樣的協議公開這些數據。
注意延遲
對於特性類型的大數據分析來說,將數據從存儲陣列移動到計算環境所花費的時間將會對性能造成嚴重影響。但是如果不將數據跨越整個網路移動到計算環境當中,而是將應用程序移動到數據附近以降低延遲,將會怎樣呢?
將計算環境移動到數據附近並不是一種全新的概念,但是現在出現了一種前所未有的實現方式:Docker。比如Coho Data和Intel通過合作證明了這種概念的有效性,在一個大型金融服務公司當中,使用Docker格式封裝計算節點,之後在上面直接運行Hadoop負載。
在存儲陣列上直接運行Docker容器,這樣做的意義在於直接對附近的數據進行分析,而不再需要跨網路移動數據,同時利用任何可用的計算資源。「相比於其他存儲平台來說,大數據平台的CPU使用率通常會很高,」 Warfield說。「更何況如果你將快閃記憶體加入其中,那麼問題就會變成『我該如何從這種資源當中獲得更多價值?』」
直接在存儲陣列當中運行容器化應用程序是一件非常有趣的事情,但是需要提前對負載進行認真評估,以確保其能夠很好地適應當前環境,為建築行業提供文檔管理服務的Signature Tech Studios公司副總裁Bubba Hines說。這種服務基於Amazon Web Services,使用來自於Zadara Storage的存儲服務。這家公司最近開始評估新的Zadara Container Service,其中容器化應用程序運行在存儲陣列上,可以直接訪問本地磁碟。根據Hines的想法,現在有幾種可能的使用情況:在存儲陣列上運行其災難恢復軟體的容器版本來持續監控用戶數據和工作方面的變化,更改或者驗證主要存儲數據。
但是如果使用Zadara Container Service處理全部數據將沒有什麼意義。Signature Tech Studio的系統正在按照計劃執行數據轉換,並且已經實現大規模容器化了。但是「我們可能不會將所有Docker容器移動到Zadara容器服務當中,因為從體積和規模方面考慮這樣做並沒有意義,」Hines說。「我們必須尋找能夠真正從降低延遲當中獲利的負載。」
以上是小編為大家分享的關於企業應該如何在大數據基礎架構方面做出選擇的相關內容,更多信息可以關注環球青藤分享更多干貨
4. 大數據會帶來哪些問題
一、分布式系統
大數據解決方案將數據和操作分布在許多系統中,以實現更快的處理和分析。這種分布式系統可以平衡負載,避免單點故障。但是這樣的系統容易受到安全威脅,黑客只要攻擊一個點就可以滲透整個網路。
二.數據存取
大數據系統需要訪問控制來限制對敏感數據的訪問,否則,任何用戶都可以訪問機密數據,有些用戶可能會出於惡意使用。此外,網路犯罪分子可以入侵與大數據系統相連的系統,竊取敏感數據。因此,使用大數據的公司需要檢查和驗證每個用戶的身份。
三.數據不正確
網路犯罪分子可以通過操縱存儲的數據來影響大數據系統的准確性。因此,網路犯罪分子可以創建虛假數據,並將這些數據提供給大數據系統。比如醫療機構可以利用大數據系統研究患者的病歷,而黑客可以修改這些數據,產生不正確的診斷結果。
四.侵犯隱私
大數據系統通常包含機密數據,這是很多人非常關心的問題。這樣的大數據隱私威脅已經被全世界的專家討論過了。此外,網路犯罪分子經常攻擊大數據系統以破壞敏感數據。這種數據泄露已經成為頭條新聞,導致數百萬人的敏感數據被盜。
五、雲安全性不足
大數據系統收集的數據通常存儲在雲中,這可能是一個潛在的安全威脅。網路犯罪分子破壞了許多知名公司的雲數據。如果存儲的數據沒有加密,並且沒有適當的數據安全性,就會出現這些問題。
5. typecho對於大數據負載能力如何比如1000萬數據,有誰測試過嗎
眾所周知,java在處理數據量比較大的時候,載入到內存必然會導致內存溢出,而在一些數據處理中我們不得不去處理海量數據,在做數據處理中,我們常見的手段是分解,壓縮,並行,臨時文件等方法;
例如,我們要將資料庫(不論是什麼資料庫)的數據導出到一個文件,一般是Excel
或文本格式的CSV;對於Excel來講,對於POI和JXL的介面,你很多時候沒有辦法去控制內存什麼時候向磁碟寫入,很惡心,而且這些API在內存構
造的對象大小將比數據原有的大小要大很多倍數,所以你不得不去拆分Excel,還好,POI開始意識到這個問題,在3.8.4的版本後,開始提供
cache的行數,提供了SXSSFWorkbook的介面,可以設置在內存中的行數,不過可惜的是,他當你超過這個行數,每添加一行,它就將相對行數前
面的一行寫入磁碟(如你設置2000行的話,當你寫第20001行的時候,他會將第一行寫入磁碟),其實這個時候他些的臨時文件,以至於不消耗內存,不過
這樣你會發現,刷磁碟的頻率會非常高,我們的確不想這樣,因為我們想讓他達到一個范圍一次性將數據刷如磁碟,比如一次刷1M之類的做法,可惜現在還沒有這
種API,很痛苦,我自己做過測試,通過寫小的Excel比使用目前提供刷磁碟的API來寫大文件,效率要高一些,而且這樣如果訪問的人稍微多一些磁碟
IO可能會扛不住,因為IO資源是非常有限的,所以還是拆文件才是上策;而當我們寫CSV,也就是文本類型的文件,我們很多時候是可以自己控制的,不過你
不要用CSV自己提供的API,也是不太可控的,CSV本身就是文本文件,你按照文本格式寫入即可被CSV識別出來;如何寫入呢?下面來說說。。。
在處理數據層面,如從資料庫中讀取數據,生成本地文件,寫代碼為了方便,我們未必要
1M怎麼來處理,這個交給底層的驅動程序去拆分,對於我們的程序來講我們認為它是連續寫即可;我們比如想將一個1000W數據的資料庫表,導出到文件;此
時,你要麼進行分頁,oracle當然用三層包裝即可,mysql用limit,不過分頁每次都會新的查詢,而且隨著翻頁,會越來越慢,其實我們想拿到一
個句柄,然後向下游動,編譯一部分數據(如10000行)將寫文件一次(寫文件細節不多說了,這個是最基本的),需要注意的時候每次buffer的數據,
在用outputstream寫入的時候,最好flush一下,將緩沖區清空下;接下來,執行一個沒有where條件的SQL,會不會將內存撐爆?是的,這個問題我們值得去思考下,通過API發現可以對SQL進行一些操作,例如,通過:PreparedStatement
statement =
connection.prepareStatement(sql),這是默認得到的預編譯,還可以通過設置:PreparedStatement
statement = connection.prepareStatement(sql ,
ResultSet.TYPE_FORWARD_ONLY ,
ResultSet.CONCUR_READ_ONLY);
來設置游標的方式,以至於游標不是將數據直接cache到本地內存,然後通過設置statement.setFetchSize(200);設置游標每次遍歷的大小;OK,這個其實我用過,oracle用了和沒用沒區別,因為oracle的jdbc
API默認就是不會將數據cache到java的內存中的,而mysql里頭設置根本無效,我上面說了一堆廢話,呵呵,
我只是想說,java提供的標准API也未必有效,很多時候要看廠商的實現機制,還有這個設置是很多網上說有效的,但是這純屬抄襲;對於oracle上面
說了不用關心,他本身就不是cache到內存,所以java內存不會導致什麼問題,如果是mysql,首先必須使用5以上的版本,然後在連接參數上加上
useCursorFetch=true這個參數,至於游標大小可以通過連接參數上加上:defaultFetchSize=1000來設置,例如:
jdbc:mysql://xxx.xxx.xxx.xxx:3306/abc?zeroDateTimeBehavior=convertToNull&useCursorFetch=true&defaultFetchSize=1000
上次被這個問題糾結了很久(mysql的數據老導致程序內存膨脹,並行2個直接系統
就宕了),還去看了很多源碼才發現奇跡竟然在這里,最後經過mysql文檔的確認,然後進行測試,並行多個,而且數據量都是500W以上的,都不會導致內
存膨脹,GC一切正常,這個問題終於完結了。
我們再聊聊其他的,數據拆分和合並,當數據文件多的時候我們想合並,當文件太大想要
拆分,合並和拆分的過程也會遇到類似的問題,還好,這個在我們可控制的范圍內,如果文件中的數據最終是可以組織的,那麼在拆分和合並的時候,此時就不要按
照數據邏輯行數來做了,因為行數最終你需要解釋數據本身來判定,但是只是做拆分是沒有必要的,你需要的是做二進制處理,在這個二進制處理過程,你要注意
了,和平時read文件不要使用一樣的方式,平時大多對一個文件讀取只是用一次read操作,如果對於大文件內存肯定直接掛掉了,不用多說,你此時因該每
次讀取一個可控范圍的數據,read方法提供了重載的offset和length的范圍,這個在循環過程中自己可以計算出來,寫入大文件和上面一樣,不要
讀取到一定程序就要通過寫入流flush到磁碟;其實對於小數據量的處理在現代的NIO技術的中也有用到,例如多個終端同時請求一個大文件下載,例如視頻
下載吧,在常規的情況下,如果用java的容器來處理,一般會發生兩種情況:
其一為內存溢出,因為每個請求都要載入一個文件大小的內存甚至於更多,因為java
包裝的時候會產生很多其他的內存開銷,如果使用二進制會產生得少一些,而且在經過輸入輸出流的過程中還會經歷幾次內存拷貝,當然如果有你類似nginx之
類的中間件,那麼你可以通過send_file模式發送出去,但是如果你要用程序來處理的時候,內存除非你足夠大,但是java內存再大也會有GC的時
候,如果你內存真的很大,GC的時候死定了,當然這個地方也可以考慮自己通過直接內存的調用和釋放來實現,不過要求剩餘的物理內存也足夠大才行,那麼足夠
大是多大呢?這個不好說,要看文件本身的大小和訪問的頻率;
其二為假如內存足夠大,無限制大,那麼此時的限制就是線程,傳統的IO模型是線程是
一個請求一個線程,這個線程從主線程從線程池中分配後,就開始工作,經過你的Context包裝、Filter、攔截器、業務代碼各個層次和業務邏輯、訪
問資料庫、訪問文件、渲染結果等等,其實整個過程線程都是被掛住的,所以這部分資源非常有限,而且如果是大文件操作是屬於IO密集型的操作,大量的CPU
時間是空餘的,方法最直接當然是增加線程數來控制,當然內存足夠大也有足夠的空間來申請線程池,不過一般來講一個進程的線程池一般會受到限制也不建議太多
的,而在有限的系統資源下,要提高性能,我們開始有了new
IO技術,也就是NIO技術,新版的裡面又有了AIO技術,NIO只能算是非同步IO,但是在中間讀寫過程仍然是阻塞的(也就是在真正的讀寫過程,但是不會
去關心中途的響應),還未做到真正的非同步IO,在監聽connect的時候他是不需要很多線程參與的,有單獨的線程去處理,連接也又傳統的socket變
成了selector,對於不需要進行數據處理的是無需分配線程處理的;而AIO通過了一種所謂的回調注冊來完成,當然還需要OS的支持,當會掉的時候會
去分配線程,目前還不是很成熟,性能最多和NIO吃平,不過隨著技術發展,AIO必然會超越NIO,目前谷歌V8虛擬機引擎所驅動的node.js就是類
似的模式,有關這種技術不是本文的說明重點;
將上面兩者結合起來就是要解決大文件,還要並行度,最土的方法是將文件每次請求的大
小降低到一定程度,如8K(這個大小是經過測試後網路傳輸較為適宜的大小,本地讀取文件並不需要這么小),如果再做深入一些,可以做一定程度的
cache,將多個請求的一樣的文件,cache在內存或分布式緩存中,你不用將整個文件cache在內存中,將近期使用的cache幾秒左右即可,或你
可以採用一些熱點的演算法來配合;類似迅雷下載的斷點傳送中(不過迅雷的網路協議不太一樣),它在處理下載數據的時候未必是連續的,只要最終能合並即可,在
伺服器端可以反過來,誰正好需要這塊的數據,就給它就可以;才用NIO後,可以支持很大的連接和並發,本地通過NIO做socket連接測試,100個終
端同時請求一個線程的伺服器,正常的WEB應用是第一個文件沒有發送完成,第二個請求要麼等待,要麼超時,要麼直接拒絕得不到連接,改成NIO後此時
100個請求都能連接上伺服器端,服務端只需要1個線程來處理數據就可以,將很多數據傳遞給這些連接請求資源,每次讀取一部分數據傳遞出去,不過可以計算
的是,在總體長連接傳輸過程中總體效率並不會提升,只是相對相應和所開銷的內存得到量化控制,這就是技術的魅力,也許不要太多的演算法,不過你得懂他。
類似的數據處理還有很多,有些時候還會將就效率問題,比如在HBase的文件拆分和
合並過程中,要不影響線上業務是比較難的事情,很多問題值得我們去研究場景,因為不同的場景有不同的方法去解決,但是大同小異,明白思想和方法,明白內存
和體系架構,明白你所面臨的是沈陽的場景,只是細節上改變可以帶來驚人的效果。
-
6. 詳細解讀你所不了解的「大數據」
詳細解讀你所不了解的「大數據」
進入2012年,大數據(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的證券公司等寫進了投資推薦報告。
一、大數據出現的背景
進入2012年,大數據(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的證券公司等寫進了投資推薦報告。
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然現在企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
最早提出大數據時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
大數據在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
二、什麼是大數據?
信息技術領域原先已經有「海量數據」、「大規模數據」等概念,但這些概念只著眼於數據規模本身,未能充分反映數據爆發背景下的數據處理與應用需求,而「大數據」這一新概念不僅指規模龐大的數據對象,也包含對這些數據對象的處理和應用活動,是數據對象、技術與應用三者的統一。
1、大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據對象既可能是實際的、有限的數據集合,如某個政府部門或企業掌握的資料庫,也可能是虛擬的、無限的數據集合,如微博、微信、社交網路上的全部信息。
大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。研發小組對大數據的定義:「大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。」Kelly說:「大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。
2、大數據技術,是指從各種各樣類型的大數據中,快速獲得有價值信息的技術的能力,包括數據採集、存儲、管理、分析挖掘、可視化等技術及其集成。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
3、大數據應用,是指對特定的大數據集合,集成應用大數據技術,獲得有價值信息的行為。對於不同領域、不同企業的不同業務,甚至同一領域不同企業的相同業務來說,由於其業務需求、數據集合和分析挖掘目標存在差異,所運用的大數據技術和大數據信息系統也可能有著相當大的不同。惟有堅持「對象、技術、應用」三位一體同步發展,才能充分實現大數據的價值。
當你的技術達到極限時,也就是數據的極限」。大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。
三、大數據的類型和價值挖掘方法
1、大數據的類型大致可分為三類:
1)傳統企業數據(Traditionalenterprisedata):包括 CRMsystems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。
2)機器和感測器數據(Machine-generated/sensor data):包括呼叫記錄(CallDetailRecords),智能儀表,工業設備感測器,設備日誌(通常是Digital exhaust),交易數據等。
3)社交數據(Socialdata):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。
2、大數據挖掘商業價值的方法主要分為四種:
1)客戶群體細分,然後為每個群體量定製特別的服務。
2)模擬現實環境,發掘新的需求同時提高投資的回報率。
3)加強部門聯系,提高整條管理鏈條和產業鏈條的效率。
4)降低服務成本,發現隱藏線索進行產品和服務的創新。
四、大數據的特點
業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。具體來說,大數據具有4個基本特徵:
1、是數據體量巨大
數據體量(volumes)大,指代大型數據集,一般在10TB規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;網路資料表明,其新首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果列印出來將超過5千億張A4紙。有資料證實,到目前為止,人類生產的所有印刷材料的數據量僅為200PB。
2、是數據類別大和類型多樣
數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。
3、是處理速度快
在數據量非常龐大的情況下,也能夠做到數據的實時處理。數據處理遵循「1秒定律」,可從各種類型的數據中快速獲得高價值的信息。
4、是價值真實性高和密度低
數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。
五、大數據的作用
1、對大數據的處理分析正成為新一代信息技術融合應用的結點
移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
大數據具有催生社會變革的能量。但釋放這種能量,需要嚴謹的數據治理、富有洞見的數據分析和激發管理創新的環境(RamayyaKrishnan,卡內基·梅隆大學海因茲學院院長)。
2、大數據是信息產業持續高速增長的新引擎
面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。
3、大數據利用將成為提高核心競爭力的關鍵因素
各 行各業的決策正在從「業務驅動」轉變「數據驅動」。對大數據的分析可以使零售商實時掌握市場動態並迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業為消費者提供更加及時和個性化的服務;在醫療領域,可提高診斷准確性和葯物有效性;在公共事業領域,大數據也開始發揮促進經濟發展、維護社會穩定等方面的重要作用。
4、大數據時代科學研究的方法手段將發生重大改變
例如,抽樣調查是社會科學的基本研究方法。在大數據時代,可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。
六、大數據的商業價值
1、對顧客群體細分
「大數據」可以對顧客群體細分,然後對每個群體量體裁衣般的採取獨特的行動。瞄準特定的顧客群體來進行營銷和服務是商家一直以來的追求。雲存儲的海量數據和「大數據」的分析技術使得對消費者的實時和極端的細分有了成本效率極高的可能。
2、模擬實境
運用「大數據」模擬實境,發掘新的需求和提高投入的回報率。現在越來越多的產品中都裝有感測器,汽車和智能手機的普及使得可收集數據呈現爆炸性增長。Blog、Twitter、Facebook和微博等社交網路也在產生著海量的數據。
雲計算和「大數據」分析技術使得商家可以在成本效率較高的情況下,實時地把這些數據連同交易行為的數據進行儲存和分析。交易過程、產品使用和人類行為都可以數據化。「大數據」技術可以把這些數據整合起來進行數據挖掘,從而在某些情況下通過模型模擬來判斷不同變數(比如不同地區不同促銷方案)的情況下何種方案投入回報最高。
3、提高投入回報率
提高「大數據」成果在各相關部門的分享程度,提高整個管理鏈條和產業鏈條的投入回報率。「大數據」能力強的部門可以通過雲計算、互聯網和內部搜索引擎把」大數據」成果和「大數據」能力比較薄弱的部門分享,幫助他們利用「大數據」創造商業價值。
4、數據存儲空間出租
企業和個人有著海量信息存儲的需求,只有將數據妥善存儲,才有可能進一步挖掘其潛在價值。具體而言,這塊業務模式又可以細分為針對個人文件存儲和針對企業用戶兩大類。主要是通過易於使用的API,用戶可以方便地將各種數據對象放在雲端,然後再像使用水、電一樣按用量收費。目前已有多個公司推出相應服務,如亞馬遜、網易、諾基亞等。運營商也推出了相應的服務,如中國移動的彩雲業務。
5、管理客戶關系
客戶管理應用的目的是根據客戶的屬性(包括自然屬性和行為屬性),從不同角度深層次分析客戶、了解客戶,以此增加新的客戶、提高客戶的忠誠度、降低客戶流失率、提高客戶消費等。對中小客戶來說,專門的CRM顯然大而貴。不少中小商家將飛信作為初級CRM來使用。比如把老客戶加到飛信群里,在群朋友圈裡發布新產品預告、特價銷售通知,完成售前售後服務等。
6、個性化精準推薦
在運營商內部,根據用戶喜好推薦各類業務或應用是常見的,比如應用商店軟體推薦、IPTV視頻節目推薦等,而通過關聯演算法、文本摘要抽取、情感分析等智能分析演算法後,可以將之延伸到商用化服務,利用數據挖掘技術幫助客戶進行精準營銷,今後盈利可以來自於客戶增值部分的分成。
以日常的「垃圾簡訊」為例,信息並不都是「垃圾」,因為收到的人並不需要而被視為垃圾。通過用戶行為數據進行分析後,可以給需要的人發送需要的信息,這樣「垃圾簡訊」就成了有價值的信息。在日本的麥當勞,用戶在手機上下載優惠券,再去餐廳用運營商DoCoMo的手機錢包優惠支付。運營商和麥當勞搜集相關消費信息,例如經常買什麼漢堡,去哪個店消費,消費頻次多少,然後精準推送優惠券給用戶。
7、數據搜索
數據搜索是一個並不新鮮的應用,隨著「大數據」時代的到來,實時性、全范圍搜索的需求也就變得越來越強烈。我們需要能搜索各種社交網路、用戶行為等數據。其商業應用價值是將實時的數據處理與分析和廣告聯系起來,即實時廣告業務和應用內移動廣告的社交服務。
運營商掌握的用戶網上行為信息,使得所獲取的數據「具備更全面維度」,更具商業價值。典型應用如中國移動的「盤古搜索」。
七、大數據對經濟社會的重要影響
1、能夠推動實現巨大經濟效益
比如對中國零售業凈利潤增長的貢獻,降低製造業產品開發、組裝成本等。預計2013年全球大數據直接和間接拉動信息技術支出將達1200億美元。
2、能夠推動增強社會管理水平
大數據在公共服務領域的應用,可有效推動相關工作開展,提高相關部門的決策水平、服務效率和社會管理水平,產生巨大社會價值。歐洲多個城市通過分析實時採集的交通流量數據,指導駕車出行者選擇最佳路徑,從而改善城市交通狀況。
3、如果沒有高性能的分析工具,大數據的價值就得不到釋放
對大數據應用必須保持清醒認識,既不能迷信其分析結果,也不能因為其不完全准確而否定其重要作用。
1)由於各種原因,所分析處理的數據對象中不可避免地會包括各種錯誤數據、無用數據,加之作為大數據技術核心的數據分析、人工智慧等技術尚未完全成熟,所以對計算機完成的大數據分析處理的結果,無法要求其完全准確。例如,谷歌通過分析億萬用戶搜索內容能夠比專業機構更快地預測流感暴發,但由於微博上無用信息的干擾,這種預測也曾多次出現不準確的情況。
2)必須清楚定位的是,大數據作用與價值的重點在於能夠引導和啟發大數據應用者的創新思維,輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數據能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。
所以,客觀認識和發揮大數據的作用,不誇大、不縮小,是准確認知和應用大數據的前提。
八、總結
不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
1、從大數據的價值鏈條來分析,存在三種模式:
1)手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。
2)沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。
3)既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。
2、未來在大數據領域最具有價值的是兩種事物:
1)擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;
2)還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。
大數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇,需要不斷跟蹤研究大數據,不斷提升對大數據的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各領域的大數據開發與利用,推動國家、行業、企業對於數據的應用需求和應用水平進入新的階段。
7. 大數據是什麼
作者:李麗
鏈接:https://www.hu.com/question/23896161/answer/28624675
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
"大數據"是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。
研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。
二、大數據分析
從所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那麼越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於如此的認識,大數據分析普遍存在的方法理論有哪些呢?
1、可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了
2、數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3、預測性分析能力
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4、數據質量和數據管理
大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
三、大數據技術
1、數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
2、數據存取:關系資料庫、NOSQL、SQL等。
3、基礎架構:雲存儲、分布式文件存儲等。
4、數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
5、統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
6、數據挖掘:分類
(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or
association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text,
Web ,圖形圖像,視頻,音頻等)
7、模型預測:預測模型、機器學習、建模模擬。
8、結果呈現:雲計算、標簽雲、關系圖等。
四、大數據特點
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
1、
數據體量巨大。從TB級別,躍升到PB級別。
2、
數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
3、
價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
4、
處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。
大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模,也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。因此,大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發,搶占時代發展的前沿。
五、大數據處理
大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理
六、大數據應用與案例分析
大數據應用的關鍵,也是其必要條件,就在於"IT"與"經營"的融合,當然,這里的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。以下是關於各行各業,不同的組織機構在大數據方面的應用的案例,在此申明,以下案例均來源於網路,本文僅作引用,並在此基礎上作簡單的梳理和分類。
大數據應用案例之:醫療行業
[1] Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。
[3] 它讓更多的創業者更方便地開發產品,比如通過社交網路來收集數據的健康類App。也許未來數年後,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
大數據應用案例之:能源行業
[1] 智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低采購成本。
[2] 維斯塔斯風力系統,依靠的是BigInsights軟體和IBM超級計算機,然後對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足1小時便可完成。
大數據應用案例之:通信行業
[1] XO Communications通過使用IBM SPSS預測分析軟體,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,並找出存在缺陷的環節,從而幫助公司及時採取措施,保留客戶。此外,IBM新的Netezza網路分析加速器,將通過提供單個端到端網路、服務、客戶分析視圖的可擴展平台,幫助通信企業制定更科學、合理決策。
[2] 電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。
[3] 中國移動通過大數據分析,對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。
[4] NTT docomo把手機位置信息和互聯網上的信息結合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。
8. 大數據存在哪些安全問題
一、分布式體系
大數據解決方案將數據和操作分布在許多體繫上,以便更快地進行處理和分析。這種分布式體系能夠平衡負載,並避免發生單點故障。然而,這樣的體系很容易遭到安全要挾,黑客只需進犯一個點就能夠滲透到整個網路。
二、數據拜訪
大數據體系需要拜訪操控來限制對敏感數據的拜訪,不然,任何用戶都能夠拜訪秘要數據,有些用戶可能將其用於惡意意圖。此外,網路犯罪分子能夠侵入與大數據體系相連的體系,以盜取敏感數據。
三、不正確的數據
網路犯罪分子能夠通過操作存儲的數據來影響大數據體系的准確性。為此,網路罪犯分子能夠創建虛假數據,並將這些數據提供給大數據體系,例如,醫療機構能夠使用大數據體系來研究患者的病歷,而黑客能夠修改此數據以生成不正確的確診結果。
四、侵犯隱私權
大數據體系通常包括秘要數據,這是許多人非常關懷的問題。這樣的大數據隱私要挾已經被全球的專家們評論過了。此外,網路犯罪分子經常進犯大數據體系,以損壞敏感數據。此類數據泄露已成為頭條新聞,致使數百萬人的敏感數據被盜。
五、雲安全不足
大數據體系收集的數據通常存儲在雲中,這可能是一個潛在的安全要挾。網路罪犯分子已經損壞了許多聞名公司的雲數據。如果存儲的數據沒有加密,而且沒有適當的數據安全性,就會出現這些問題。
關於大數據存在哪些安全問題,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
9. 什麼是大數據它有哪些特點
1、大數據(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。
2、特點:大數據分析相比於傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。
10. 如何進行大數據分析及處理
聚雲化雨的處理方式
聚雲:探碼科技全面覆蓋各類數據的處理應用。以數據為原料,通過網路數據採集、生產設備數據採集的方式將各種原始數據凝結成雲,為客戶打造強大的數據存儲庫;
化雨:利用模型演算法和人工智慧等技術對存儲的數據進行計算整合讓數據與演算法產生質變反應化雲為雨,讓真正有價值的數據流動起來;
開渠引流,潤物無聲:將落下「雨水」匯合成數據湖泊,對數據進行標注與處理根據行業需求開渠引流,將一條一條的數據支流匯合集成數據應用中,為行業用戶帶來價值,做到春風化雨,潤物無聲。