㈠ 大數據量數據存儲問題
大數據(big
data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)
㈡ 大數據時代,數據應該如何存儲
PB或多PB級基礎設施與傳統大規模數據集之間的差別簡直就像白天和黑夜的差別,就像在筆記本電腦上處理數據和在RAID陣列上處理數據之間的差別。"
當Day在2009年加入Shutterfly時,存儲已經成為該公司最大的開支,並且以飛快的速度增長。
"每N個PB的額外存儲意味著我們需要另一個存儲管理員來支持物理和邏輯基礎設施,"Day表示,"面對大規模數據存儲,系統會更頻繁地出問題,任何管理超大存儲的人經常都要處理硬體故障。大家都在試圖解決的根本問題是:當你知道存儲的一部分將在一段時間內出現問題,你應該如何確保數據可用性,同時確保不會降低性能?"RAID問題解決故障的標准答案是復制,通常以RAID陣列的形式。但Day表示,面對龐大規模的數據時,RAID解決問題的同時可能會製造更多問題。在傳統RAID數據存儲方案中,每個數據的副本都被鏡像和存儲在陣列的不同磁碟中,以確保完整性和可用性。但這意味著每個被鏡像和存儲的數據將需要其本身五倍以上的存儲空間。隨著RAID陣列中使用的磁碟越來越大(從密度和功耗的角度來看,3TB磁碟非常具有吸引力),更換故障驅動器的時間也將變得越來越長。
"實際上,我們使用RAID並不存在任何操作問題,"Day表示,"我們看到的是,隨著磁碟變得越來越大,當任何組件發生故障時,我們回到一個完全冗餘的系統的時間增加。生成校驗是與數據集的大小成正比的。當我們開始使用1TB和2TB的磁碟時,回到完全冗餘系統的時間變得很長。可以說,這種趨勢並沒有朝著正確的方向發展。"
對於Shutterfly而言,可靠性和可用性是非常關鍵的因素,這也是企業級存儲的要求。Day表示,其快速膨脹的存儲成本使商品系統變得更具吸引力。當Day及其團隊在研究潛在技術解決方案以幫助控制存儲成本時,他們對於一項叫做糾刪碼(erasure code)的技術非常感興趣。
採用擦除代碼技術的下一代存儲
里德-所羅門糾刪碼最初作為前向糾錯碼(Forward Error Correction, FEC)用於不可靠通道的數據傳輸,例如外層空間探測的數據傳輸。這項技術還被用於CD和DVD來處理光碟上的故障,例如灰塵和劃痕。一些存儲供應商已經開始將糾刪碼納入他們的解決方案中。使用糾刪碼,數據可以被分解成幾塊,單塊分解數據是無用的,然後它們被分散到不同磁碟驅動器或者伺服器。在任何使用,這些數據都可以完全重組,即使有些數據塊因為磁碟故障已經丟失。換句話說,你不需要創建多個數據副本,單個數據就可以確保數據的完整性和可用性。
基於糾刪碼的解決方案的早期供應商之一是Cleversafe公司,他們添加了位置信息來創建其所謂的分散編碼,讓用戶可以在不同位置(例如多個數據中心)存儲數據塊或者說數據片。
每個數據塊就其自身而言是無用的,這樣能夠確保隱私性和安全性。因為信息分散技術使用單一數據來確保數據完整性和可用性,而不是像RAID一樣使用多個副本,公司可以節省多達90%的存儲成本。
"當你將試圖重組數據時,你並不一定需要提供所有數據塊,"Cleversafe公司產品策略、市場營銷和客戶解決方案副總裁Russ Kennedy表示,"你生成的數據塊的數量,我們稱之為寬度,我們將重組數據需要的最低數量稱之為門檻。你生成的數據塊的數量和重組需要的數量之間的差異決定了其可靠性。同時,即使你丟失節點和驅動器,你仍然能夠得到原來形式的數據。"
㈢ 海量數據存儲有哪些方式與方法
從數據存儲的模式來看,海量存儲技術可以分為DAS(Direct Attached Storage,直接附加存儲)和網路存專儲兩種,其中網路存儲又可以分為NAS(Network Attached storage,網屬絡附加存儲)和SAN(Storage Area Net、Work,存儲區域網路)。
從數據存儲系統的組成上看,無論是DAS、NAS還是SAN,其存儲系統都可以分為三個部分:首先是磁碟陣列,它是存儲系統的基礎,是完成數據存儲的基本保證;其次是連接和網路子系統,通過它們實現了一個或多個磁碟陣列與伺服器之間的連接;最後是存儲管理軟體,在系統和應用級上,實現多個伺服器共享、防災等存儲管理任務。
如果需要更多資料可以追問
㈣ 大數據存儲的三種方式
1、不斷加密:任何類型的數據對於任何一個企業來說都是至關重要的,而且通常被認為是私有的,並且在他們自己掌控的范圍內是安全的。
然而,黑客攻擊經常被覆蓋在業務故障中,最新的網路攻擊活動在新聞報道不斷充斥。因此,許多公司感到很難感到安全,尤其是當一些行業巨頭經常成為攻擊目標時。隨著企業為保護資產全面開展工作,加密技術成為打擊網路威脅的可行途徑。
2、倉庫存儲:大數據似乎難以管理,就像一個永無休止統計數據的復雜的漩渦。因此,將信息精簡到單一的公司位置似乎是明智的,這是一個倉庫,其中所有的數據和伺服器都可以被充分地規劃指定。然而,有些報告指出了反對這種方法的論據,指出即使是最大的存儲中心,大數據的指數增長也不再能維持。
3、備份服務雲端:大數據管理和存儲正在迅速脫離物理機器的范疇,並迅速進入數字領域。除了所有技術的發展,大數據增長得更快,以這樣的速度,世界上所有的機器和倉庫都無法完全容納它。
由於雲存儲服務推動了數字化轉型,雲計算的應用越來越繁榮。數據在一個位置不再受到風險控制,並隨時隨地可以訪問,大型雲計算公司將會更多地訪問基本統計信息。數據可以在這些服務上進行備份,這意味著一次網路攻擊不會消除多年的業務增長和發展。
㈤ 大數據解決方案主要用於存儲哪種類型的數據
大數據解決方案主要用於存儲二進制類型的數據。
數據還包括了結構化數據和非結構化數據,郵件,Word,圖片,音頻信息,視頻信息等各種類型數據,已經不是以往的關系型資料庫可以解決的了。非結構化數據的超大規模和增長,占總數據量的80~90%,比結構化數據增長快10倍到50倍,是傳統數據倉庫的10倍到50倍。
大數據特點:
海量數據有不同格式,第一種是結構化,我們常見的數據,還有半結據化網頁數據,還有非結構化視頻音頻數據。而且這些數據化他們處理方式是比較大的。數據類型繁多,如網路日誌、視頻、圖片、地理位置信息,等等。
㈥ 大數據時代需要什麼樣的存儲
眾多專家認為,大數據時代的存儲,應當是分布式的存儲,並呈現出與計算融合的趨勢。當然,不同專家對融合的理解也有所區別。 SNIA-China技術委員會主席雷濤表示,在當前的大數據時代,由於數據量TB、PB級的急劇膨脹,傳統的數據搬移工作已經不現實,因而存儲伺服器出現新的融合趨勢。在這樣的架構中,數據不再移動,寫入以後分散在STORAGE,它的計算節點融合在數據旁邊的CPU,數據越來越貼近計算。 雷濤補充說,大數據只談商業分析的數據支持,這是小數據思維,從金融、運營商、政府行業我們做的項目裡面發現,大數據是嵌入到整個行業裡面,替換以前的存儲和計算的系統架構的過程。 華為存儲產品線Marketing部長經寧認為,大數據帶來的三大變化,包括從集中式走向分布式,從水平走向縱向,從計算為中心轉向以數據為中心,總結一句話,即在大數據下架構方向走向分布式存儲的架構。 2013年,華為存儲產品線把理念進行升級,變成「存以致用,融以致遠」。經寧表示,融合架構是我們面對大數據挑戰一個很好的選擇。華為更多的希望把數據智能用起來產生價值,通過融合架構實現計算存儲融合,可以帶來更高的管理效率更高效能,大大降低我們管理上的開銷。 中橋國際調研咨詢公司首席分析師王叢女士則從虛擬化、雲計算數據保護和融合架構三個維度談了中國數據中心的發展變化。她表示,具有高可移動性的虛擬機用於生產,掉了鏈子就很難判斷是哪個物理環境,這就驅動了融合架構。融合架構避免了整合的時間和網路問題判斷的時間,能夠實現統一集中透明管理,可以根據工作負載去實時動態配置資源,也可以實時監控哪裡出了問題,怎麼解決問題。 王叢還指出,融合架構有不同的形態,其中一種是在原來硬體基礎上用一個軟體罩上,然後形成融合架構,實現目的是可以在線擴展,所有動態可以負載均衡,在最大限度提高部署效率前提下,又能夠降低因為硬體問題而導致的應用性能降低和應用的不穩定。 老牌存儲廠商NetApp同樣對存儲架構很有體會。NetApp公司北方區及電信事業部技術總監劉煒表示,在今天把數據存起來不是很難的問題,買一個移動硬碟就可以存儲數據,但是在上面存儲享受的服務級別不同的,不同於放在數據中心和網路雲上面的服務級別的。 為了不讓數據成為整個企業發展的負擔,而是成為真正的價值點,從資料變成資產,基礎架構需要快速、安全地支持一些新的技術手段。劉煒認為,應用級別和服務級別怎麼定義需要有很好存儲架構。NetApp集群存儲系統,並不是簡單地迎合新概念,而是面向實際的應用設計。NetApp做了很多IT架構的設計,滿足應用分級、資源分層的需求,你可以用虛擬化,也可以不用。 Fusion-io大中國區技術總監Tonny Ai與英特爾公司通信和存儲基礎架構事業部存儲部市場總監 Christine M Rice女士談到了SSD在大數據時代數據中心的應用。Tonny Ai表示,讓包括非結構化數據的大量數據快速變成信息,不僅僅是伺服器要快,存儲速度也要跟上CPU的速度,快閃記憶體正是針對當前網路存儲速度落後的解決方案,能夠有效提高存儲的性能。 同時,Tonny Ai認為,在雲計算、大數據時代,集中式存儲需要的管理和維護非常困難,分布式存儲模型是大勢所趨。在這其中,Fusion-io提供了PCIe快閃記憶體卡、全快閃記憶體陣列以及SDK工具,支持提升各種應用的性能。 Christine M Rice女士指出,SSD不只是讓數據變快。她認為,通過SSD在數據中心的使用,能夠幫助節約成本,降低延遲,加快訪問數據的速度,同時還能夠提供非常高的可靠性和管理級別,結合了DRM的使用進行軟體分層管理。 戴爾亞太存儲技術總監許良謀則強調了SSD的利用要在成本和性能之間的平衡,如何更好地應對大數據——快閃記憶體的成本和壽命讓很多企業對它愛恨交加。許良謀認為,大數據需要一個高容量高速度的共享存儲,戴爾的流動數據架構就是一個讓數據平滑遷移的平台。 戴爾實現了一個新的技術突破,即快速SLC和eMLC大容量盤可以用到流動架構裡面,再加上普通的大容量盤,兩級固態盤優化和流動數據架構的配合,這種方案可以比普通純快閃記憶體的方式實現75%以上的成本節約。 許良謀介紹到,戴爾一直通過收購、合作等方式,在自身產品線中不斷引入新的存儲技術,力圖把最好的存儲產品以最經濟的方式提供給用戶。
㈦ 大數據的數據的存儲方式是什麼
大數據有效存儲和管理大數據的三種方式:
1. 不斷加密
任何類型的數據對於任何一個企業來說都是至關重要的,而且通常被認為是私有的,並且在他們自己掌控的范圍內是安全的。然而,黑客攻擊經常被覆蓋在業務故障中,最新的網路攻擊活動在新聞報道不斷充斥。因此,許多公司感到很難感到安全,尤其是當一些行業巨頭經常成為攻擊目標時。
隨著企業為保護資產全面開展工作,加密技術成為打擊網路威脅的可行途徑。將所有內容轉換為代碼,使用加密信息,只有收件人可以解碼。如果沒有其他的要求,則加密保護數據傳輸,增強在數字傳輸中有效地到達正確人群的機會。
2. 倉庫存儲
大數據似乎難以管理,就像一個永無休止統計數據的復雜的漩渦。因此,將信息精簡到單一的公司位置似乎是明智的,這是一個倉庫,其中所有的數據和伺服器都可以被充分地規劃指定。然而,有些報告指出了反對這種方法的論據,指出即使是最大的存儲中心,大數據的指數增長也不再能維持。
然而,在某些情況下,企業可能會租用一個倉庫來存儲大量數據,在大數據超出的情況下,這是一個臨時的解決方案,而LCP屬性提供了一些很好的機會。畢竟,企業不會立即被大量的數據所淹沒,因此,為物理機器租用倉庫至少在短期內是可行的。這是一個簡單有效的解決方案,但並不是永久的成本承諾。
3. 備份服務 - 雲端
當然,不可否認的是,大數據管理和存儲正在迅速脫離物理機器的范疇,並迅速進入數字領域。除了所有技術的發展,大數據增長得更快,以這樣的速度,世界上所有的機器和倉庫都無法完全容納它。
因此,由於雲存儲服務推動了數字化轉型,雲計算的應用越來越繁榮。數據在一個位置不再受到風險控制,並隨時隨地可以訪問,大型雲計算公司(如谷歌雲)將會更多地訪問基本統計信息。數據可以在這些服務上進行備份,這意味著一次網路攻擊不會消除多年的業務增長和發展。最終,如果出現網路攻擊,雲端將以A遷移到B的方式提供獨一無二的服務。
㈧ 傳統大數據存儲的架構有哪些各有什麼特點
數據時代,移動互聯、社交網路、數據分析、雲服務等應用的迅速普及,對數據中心提出革命性的需求,存儲基礎架構已經成為IT核心之一。政府、軍隊軍工、科研院所、航空航天、大型商業連鎖、醫療、金融、新媒體、廣電等各個領域新興應用層出不窮。數據的價值日益凸顯,數據已經成為不可或缺的資產。作為數據載體和驅動力量,存儲系統成為大數據基礎架構中最為關鍵的核心。
傳統的數據中心無論是在性能、效率,還是在投資收益、安全,已經遠遠不能滿足新興應用的需求,數據中心業務急需新型大數據處理中心來支撐。除了傳統的高可靠、高冗餘、綠色節能之外,新型的大數據中心還需具備虛擬化、模塊化、彈性擴展、自動化等一系列特徵,才能滿足具備大數據特徵的應用需求。這些史無前例的需求,讓存儲系統的架構和功能都發生了前所未有的變化。
基於大數據應用需求,「應用定義存儲」概念被提出。存儲系統作為數據中心最核心的數據基礎,不再僅是傳統分散的、單一的底層設備。除了要具備高性能、高安全、高可靠等特徵之外,還要有虛擬化、並行分布、自動分層、彈性擴展、異構資源整合、全局緩存加速等多方面的特點,才能滿足具備大數據特徵的業務應用需求。
尤其在雲安防概念被熱炒的時代,隨著高清技術的普及,720P、1080P隨處可見,智能和高清的雙向需求、動輒500W、800W甚至上千萬更高解析度的攝像機面市,大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。
目前市場上的存儲架構如下:
(1)基於嵌入式架構的存儲系統
節點NVR架構主要面向小型高清監控系統,高清前端數量一般在幾十路以內。系統建設中沒有大型的存儲監控中心機房,存儲容量相對較小,用戶體驗度、系統功能集成度要求較高。在市場應用層面,超市、店鋪、小型企業、政法行業中基本管理單元等應用較為廣泛。
(2)基於X86架構的存儲系統
平台SAN架構主要面向中大型高清監控系統,前端路數成百上千甚至上萬。一般多採用IPSAN或FCSAN搭建高清視頻存儲系統。作為監控平台的重要組成部分,前端監控數據通過錄像存儲管理模塊存儲到SAN中。
此種架構接入高清前端路數相對節點NVR有了較高提升,具備快捷便利的可擴展性,技術成熟。對於IPSAN而言,雖然在ISCSI環節數據並發讀寫傳輸速率有所消耗,但其憑借擴展性良好、硬體平台通用、海量數據可充分共享等優點,仍然得到很多客戶的青睞。FCSAN在行業用戶、封閉存儲系統中應用較多,比如縣級或地級市高清監控項目,大數據量的並發讀寫對千兆網路交換提出了較大的挑戰,但應用FCSAN構建相對獨立的存儲子系統,可以有效解決上述問題。
面對視頻監控系統大文件、隨機讀寫的特點,平台SAN架構系統不同存儲單元之間的數據共享冗餘方面還有待提高;從高性能伺服器轉發視頻數據到存儲空間的策略,從系統架構而言也增加了隱患故障點、ISCSI帶寬瓶頸導致無法充分利用硬體數據並發性能、接入前端數據較少。上述問題催生了平台NVR架構解決方案。
該方案在系統架構上省去了存儲伺服器,消除了上文提到的性能瓶頸和單點故障隱患。大幅度提高存儲系統的寫入和檢索速度;同時也徹底消除了傳統文件系統由於供電和網路的不穩定帶來的文件系統損壞等問題。
平台NVR中存儲的數據可同時供多個客戶端隨時查詢,點播,當用戶需要查看多個已保存的視頻監控數據時,可通過授權的視頻監控客戶端直接查詢並點播相應位置的視頻監控數據進行歷史圖像的查看。由於數據管理伺服器具有監控系統所有監控點的錄像文件的索引,因此通過平台CMS授權,視頻監控客戶端可以查詢並點播整個監控系統上所有監控點的數據,這個過程對用戶而言也是透明的。
(3)基於雲技術的存儲方案
當前,安防行業可謂「雲」山「物」罩。隨著視頻監控的高清化和網路化,存儲和管理的視頻數據量已有海量之勢,雲存儲技術是突破IP高清監控存儲瓶頸的重要手段。雲存儲作為一種服務,在未來安防監控行業有著可觀的應用前景。
與傳統存儲設備不同,雲存儲不僅是一個硬體,而是一個由網路設備、存儲設備、伺服器、軟體、接入網路、用戶訪問介面以及客戶端程序等多個部分構成的復雜系統。該系統以存儲設備為核心,通過應用層軟體對外提供數據存儲和業務服務。
一般分為存儲層、基礎管理層、應用介面層以及訪問層。存儲層是雲存儲系統的基礎,由存儲設備(滿足FC協議、iSCSI協議、NAS協議等)構成。基礎管理層是雲存儲系統的核心,其擔負著存儲設備間協同工作,數據加密,分發以及容災備份等工作。應用介面層是系統中根據用戶需求來開發的部分,根據不同的業務類型,可以開發出不同的應用服務介面。訪問層指授權用戶通過應用介面來登錄、享受雲服務。其主要優勢在於:硬體冗餘、節能環保、系統升級不會影響存儲服務、海量並行擴容、強大的負載均衡功能、統一管理、統一向外提供服務,管理效率高,雲存儲系統從系統架構、文件結構、高速緩存等方面入手,針對監控應用進行了優化設計。數據傳輸可採用流方式,底層採用突破傳統文件系統限制的流媒體數據結構,大幅提高了系統性能。
高清監控存儲是一種大碼流多並發寫為主的存儲應用,對性能、並發性和穩定性等方面有很高的要求。該存儲解決方案採用獨特的大緩存順序化演算法,把多路隨機並發訪問變為順序訪問,解決了硬碟磁頭因頻繁尋道而導致的性能迅速下降和硬碟壽命縮短的問題。
針對系統中會產生PB級海量監控數據,存儲設備的數量達數十台上百台,因此管理方式的科學高效顯得十分重要。雲存儲可提供基於集群管理技術的多設備集中管理工具,具有設備集中監控、集群管理、系統軟硬體運行狀態的監控、主動報警,圖像化系統檢測等功能。在海量視頻存儲檢索應用中,檢索性能尤為重要。傳統文件系統中,文件檢索採用的是「目錄-》子目錄-》文件-》定位」的檢索步驟,在海量數據的高清視頻監控,目錄和文件數量十分可觀,這種檢索模式的效率就會大打折扣。採用序號文件定位可以有效解決該問題。
雲存儲可以提供非常高的的系統冗餘和安全性。當在線存儲系統出現故障後,熱備機可以立即接替服務,當故障恢復時,服務和數據回遷;若故障機數據需要調用,可以將故障機的磁碟插入到冷備機中,實現所有數據的立即可用。
對於高清監控系統,隨著監控前端的增加和存儲時間的延長,擴展能力十分重要。市場中已有友商可提供單純針對容量的擴展櫃擴展模式和性能容量同步線性擴展的堆疊擴展模式。
雲存儲系統除上述優點之外,在平台對接整合、業務流程梳理、視頻數據智能分析深度挖掘及成本方面都將面臨挑戰。承建大型系統、構建雲存儲的商業模式也亟待創新。受限於寬頻網路、web2.0技術、應用存儲技術、文件系統、P2P、數據壓縮、CDN技術、虛擬化技術等的發展,未來雲存儲還有很長的路要走。