導航:首頁 > 數據分析 > 儲存海量數據存在哪裡

儲存海量數據存在哪裡

發布時間:2024-04-02 01:56:26

A. 銀行海量交易數據是怎麼存儲的

一般來說,銀行的數據都是結構化的、持久性存儲的(非結構化的數據一般指電子影像,如客戶辦理業務的回單掃描圖片等),以資料庫以及文件方式存儲為主。按照交易數據性質,我們可以分為「原始流水數據」和「加工後數據」兩種。「原始流水數據」一般最開始生成於交易處理的應用程序(這些應用可以理解為前線部隊)處理交易的過程,幾乎記錄了交易的所有內容:交易日期、交易時間、卡號、賬號、地區號、網點號、地點、終端號、櫃員編號、交易憑證(如Transaction Certification)、交易渠道等等等等亂七八糟你想得到想不到的欄位。曾經見過一張表,多達數百個欄位,一條記錄長度多達數千位元組。這類數據的特點是,信息全面,佔用空間大。「加工後數據」產生於「原始流水數據」,一般情況下,「前線部隊」會把「原始流水數據」提供給其他應用程序(可以理解為後勤部隊),「後勤部隊」會根據自身應用的需求將數據進行裁剪而不是照單全收。簡單舉個例子,假設用戶拿到的信用卡對賬單是由一個叫做「客戶賬單」(Customer Statement,下面簡稱CS)的應用生成。CS會根據業界的標准從交易流水中獲取僅需的數據,比如交易日期,商戶名稱、卡號、交易幣種、交易金額等。其他並不需要的數據就會被舍棄,這樣也就保證了數據存儲的經濟性。

B. 海量空間數據存儲

(一)空間數據存儲技術

隨著地理信息系統的發展,空間資料庫技術也得到了很大的發展,並出現了很多新的空間資料庫技術(黃釗等,2003),其中應用最廣的就是用關系資料庫管理系統(RDBMS)來管理空間數據。

用關系資料庫管理系統來管理空間數據,主要解決存儲在關系資料庫中的空間數據與應用程序之間的數據介面問題,即空間資料庫引擎(SpatialDatabase Engine)(熊麗華等,2004)。更確切地說,空間資料庫技術是解決空間數據對象中幾何屬性在關系資料庫中的存取問題,其主要任務是:

(1)用關系資料庫存儲管理空間數據;

(2)從資料庫中讀取空間數據,並轉換為GIS應用程序能夠接收和使用的格式;

(3)將GIS應用程序中的空間數據導入資料庫,交給關系資料庫管理。

空間資料庫中數據存儲主要有三種模式:拓撲關系數據存儲模式、Oracle Spatial模式和ArcSDE模式。拓撲關系數據存儲模式將空間數據存在文件中,而將屬性數據存在資料庫系統中,二者以一個關鍵字相連。這樣分離存儲的方式由於存在數據的管理和維護困難、數據訪問速度慢、多用戶數據並發共享沖突等問題而不適用於大型空間資料庫的建設。而OracleSpatial實際上只是在原來的資料庫模型上進行了空間數據模型的擴展,實現的是「點、線、面」等簡單要素的存儲和檢索,所以它並不能存儲數據之間復雜的拓撲關系,也不能建立一個空間幾何網路。ArcSDE解決了這些問題,並利用空間索引機制來提高查詢速度,利用長事務和版本機制來實現多用戶同時操縱同一類型數據,利用特殊的表結構來實現空間數據和屬性數據的無縫集成等(熊麗華等,2004)。

ArcSDE是ESRI公司開發的一個中間件產品,所謂中間件是一個軟體,它允許應用元素通過網路連接進行互操作,屏蔽其下的通訊協議、系統結構、操作系統、資料庫和其他應用服務。中間件位於客戶機/伺服器的操作系統之上,管理計算資源和網路通訊,並營造出一個相對穩定的高層應用環境,使開發人員可以集中精力於系統的上層開發,而不用過多考慮系統分布式環境下的移植性和通訊能力。因此,中間件能無縫地連入應用開發環境中,應用程序可以很容易地定位和共享中間件提供的應用邏輯和數據,易於系統集成。在分布式的網路環境下,客戶端的應用程序如果要訪問網路上某個伺服器的信息,而伺服器可能運行在不同於客戶端的操作系統和資料庫系統中。此時,客戶機的應用程序中負責尋找數據的部分只需要訪問一個數據訪問中間件,由該中間件完成網路中數據或服務的查找,然後將查找的信息返回給客戶端(萬定生等,2003)。因此,本系統實現空間資料庫存儲的基本思想就是利用ArcSDE實現各類空間數據的存儲。

目前,空間數據存儲技術已比較成熟,出現了許多類似ArcSDE功能的中間件產品,這些軟體基本上都能實現空間數據的資料庫存儲與管理,但對於海量空間數據的存儲,各種軟體性能差別較大。隨著數據量的增長,計算機在分析處理上會產生很多問題,比如數據不可能一次完全被讀入計算機的內存中進行處理。單純依賴於硬體技術,並不能滿足持續增長的數據的處理要求。因此需要在軟體上找到處理海量數據的策略,並最終通過軟硬體的結合完成對海量數據的處理。在海量數據存儲問題上,許多專家從不同側面進行過研究,Lindstrom在地形簡化中使用了外存模型(Out-of-core)技術;鍾正採用了基於數據分塊、動態調用的策略;汪國平等人在研究使用高速網路進行三維海量地形數據的實時交互瀏覽中,採用了分塊、多解析度模板建立模型等方法。這些技術、方法已經在各自系統上進行了研究和實現。本系統採用的ArcSDE軟體基本上也是採用分塊模型的方法,具體存儲和操作不需要用戶過多了解,已經由ArcSDE軟體實現。因此,對海量數據的存儲管理,更需要從數據的組織方式等方面進行設計。塔里木河流域生態環境動態監測系統採集了大量的遙感影像、正射影像等柵格結構的數據,這些數據具有很大的數據量,為適應流域空間基礎設施的管理需要,採取一種新的方式來管理、分發這些海量數據以適應各部門的快速瀏覽和管理需要。

(二)影像金字塔結構

影像資料庫的組織是影像資料庫效率的關鍵,為了獲得高效率的存取速度,在數據的組織上使用了金字塔數據結構和網格分塊數據結構。該技術主導思想如下:

(1)將資料庫中使用到的紋理處理成為大小一致的紋理塊;

(2)為每塊紋理生成5個細節等級的紋理,分別為0、1、2、3、4,其中1級紋理通過0級紋理1/4壓縮得到,2級紋理通過1級紋理1/4壓縮得到,…,以此類推;

(3)在顯示每個塊數據之前,根據顯示比例的大小,並以此決定該使用那一級的紋理;

(4)在內存中建立紋理緩沖池,使用LRU演算法進行紋理塊的調度,確保使用頻率高的紋理調度次數盡可能少。

(三)影像數據壓縮

影像數據壓縮有無損壓縮和有損壓縮兩個方法,具體採取哪種壓縮方法需根據具體情況確定。對於像元值很重要的數據,如分類數據、分析數據等採用無損壓縮(即LZ77演算法),否則採用有損壓縮(即JPEG演算法)。通過對影像數據的壓縮,一方面可以節約存儲空間,另一方面可以加快影像的讀取和顯示速度。影像數據的壓縮一般與構建金字塔同時進行,在構建影像金字塔過程中自動完成數據的壓縮。

C. 大數據的存儲

⼤數據的存儲⽅式是結構化、半結構化和⾮結構化海量數據的存儲和管理,輕型資料庫⽆法滿⾜對其存儲以及復雜的數據挖掘和分析操作,通常使⽤分布式⽂件系統、No SQL 資料庫、雲資料庫等。

結構化、半結構化和⾮結構化海量數據的存儲和管理,輕型資料庫⽆法滿⾜對其存儲以及復雜的數據挖掘和分析操作,通常使⽤分布式⽂件系統、No SQL 資料庫、雲資料庫等。

1 分布式系統:分布式系統包含多個⾃主的處理單元,通過計算機⽹絡互連來協作完成分配的任務,其分⽽治之的策略能夠更好的處理⼤規模數據分析問題。

主要包含以下兩類:

1)分布式⽂件系統:存儲管理需要多種技術的協同⼯作,其中⽂件系統為其提供最底層存儲能⼒的⽀持。分布式⽂件系統 HDFS 是⼀個⾼度容錯性系統,被設計成適⽤於批量處理,能夠提供⾼吞吐量的的數據訪問。

2)分布式鍵值系統:分布式鍵值系統⽤於存儲關系簡單的半結構化數據。典型的分布式鍵值系統有 Amazon Dynamo,以及獲得⼴泛應⽤和關注的對象存儲技術(Object Storage)也可以視為鍵值系統,其存儲和管理的是對象⽽不是數據塊。

2 Nosql 資料庫:關系資料庫已經⽆法滿⾜ Web2.0 的需求。主要表現為:⽆法滿⾜海量數據的管理需求、⽆法滿⾜數據⾼並發的需求、⾼可擴展性和⾼可⽤性的功能太低。No SQL 資料庫的優勢:可以⽀持超⼤規模數據存儲,靈活的數據模型可以很好地⽀持 Web2.0 應⽤,具有強⼤的橫向擴展能⼒等,典型的 No SQL 資料庫包含以下⼏種:

3 雲資料庫:雲資料庫是基於雲計算技術發展的⼀種共享基礎架構的⽅法,是部署和虛擬化在雲計算環境中的資料庫。

D. 雲計算數據儲存在哪裡

雲儲存存在雲計算系統中的存儲設備中。
雲存儲是在雲計算(cloud computing)概念上延伸和發展出來的一個新的概念,是一種新興的網路存儲技術,是指通過集群應用、網路技術或分布式文件系統等功能,將網路中大量各種不同類型的存儲設備通過應用軟體集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。當雲計算系統運算和處理的核心是大量數據的存儲和管理時,雲計算系統中就需要配置大量的存儲設備,那麼雲計算系統就轉變成為一個雲存儲系統,所以雲存儲是一個以數據存儲和管理為核心的雲計算系統。簡單來說,雲存儲就是將儲存資源放到雲上供人存取的一種新興方案。使用者可以在任何時間、任何地方,透過任何可連網的裝置連接到雲上方便地存取數據。

E. 自動駕駛背後的海量數據,最後都去哪了

以一輛信息採集車為例在路測過程中每1秒就會產生720MB的數據大概需要完成2000個小時的路況採集工作量數據量之大超乎想像除自動駕駛外,5G、衛星遙感、基因測序、宇宙探索、超高清視頻這些都在源源不斷地產生新的海量數據,數據類型越來越多樣化,非結構化數據成為增長主力。我們把存儲設備比喻成車、數據比喻成貨物。

FusionStorage智能分布式存儲,基於AI重定義存儲架構,致力於打造海量多樣性的數據底座,幫助用戶從容應對數據洪流。有了它,後續無論客戶的業務如何增長、容量如何擴充,無論是數百個節點還是數千個節點,都沒有擴容壓力,按需擴展、彈性可變。

閱讀全文

與儲存海量數據存在哪裡相關的資料

熱點內容
c獲取路徑下所有文件 瀏覽:478
win10列印機離線 瀏覽:503
cgetfiles過濾文件 瀏覽:325
linux修改swap 瀏覽:900
word文檔如何設置上下頁邊距 瀏覽:764
變聲專家安卓版 瀏覽:77
學什麼專業以後可以編程 瀏覽:965
雲盤下載文件怎麼移到U盤 瀏覽:434
為什麼數據打游戲經常460 瀏覽:374
有什麼陪玩app 瀏覽:928
如何編程人物移動 瀏覽:43
vector代碼實現 瀏覽:392
servu管理員密碼 瀏覽:9
js中修改class屬性的值 瀏覽:678
蘋果設備鎖怎麼解除 瀏覽:253
linux添加文件夾許可權 瀏覽:329
怎麼快速打開文件路徑 瀏覽:74
u盤文件夾為空win10 瀏覽:980
jsp網上購物系統源碼 瀏覽:135
微信色子表情啥意思 瀏覽:414

友情鏈接