導航:首頁 > 數據分析 > 如何存儲海量數據

如何存儲海量數據

發布時間:2023-03-06 13:09:20

1. 海量空間數據存儲

(一)空間數據存儲技術

隨著地理信息系統的發展,空間資料庫技術也得到了很大的發展,並出現了很多新的空間資料庫技術(黃釗等,2003),其中應用最廣的就是用關系資料庫管理系統(RDBMS)來管理空間數據。

用關系資料庫管理系統來管理空間數據,主要解決存儲在關系資料庫中的空間數據與應用程序之間的數據介面問題,即空間資料庫引擎(SpatialDatabase Engine)(熊麗華等,2004)。更確切地說,空間資料庫技術是解決空間數據對象中幾何屬性在關系資料庫中的存取問題,其主要任務是:

(1)用關系資料庫存儲管理空間數據;

(2)從資料庫中讀取空間數據,並轉換為GIS應用程序能夠接收和使用的格式;

(3)將GIS應用程序中的空間數據導入資料庫,交給關系資料庫管理。

空間資料庫中數據存儲主要有三種模式:拓撲關系數據存儲模式、Oracle Spatial模式和ArcSDE模式。拓撲關系數據存儲模式將空間數據存在文件中,而將屬性數據存在資料庫系統中,二者以一個關鍵字相連。這樣分離存儲的方式由於存在數據的管理和維護困難、數據訪問速度慢、多用戶數據並發共享沖突等問題而不適用於大型空間資料庫的建設。而OracleSpatial實際上只是在原來的資料庫模型上進行了空間數據模型的擴展,實現的是「點、線、面」等簡單要素的存儲和檢索,所以它並不能存儲數據之間復雜的拓撲關系,也不能建立一個空間幾何網路。ArcSDE解決了這些問題,並利用空間索引機制來提高查詢速度,利用長事務和版本機制來實現多用戶同時操縱同一類型數據,利用特殊的表結構來實現空間數據和屬性數據的無縫集成等(熊麗華等,2004)。

ArcSDE是ESRI公司開發的一個中間件產品,所謂中間件是一個軟體,它允許應用元素通過網路連接進行互操作,屏蔽其下的通訊協議、系統結構、操作系統、資料庫和其他應用服務。中間件位於客戶機/伺服器的操作系統之上,管理計算資源和網路通訊,並營造出一個相對穩定的高層應用環境,使開發人員可以集中精力於系統的上層開發,而不用過多考慮系統分布式環境下的移植性和通訊能力。因此,中間件能無縫地連入應用開發環境中,應用程序可以很容易地定位和共享中間件提供的應用邏輯和數據,易於系統集成。在分布式的網路環境下,客戶端的應用程序如果要訪問網路上某個伺服器的信息,而伺服器可能運行在不同於客戶端的操作系統和資料庫系統中。此時,客戶機的應用程序中負責尋找數據的部分只需要訪問一個數據訪問中間件,由該中間件完成網路中數據或服務的查找,然後將查找的信息返回給客戶端(萬定生等,2003)。因此,本系統實現空間資料庫存儲的基本思想就是利用ArcSDE實現各類空間數據的存儲。

目前,空間數據存儲技術已比較成熟,出現了許多類似ArcSDE功能的中間件產品,這些軟體基本上都能實現空間數據的資料庫存儲與管理,但對於海量空間數據的存儲,各種軟體性能差別較大。隨著數據量的增長,計算機在分析處理上會產生很多問題,比如數據不可能一次完全被讀入計算機的內存中進行處理。單純依賴於硬體技術,並不能滿足持續增長的數據的處理要求。因此需要在軟體上找到處理海量數據的策略,並最終通過軟硬體的結合完成對海量數據的處理。在海量數據存儲問題上,許多專家從不同側面進行過研究,Lindstrom在地形簡化中使用了外存模型(Out-of-core)技術;鍾正採用了基於數據分塊、動態調用的策略;汪國平等人在研究使用高速網路進行三維海量地形數據的實時交互瀏覽中,採用了分塊、多解析度模板建立模型等方法。這些技術、方法已經在各自系統上進行了研究和實現。本系統採用的ArcSDE軟體基本上也是採用分塊模型的方法,具體存儲和操作不需要用戶過多了解,已經由ArcSDE軟體實現。因此,對海量數據的存儲管理,更需要從數據的組織方式等方面進行設計。塔里木河流域生態環境動態監測系統採集了大量的遙感影像、正射影像等柵格結構的數據,這些數據具有很大的數據量,為適應流域空間基礎設施的管理需要,採取一種新的方式來管理、分發這些海量數據以適應各部門的快速瀏覽和管理需要。

(二)影像金字塔結構

影像資料庫的組織是影像資料庫效率的關鍵,為了獲得高效率的存取速度,在數據的組織上使用了金字塔數據結構和網格分塊數據結構。該技術主導思想如下:

(1)將資料庫中使用到的紋理處理成為大小一致的紋理塊;

(2)為每塊紋理生成5個細節等級的紋理,分別為0、1、2、3、4,其中1級紋理通過0級紋理1/4壓縮得到,2級紋理通過1級紋理1/4壓縮得到,…,以此類推;

(3)在顯示每個塊數據之前,根據顯示比例的大小,並以此決定該使用那一級的紋理;

(4)在內存中建立紋理緩沖池,使用LRU演算法進行紋理塊的調度,確保使用頻率高的紋理調度次數盡可能少。

(三)影像數據壓縮

影像數據壓縮有無損壓縮和有損壓縮兩個方法,具體採取哪種壓縮方法需根據具體情況確定。對於像元值很重要的數據,如分類數據、分析數據等採用無損壓縮(即LZ77演算法),否則採用有損壓縮(即JPEG演算法)。通過對影像數據的壓縮,一方面可以節約存儲空間,另一方面可以加快影像的讀取和顯示速度。影像數據的壓縮一般與構建金字塔同時進行,在構建影像金字塔過程中自動完成數據的壓縮。

2. 海量數據存儲有哪些方式與方法

從數據存儲的模式來看,海量存儲技術可以分為DAS(Direct Attached Storage,直接附加存儲)和網路存專儲兩種,其中網路存儲又可以分為NAS(Network Attached storage,網屬絡附加存儲)和SAN(Storage Area Net、Work,存儲區域網路)。
從數據存儲系統的組成上看,無論是DAS、NAS還是SAN,其存儲系統都可以分為三個部分:首先是磁碟陣列,它是存儲系統的基礎,是完成數據存儲的基本保證;其次是連接和網路子系統,通過它們實現了一個或多個磁碟陣列與伺服器之間的連接;最後是存儲管理軟體,在系統和應用級上,實現多個伺服器共享、防災等存儲管理任務。
如果需要更多資料可以追問

3.  海量數據存儲與管理

正如上述,在國土資源遙感綜合調查信息中,既包含有多源、多時相、多尺度、多解析度、多類型的遙感圖像數據和基礎地理數據,也包括在項目開展過程中衍生的許多觀測和分析資料,數據量十分龐大。因此,根據數據共享的要求,在數據生產、管理、應用服務以及更新和維護過程中,如何組織和管理好這些海量數據,如何快速、全面有效地訪問和獲得所需數據,成為面臨的突出問題。在這里,採用何種方式利用現有的大型商業化關系資料庫系統高效地存儲與管理這些數據,成為能否發揮系統最大性能的關鍵所在。

傳統的GIS系統對空間數據(與空間位置、空間關系有關的數據)的存儲與管理大多採用這些商業軟體特定的文件方式,如:ArcInfo的Coverage、MapInfo的Tab、MAPGIS的WL等。如果數據量越多,這些文件就會越大,數據的處理就會越復雜,其存儲、檢索、管理也就越困難,而且其最大的缺點還在於不能進行多用戶並發操作。由此可見,用以往傳統的存儲機制去管理像遙感綜合調查這樣的海量數據,顯然難以滿足要求。而近年來發展起來的空間資料庫引擎技術則是解決海量數據存儲管理的途徑之一。

本系統建設過程中,採用了空間資料庫引擎ArcSDE+大型關系資料庫Oracle組合技術,較理想地實現了遙感綜合調查海量數據的存儲、檢索、查詢、處理。眾所周知,Oracle提供了大型資料庫環境,能夠很好地處理海量數據,而ArcSDE可將具有地理特徵的空間數據和非空間數據統一載入到Oracle中去,因此,通過ArcSDE空間資料庫引擎,可將Oracle海量數據管理功能載入到GIS系統中,並可利用Oracle的強大管理機制進行高效率的事務處理、記錄鎖定、並發控制等服務操作。

4. 海量數據存儲

存儲技術經歷了單個磁碟、磁帶、RAID到網路存儲系統的發展歷程。網路存儲技術就是將網路技術和I/O技術集成起來,利用網路的定址能力、即插即用的連接性、靈活性,存儲的高性能和高效率,提供基於網路的數據存儲和共享服務。在超大數據量的存儲管理、擴展性方面具有明顯的優勢。

典型的網路存儲技術有網路附加存儲NAS(Network Attached Storage)和存儲區域網SAN(Storage Area Networks)兩種。

1)NAS技術是網路技術在存儲領域的延伸和發展。它直接將存儲設備掛在網上,有良好的共享性、開放性。缺點是與LAN共同用物理網路,易形成擁塞,而影響性能。特別是在數據備份時,性能較低,影響在企業存儲應用中的地位。

2)SAN技術是以數據存儲為中心,使用光纖通道連接高速網路存儲的體系結構。即將數據存儲作為網路上的一個區域獨立出來。在高度的設備和數據共享基礎上,減輕網路和伺服器的負擔。因光纖通道的存儲網和LAN分開,使性能得到很大的提高,而且還提供了很高的可靠性和強大的連續業務處理能力。在SAN中系統的擴展、數據遷移、數據本地備份、遠程數據容災數據備份和數據管理等都比較方便,整個SAN成為一個統一管理的存儲池(Storage Pool)。SAN存儲設備之間通過專用通道進行通信,不佔用伺服器的資源。因此非常適合超大量數據的存儲,成為網路存儲的主流。

3)存儲虛擬化技術是將系統中各種異構的存儲設備映射為一個單一的存儲資源,對用戶完全透明,達到互操作性的目的和利用已有的硬體資源,把SAN內部的各種異構的存儲資源統一成一個單一視圖的存儲池,可根據用戶的需要方便地切割、分配。從而保持已有的投資,減少總體成本,提高存儲效率。

存儲虛擬化包括3個層次結構:基於伺服器的虛擬化存儲、基於存儲設備的虛擬化存儲和基於網路的虛擬化存儲。

1)基於伺服器的虛擬化存儲由邏輯管理軟體在主機/伺服器上完成。經過虛擬化的存儲空間可跨越多個異構的磁碟陣列,具有高度的穩定性和開放性,實現容易、簡便。但對異構環境和分散管理不太適應。

2)基於存儲設備的虛擬化存儲,因一些高端磁碟陣列本身具有智能化管理,可以實現同一陣列,供不同主機分享。其結構性能可達到最優。但實現起來價格昂貴,可操作性差。

3)基於網路的虛擬化存儲,通過使用專用的存儲管理伺服器和相應的虛擬化軟體,實現多個主機/伺服器對多個異構存儲設備之間進行訪問,達到不同主機和存儲之間真正的互連和共享,成為虛擬存儲的主要形式。根據不同結構可分為基於專用伺服器和基於存儲路由器兩種方式。①基於專用伺服器的虛擬化,是用一台伺服器專用於提供系統的虛擬化功能。根據網路拓撲結構和專用伺服器的具體功能,其虛擬化結構有對稱和非對稱兩種方式。在對稱結構中數據的傳輸與元數據訪問使用同一通路。實現簡單,對伺服器和存儲設備的影響小,對異構環境的適應性強。缺點是專用伺服器可能成為系統性能的瓶頸,影響SAN的擴展。在非對稱結構中,數據的傳輸與元數據訪問使用不同通路。應用伺服器的I/O命令先通過命令通路傳送到專用伺服器,獲取元數據和傳輸數據視圖後,再通過數據通路得到所需的數據。與對稱結構相比,提高了存儲系統的性能,增加了擴展能力。②基於存儲路由器的SAN虛擬化,存儲路由器是一種智能化設備,既具有路由器的功能,又針對I/O進行專門優化。它部署在存儲路由器上,多個存儲路由器保存著整個存儲系統中的元數據多個副本,並通過一定的更新策略保持一致性。這種結構中,因存儲路由器具有強大的協議功能,所以具有更多的優勢。能充分利用存儲資源,保護投資。能實現軟硬體隔離,並輔有大量的自動化工具,提高了虛擬伺服器的安全性,降低對技術人員的需求和成本。

5. 大數據的安全存儲採用什麼技術

基於雲計算架構的大數據,數據的存儲和操作都是以服務的形式提供。目前,大數據的安全存儲採用虛擬化海量存儲技術來存儲數據資源,涉及數據傳輸、隔離、恢復等問題。解決大數據的安全存儲,一是數據加密。在大數據安全服務的設計中,大數據可以按照數據安全存儲的需求,被存儲在數據集的任何存儲空間,通過SSL(SecureSocketsLayer,安全套接層協議層)加密,實現數據集的節點和應用程序之間移動保護大數據。在大數據的傳輸服務過程中,加密為數據流的上傳與下載提供有效的保護。應用隱私保護和外包數據計算,屏蔽網路攻擊。目前,PGP和TrueCrypt等程序都提供了強大的加密功能。二是分離密鑰和加密數據。使用加密把數據使用與數據保管分離,把密鑰與要保護的數據隔離開。同時,定義產生、存儲、備份、恢復等密鑰管理生命周期。三是使用過濾器。通過過濾器的監控,一旦發現數據離開了用戶的網路,就自動阻止數據的再次傳輸。四是數據備份。通過系統容災、敏感信息集中管控和數據管理等產品,實現端對端的數據保護,確保大數據損壞情況下有備無患和安全管控。
更多關於大數據的安全存儲採用什麼技術,進入:https://m.abcgonglue.com/ask/d6a03e1615838691.html?zd查看更多內容

6. 如何處理海量數據

在實際的工作環境下,許多人會遇到海量數據這個復雜而艱巨的問題,它的主要難點有以下幾個方面:
一、數據量過大,數據中什麼情況都可能存在。
如果說有10條數據,那麼大不了每條去逐一檢查,人為處理,如果有上百條數據,也可以考慮,如果數據上到千萬級別,甚至 過億,那不是手工能解決的了,必須通過工具或者程序進行處理,尤其海量的數據中,什麼情況都可能存在,例如,數據中某處格式出了問題,尤其在程序處理時, 前面還能正常處理,突然到了某個地方問題出現了,程序終止了。
二、軟硬體要求高,系統資源佔用率高。
對海量的數據進行處理,除了好的方法,最重要的就是合理使用工具,合理分配系統資源。一般情況,如果處理的數據過TB級,小型機是要考慮的,普通的機子如果有好的方法可以考慮,不過也必須加大CPU和內存,就象面對著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝的。
三、要求很高的處理方法和技巧。
這也是本文的寫作目的所在,好的處理方法是一位工程師長期工作經驗的積累,也是個人的經驗的總結。沒有通用的處理方法,但有通用的原理和規則。
下面我們來詳細介紹一下處理海量數據的經驗和技巧:
一、選用優秀的資料庫工具
現在的資料庫工具廠家比較多,對海量數據的處理對所使用的資料庫工具要求比較高,一般使用Oracle或者DB2,微軟 公司最近發布的SQL Server 2005性能也不錯。另外在BI領域:資料庫,數據倉庫,多維資料庫,數據挖掘等相關工具也要進行選擇,象好的ETL工具和好的OLAP工具都十分必要, 例如Informatic,Eassbase等。筆者在實際數據分析項目中,對每天6000萬條的日誌數據進行處理,使用SQL Server 2000需要花費6小時,而使用SQL Server 2005則只需要花費3小時。
二、編寫優良的程序代碼
處理數據離不開優秀的程序代碼,尤其在進行復雜數據處理時,必須使用程序。好的程序代碼對數據的處理至關重要,這不僅僅是數據處理准確度的問題,更是數據處理效率的問題。良好的程序代碼應該包含好的演算法,包含好的處理流程,包含好的效率,包含好的異常處理機制等。
三、對海量數據進行分區操作
對海量數據進行分區操作十分必要,例如針對按年份存取的數據,我們可以按年進行分區,不同的資料庫有不同的分區方式,不 過處理機制大體相同。例如SQL Server的資料庫分區是將不同的數據存於不同的文件組下,而不同的文件組存於不同的磁碟分區下,這樣將數據分散開,減小磁碟I/O,減小了系統負荷, 而且還可以將日誌,索引等放於不同的分區下。
四、建立廣泛的索引
對海量的數據處理,對大表建立索引是必行的,建立索引要考慮到具體情況,例如針對大表的分組、排序等欄位,都要建立相應 索引,一般還可以建立復合索引,對經常插入的表則建立索引時要小心,筆者在處理數據時,曾經在一個ETL流程中,當插入表時,首先刪除索引,然後插入完 畢,建立索引,並實施聚合操作,聚合完成後,再次插入前還是刪除索引,所以索引要用到好的時機,索引的填充因子和聚集、非聚集索引都要考慮。
五、建立緩存機制
當數據量增加時,一般的處理工具都要考慮到緩存問題。緩存大小設置的好差也關繫到數據處理的成敗,例如,筆者在處理2億條數據聚合操作時,緩存設置為100000條/Buffer,這對於這個級別的數據量是可行的。
六、加大虛擬內存
如果系統資源有限,內存提示不足,則可以靠增加虛擬內存來解決。筆者在實際項目中曾經遇到針對18億條的數據進行處理, 內存為1GB,1個P42.4G的CPU,對這么大的數據量進行聚合操作是有問題的,提示內存不足,那麼採用了加大虛擬內存的方法來解決,在6塊磁碟分區 上分別建立了6個4096M的磁碟分區,用於虛擬內存,這樣虛擬的內存則增加為 4096*6 + 1024 =25600 M,解決了數據處理中的內存不足問題。
七、分批處理
海量數據處理難因為數據量大,那麼解決海量數據處理難的問題其中一個技巧是減少數據量。可以對海量數據分批處理,然後處 理後的數據再進行合並操作,這樣逐個擊破,有利於小數據量的處理,不至於面對大數據量帶來的問題,不過這種方法也要因時因勢進行,如果不允許拆分數據,還 需要另想辦法。不過一般的數據按天、按月、按年等存儲的,都可以採用先分後合的方法,對數據進行分開處理。
八、使用臨時表和中間表
數據量增加時,處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成後,再利用一定的規則進行合 並,處理過程中的臨時表的使用和中間結果的保存都非常重要,如果對於超海量的數據,大表處理不了,只能拆分為多個小表。如果處理過程中需要多步匯總操作, 可按匯總步驟一步步來,不要一條語句完成,一口氣吃掉一個胖子。
九、優化查詢SQL語句
在對海量數據進行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的,編寫高效優良的SQL腳本和存儲 過程是資料庫工作人員的職責,也是檢驗資料庫工作人員水平的一個標准,在對SQL語句的編寫過程中,例如減少關聯,少用或不用游標,設計好高效的資料庫表 結構等都十分必要。筆者在工作中試著對1億行的數據使用游標,運行3個小時沒有出結果,這是一定要改用程序處理了。
十、使用文本格式進行處理
對一般的數據處理可以使用資料庫,如果對復雜的數據處理,必須藉助程序,那麼在程序操作資料庫和程序操作文本之間選擇, 是一定要選擇程序操作文本的,原因為:程序操作文本速度快;對文本進行處理不容易出錯;文本的存儲不受限制等。例如一般的海量的網路日誌都是文本格式或者 csv格式(文本格式),對它進行處理牽扯到數據清洗,是要利用程序進行處理的,而不建議導入資料庫再做清洗。
十一、定製強大的清洗規則和出錯處理機制
海量數據中存在著不一致性,極有可能出現某處的瑕疵。例如,同樣的數據中的時間欄位,有的可能為非標準的時間,出現的原因可能為應用程序的錯誤,系統的錯誤等,這是在進行數據處理時,必須制定強大的數據清洗規則和出錯處理機制。
十二、建立視圖或者物化視圖
視圖中的數據來源於基表,對海量數據的處理,可以將數據按一定的規則分散到各個基表中,查詢或處理過程中可以基於視圖進行,這樣分散了磁碟I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區別。
十三、避免使用32位機子(極端情況)
目前的計算機很多都是32位的,那麼編寫的程序對內存的需要便受限制,而很多的海量數據處理是必須大量消耗內存的,這便要求更好性能的機子,其中對位數的限制也十分重要。
十四、考慮操作系統問題
海量數據處理過程中,除了對資料庫,處理程序等要求比較高以外,對操作系統的要求也放到了重要的位置,一般是必須使用伺服器的,而且對系統的安全性和穩定性等要求也比較高。尤其對操作系統自身的緩存機制,臨時空間的處理等問題都需要綜合考慮。
十五、使用數據倉庫和多維資料庫存儲
數據量加大是一定要考慮OLAP的,傳統的報表可能5、6個小時出來結果,而基於Cube的查詢可能只需要幾分鍾,因此處理海量數據的利器是OLAP多維分析,即建立數據倉庫,建立多維數據集,基於多維數據集進行報表展現和數據挖掘等。
十六、使用采樣數據,進行數據挖掘
基於海量數據的數據挖掘正在逐步興起,面對著超海量的數據,一般的挖掘軟體或演算法往往採用數據抽樣的方式進行處理,這樣 的誤差不會很高,大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性和,防止過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣,抽取出 400萬行,經測試軟體測試處理的誤差為千分之五,客戶可以接受。
還有一些方法,需要在不同的情況和場合下運用,例如使用代理鍵等操作,這樣的好處是加快了聚合時間,因為對數值型的聚合比對字元型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數據是發展趨勢,對數據分析和挖掘也越來越重要,從海量數據中提取有用信息重要而緊迫,這便要求處理要准確,精度要高,而且處理時間要短,得到有價值信息要快,所以,對海量數據的研究很有前途,也很值得進行廣泛深入的研究。

7. 自動駕駛下的海量數據,業界如何安全高效存儲

近幾年來,各行業紛紛跨界加入造車行列,不說傳了多年要造車的國外手機巨頭、出資純電動汽車的科技互聯網大廠,國內的科技企業也在躍躍欲試,比如阿里巴巴、華為、網路、小米和滴滴出行。

除了這些高科技企業,還有小馬智行、文遠知行、AutoX、贏徹科技和主線科技等新興的自動駕駛初創企業;超星未來、奧特貝睿、宏景智駕等專注於私家車高階自動駕駛研發的新型一級供應商;以及純電動車起家的蔚來,小鵬,理想等造車新勢力,都紛紛加入汽車產業鏈,推動了汽車電動化和智能化的進程。

西部數據資深產品市場經理額日特

也正是這些新玩家的加入,使得傳統汽車產業鏈受到了前所未有的壓力,同時也推動了傳統汽車廠商加速新技術和新應用的落地。在西部數據資深產品市場經理額日特看來,隨著汽車智能網聯的不斷推進,汽車的電子電氣架構(E/E)也隨之變化,從最初的分布式架構向域融合和中央控制單元過渡。

輪子上的智能手機,對存儲架構提出更多要求

如今,不少人業內人士都認可汽車在向“輪子上的智能手機”演變,這個轉變,讓廠商開始將越來越多的攝像頭、雷達、激光雷達等感測器、電動機,甚至乙太網、人工智慧等技術都引入汽車。

額日特認為,更多感測器的引入,網聯技術、人工智慧技術的增加,以及汽車電子電氣架構的改變,對汽車內存儲產品的要求發生了很大的變化。

“在汽車存儲領域,單車存儲的 數量將會顯著降低,容量則會顯著提升 。”額日特在不久前廣州舉辦的Auto Tech 2021上演講時指出。

Counterpoint的報告也印證了這一點,該分析機構預計,未來十年內,汽車單車的存儲容量將會達到2TB左右。“目前車內存儲主要用在智能座艙和中控系統,且燃油車以32GB為主,電動汽車一般使用64GB,或128GB,相對於2TB來說,還有一個巨大的提升空間。”額日特表示。

他分析稱,為了應對汽車電動化、智能化、網聯化,及自動化方向的發展,存儲產品也面臨這很多挑戰,主要有四個比較重大的挑戰:

一是數據 的可靠性 和 安全性 ,這是存儲廠商所面臨最基本和最嚴苛的挑戰,也是相關法規及保險責任靠量的關鍵因素。因為對於自動駕駛來說,數據的可靠性和安全性意味著生命的安全。

存儲廠商在數據可靠性和安全性方面也做了不少工作,額日特拿e.MMC、UFS和SSD來說,存儲單元是由兩個部分組成的,一部分是存儲介質Raw NAND,另一部分是控制器和固件。

為了保證更好的TBW(Total Bytes Written),即產品生命周期里能承受的總寫入數據量,存儲廠商一般都會 通過控制器和固件對底層做一個讀寫均衡 。“TBW通俗地講就是耐擦寫,意思是NAND Flash是有壽命的,如果數據手冊里規定了NAND Flash的擦寫次數是3,000次,客戶就需要考量該TBW是否滿足自己的應用需求。”

還有一個是主機鎖定 ,即在汽車主機上焊上一個內存,加了主機鎖的內存放到另外一個主機上是沒有用的,因為它已經與原來的主機做了鎖定,這樣也可以確保數據的安全。

另外,防寫也是一個很重要的功能 ,比如汽車如果出事故了,有的用戶擔心數據會被汽車廠商篡改,“我們存儲廠商在與主機廠商、Tier 1企業一起共同努力,協商一個有效的協同保護機制,確保車輛在發生事故後,在警察沒有查看數據之前,沒有任何一家,包括內存廠商都無法篡改存儲器內的數據,以確保司法監管在調查的時候的公正性和嚴肅性。”額日特表示。

二是復雜的應用場景 ,隨著電子電氣架構向域及中央控制單元轉變,應用的融合對存儲的要求也變得更加復雜,不再是單一的讀或寫。比如導航是一個讀密集型操作,行車記錄儀是一個寫密集型操作。

特別是隨著電子電氣架構的改變,融合中央控制單元的使用,使得內存需要承受更加復雜的操作系統環境。比如高通的8155平台把智能座艙、數字儀表和中控融合到了一起,此時就需要使用Hypervisor,以允許多個操作系統和應用共享同一個硬體。 但實際上,現在的內存結構,只能做到邏輯分區,不能做到物理分區。

“舉一個簡單的例子,我們現在所使用的電腦有C盤、D盤、或者E盤,實際上C、D、E盤只是邏輯分區,底層的內存是沒有做到物理分區的,這些盤存儲的數據都是打散存儲在一塊內存里,不論是哪個盤壞掉,代表的就是整個內存檔都壞了。”額日特指出。

因此,這就會帶來一個問題,比如行車記錄儀是一個需要高擦寫支持的應用,如果把行車記錄儀也融合到智能座艙內的話,做起來很容易。但要是不做物理分區,由於行車記錄儀的高擦寫,可能整個內存很快就會壞掉。

為了適應這個改變,也為了數據的更加安全,“西部數據現在可以提供一種解決方案,那就是在底層做讀寫均衡的隔離,比如 一塊內存裡面,可以分別使用 TLC 和S LC 兩種N AND F lash ,由於SLC可以支持高擦寫,因此,SLC部分就可以作為行車記錄儀的存儲。”額日特表示。

三是海量數據存儲 ,為了適應自動駕駛的需求,越來越多的雷達和攝像頭被部署在汽車上,行車過程中會產生大量的數據。

特別是自動駕駛計程車的企業對數據的存儲容量需求是很大的,現在單車一天生成的數據量在8GB左右,但實際上,現在主流汽車的存儲容量在2GB到4GB之間。

額日特以西部數據與Waymo的合作為例,西部數據在Waymo自動駕駛計程車上安裝了10塊2TB的工業級SSD,也就是說Waymo的單車存儲容量要求是20TB。其實這也是大部分自動駕駛汽車的存儲需求。

四是高性能, 雷達和攝像頭會在行車過程中產生大量的數據,為了防止數據丟失,必然需要高性能、大帶寬存儲的支持。

其實存儲產品也在通過不停地創新來獲得更高的傳輸速率。在嵌入式存儲器方面,目前汽車領域使用的主流存儲產品是e.MMC,比e.MMC更快的是UFS產品,目前汽車領域主要採用的還是UFS2.1。實際上,消費類電子已經在大規模採用UFS3.0的產品了。額日特預計汽車級UFS3.1的產品,應該會在兩年內面市。

另外,在SSD方面,目前汽車領域的SSD主要還是採用SATA介面,未來帶寬更高、速度更快的NVMe介面的SSD產品也可能會在汽車上得到應用。使用SSD的好處就是容量可以做得更大,比如UFS介面能做到的最大容量可能是512GB,但SSD可以輕松做到4TB、8TB,甚至更大。

滿足汽車需求的解決方案

據額日特介紹,西部數據可以提供從端到雲的完整解決方案,以支持當前和未來的車輛系統要求,它為多樣的應用場景和數據中心,提供了小尺寸嵌入式終端存儲和可移動存儲,用於獲取和分析從車輛收集的大量數據。他特意強調,西部數據的汽車級快閃記憶體產品通過了IATF16949認證,符合AEC-Q100標准。

產品方面,有iNAND汽車級嵌入式存快閃記憶體檔(EFD),支持UFS和e.MMC介面,具有多種容量,採用11.5×13mm的小包裝,可為汽車OEM和一級供應商提供符合其需求的選擇。比如iNAND AT EU312 是一款基於 3D NAND 技術的汽車級UFS(通用快閃記憶體存儲),具有高數據傳輸速度的UFS 2.1介面和額外的UFS 3.0汽車功能,可提供最高256GB的容量,性能是前代基於e.MMC的產品的2.5倍。AT EU312利用第5代SmartSLC 技術,可提供高性能和可靠的寫入。

其e.MMC 嵌入式快閃記憶體檔基於e.MMC 5.1 標准,採用2D或3D NAND技術。具體產品有EM122已經獲得許多汽車設計的認證並投入生產,EM132在汽車市場中容量達到了256GB。

在PCIe SSD方面,有CL SN720和CL SN520等產品,採用了PCIe Gen3 NVMe介面,容量高達2TB,耐久性高達1600 TBW。

與合作夥伴的成功案例

在本次Auto Tech 2021展會上,西部數據不僅展示了自己家的汽車存儲解決方案,也帶來了合作夥伴的一些成功案例。

有為信息展示的“主動安全智能防控車載視頻終端K5-P”解決方案。

在車載監控方面,其合作夥伴有為信息展示了“主動安全只能防控車載視頻終端K5-P”解決方案,該解決方案支持ADAS、DSM只能監控,採用了記錄儀、視頻功能、主動安全功能一體化設計。同時支持硬碟(2.5” HDD)+ SD卡(西部數據WD Purple micro SD存儲卡),雙重存儲保證數據安全;且具有硬碟防震保護機制;此外,有為信息的專利的存儲介質保護裝置,可防止任意拆卸硬碟及插拔存儲卡。加上其獨特流媒體文件系統存儲方式,保證了數據安全不被篡改。

車載信息娛樂系統方面,其合作夥伴掌銳展示了“前裝車規模組”解決方案------CS199 MT8666AV模組,該模組基於聯發科 MT8666AV晶元封裝的前裝車規級帶4G通信模組,具有功能豐富,集成度高、尺寸小、低功耗、性能優、品質穩定的特點,可滿足汽車智能化、連網化的前裝需求,幫助客戶縮短項目開發周期,減少研發投入並降低品控風險。存儲方面,採用的是西部數據iNAND AT EM132產品,是汽車市場首個基於3D TLC NAND e.MMC介面產品,採用了標准BGA封裝,容量涵蓋了從32GB到256GB,具有快速啟動、自動刷新、增強型運行健康狀態監測,支持固件在線升級和100%預燒錄,有AEC-Q100溫度2級(-40°C 至105°C)和3級(-40°C至85°C)兩種選擇。

銥斯電子展示的智能駕駛輔助系統解決方案。

此外,西部數據現場還展示了採用iNAND AT EM122的智能駕艙、智能駕駛、以及車聯網等豐富的解決方案。

西部數據公司中國區嵌入式產品銷售部門銷售總監文芳女士

西部數據公司中國區嵌入式產品銷售部門銷售總監文芳表示:“車聯網、自動駕駛等新技術的商業化落地,對汽車新四化的發展起到了巨大的推動作用,同時也對車載存儲解決方案的安全性、可靠性、大容量、高性能以及復雜的場景應用提出了更嚴苛的要求。西部數據作為數據基礎架構的領導者,提供覆蓋8GB-18TB容量,包括e.MMC/UFS/micro SD/SSD/HDD等不同規格的車規級及企業級存儲產品,支持端-邊-雲新型數據架構在汽車領域的應用,滿足當前和未來單車智能及車路協同的多樣化需求。”

未來,西部數據將不斷突破創新,以卓越的產品及解決方案賦能汽車領域的改革與發展,為人們帶來更安全、優質的駕駛體驗。

結語

近年來,汽車行業正在經歷前所未有的變革,自動駕駛不斷發展,高清3D地圖、高級輔助駕駛系統(ADAS)、自主計算機、AI、大數據、增強型信息娛樂系統、無線更新、以及V2X技術等等逐步在汽車上得到普及,而這些功能都需要板載數據存儲,未來汽車的存儲需求將會越來越大,如何滿足汽車市場的特殊需求,是存儲企業必須要考慮的,抓住汽車市場,就意味著抓住了未來。

轉載自電子發燒友 @2019

8. 銀行海量交易數據是怎麼存儲的

一般來說,銀行的數據都是結構化的、持久性存儲的(非結構化的數據一般指電子影像,如客戶辦理業務的回單掃描圖片等),以資料庫以及文件方式存儲為主。按照交易數據性質,我們可以分為「原始流水數據」和「加工後數據」兩種。「原始流水數據」一般最開始生成於交易處理的應用程序(這些應用可以理解為前線部隊)處理交易的過程,幾乎記錄了交易的所有內容:交易日期、交易時間、卡號、賬號、地區號、網點號、地點、終端號、櫃員編號、交易憑證(如Transaction Certification)、交易渠道等等等等亂七八糟你想得到想不到的欄位。曾經見過一張表,多達數百個欄位,一條記錄長度多達數千位元組。這類數據的特點是,信息全面,佔用空間大。「加工後數據」產生於「原始流水數據」,一般情況下,「前線部隊」會把「原始流水數據」提供給其他應用程序(可以理解為後勤部隊),「後勤部隊」會根據自身應用的需求將數據進行裁剪而不是照單全收。簡單舉個例子,假設用戶拿到的信用卡對賬單是由一個叫做「客戶賬單」(Customer Statement,下面簡稱CS)的應用生成。CS會根據業界的標准從交易流水中獲取僅需的數據,比如交易日期,商戶名稱、卡號、交易幣種、交易金額等。其他並不需要的數據就會被舍棄,這樣也就保證了數據存儲的經濟性。

閱讀全文

與如何存儲海量數據相關的資料

熱點內容
桌面文件隨意移動 瀏覽:426
qq音樂在哪兒找到 瀏覽:931
wif1萬能鑰匙密碼 瀏覽:792
數控715螺紋編程怎麼寫 瀏覽:261
extjs獲取grid選中行 瀏覽:873
數據線充電強制鎖屏是什麼原因 瀏覽:923
保證能貸款的app 瀏覽:105
adb文件夾大小 瀏覽:78
資料庫browser 瀏覽:458
愛麗絲夢遊仙境x級版本 瀏覽:636
windows登陸linux 瀏覽:851
如何用excel摳文件印章 瀏覽:24
蘋果4s的div設置 瀏覽:638
網路管理員考試教材 瀏覽:201
c配置文件在c盤哪裡 瀏覽:694
可配置文件翻譯 瀏覽:879
如何把紙文件掃描成pdf 瀏覽:514
plc博途編程中除法取整怎麼取 瀏覽:717
950客服代碼 瀏覽:463
ghost支持linux嗎 瀏覽:927

友情鏈接