导航:首页 > 数据分析 > 如何存储海量数据

如何存储海量数据

发布时间:2023-03-06 13:09:20

1. 海量空间数据存储

(一)空间数据存储技术

随着地理信息系统的发展,空间数据库技术也得到了很大的发展,并出现了很多新的空间数据库技术(黄钊等,2003),其中应用最广的就是用关系数据库管理系统(RDBMS)来管理空间数据。

用关系数据库管理系统来管理空间数据,主要解决存储在关系数据库中的空间数据与应用程序之间的数据接口问题,即空间数据库引擎(SpatialDatabase Engine)(熊丽华等,2004)。更确切地说,空间数据库技术是解决空间数据对象中几何属性在关系数据库中的存取问题,其主要任务是:

(1)用关系数据库存储管理空间数据;

(2)从数据库中读取空间数据,并转换为GIS应用程序能够接收和使用的格式;

(3)将GIS应用程序中的空间数据导入数据库,交给关系数据库管理。

空间数据库中数据存储主要有三种模式:拓扑关系数据存储模式、Oracle Spatial模式和ArcSDE模式。拓扑关系数据存储模式将空间数据存在文件中,而将属性数据存在数据库系统中,二者以一个关键字相连。这样分离存储的方式由于存在数据的管理和维护困难、数据访问速度慢、多用户数据并发共享冲突等问题而不适用于大型空间数据库的建设。而OracleSpatial实际上只是在原来的数据库模型上进行了空间数据模型的扩展,实现的是“点、线、面”等简单要素的存储和检索,所以它并不能存储数据之间复杂的拓扑关系,也不能建立一个空间几何网络。ArcSDE解决了这些问题,并利用空间索引机制来提高查询速度,利用长事务和版本机制来实现多用户同时操纵同一类型数据,利用特殊的表结构来实现空间数据和属性数据的无缝集成等(熊丽华等,2004)。

ArcSDE是ESRI公司开发的一个中间件产品,所谓中间件是一个软件,它允许应用元素通过网络连接进行互操作,屏蔽其下的通讯协议、系统结构、操作系统、数据库和其他应用服务。中间件位于客户机/服务器的操作系统之上,管理计算资源和网络通讯,并营造出一个相对稳定的高层应用环境,使开发人员可以集中精力于系统的上层开发,而不用过多考虑系统分布式环境下的移植性和通讯能力。因此,中间件能无缝地连入应用开发环境中,应用程序可以很容易地定位和共享中间件提供的应用逻辑和数据,易于系统集成。在分布式的网络环境下,客户端的应用程序如果要访问网络上某个服务器的信息,而服务器可能运行在不同于客户端的操作系统和数据库系统中。此时,客户机的应用程序中负责寻找数据的部分只需要访问一个数据访问中间件,由该中间件完成网络中数据或服务的查找,然后将查找的信息返回给客户端(万定生等,2003)。因此,本系统实现空间数据库存储的基本思想就是利用ArcSDE实现各类空间数据的存储。

目前,空间数据存储技术已比较成熟,出现了许多类似ArcSDE功能的中间件产品,这些软件基本上都能实现空间数据的数据库存储与管理,但对于海量空间数据的存储,各种软件性能差别较大。随着数据量的增长,计算机在分析处理上会产生很多问题,比如数据不可能一次完全被读入计算机的内存中进行处理。单纯依赖于硬件技术,并不能满足持续增长的数据的处理要求。因此需要在软件上找到处理海量数据的策略,并最终通过软硬件的结合完成对海量数据的处理。在海量数据存储问题上,许多专家从不同侧面进行过研究,Lindstrom在地形简化中使用了外存模型(Out-of-core)技术;钟正采用了基于数据分块、动态调用的策略;汪国平等人在研究使用高速网络进行三维海量地形数据的实时交互浏览中,采用了分块、多分辨率模板建立模型等方法。这些技术、方法已经在各自系统上进行了研究和实现。本系统采用的ArcSDE软件基本上也是采用分块模型的方法,具体存储和操作不需要用户过多了解,已经由ArcSDE软件实现。因此,对海量数据的存储管理,更需要从数据的组织方式等方面进行设计。塔里木河流域生态环境动态监测系统采集了大量的遥感影像、正射影像等栅格结构的数据,这些数据具有很大的数据量,为适应流域空间基础设施的管理需要,采取一种新的方式来管理、分发这些海量数据以适应各部门的快速浏览和管理需要。

(二)影像金字塔结构

影像数据库的组织是影像数据库效率的关键,为了获得高效率的存取速度,在数据的组织上使用了金字塔数据结构和网格分块数据结构。该技术主导思想如下:

(1)将数据库中使用到的纹理处理成为大小一致的纹理块;

(2)为每块纹理生成5个细节等级的纹理,分别为0、1、2、3、4,其中1级纹理通过0级纹理1/4压缩得到,2级纹理通过1级纹理1/4压缩得到,…,以此类推;

(3)在显示每个块数据之前,根据显示比例的大小,并以此决定该使用那一级的纹理;

(4)在内存中建立纹理缓冲池,使用LRU算法进行纹理块的调度,确保使用频率高的纹理调度次数尽可能少。

(三)影像数据压缩

影像数据压缩有无损压缩和有损压缩两个方法,具体采取哪种压缩方法需根据具体情况确定。对于像元值很重要的数据,如分类数据、分析数据等采用无损压缩(即LZ77算法),否则采用有损压缩(即JPEG算法)。通过对影像数据的压缩,一方面可以节约存储空间,另一方面可以加快影像的读取和显示速度。影像数据的压缩一般与构建金字塔同时进行,在构建影像金字塔过程中自动完成数据的压缩。

2. 海量数据存储有哪些方式与方法

从数据存储的模式来看,海量存储技术可以分为DAS(Direct Attached Storage,直接附加存储)和网络存专储两种,其中网络存储又可以分为NAS(Network Attached storage,网属络附加存储)和SAN(Storage Area Net、Work,存储区域网络)。
从数据存储系统的组成上看,无论是DAS、NAS还是SAN,其存储系统都可以分为三个部分:首先是磁盘阵列,它是存储系统的基础,是完成数据存储的基本保证;其次是连接和网络子系统,通过它们实现了一个或多个磁盘阵列与服务器之间的连接;最后是存储管理软件,在系统和应用级上,实现多个服务器共享、防灾等存储管理任务。
如果需要更多资料可以追问

3.  海量数据存储与管理

正如上述,在国土资源遥感综合调查信息中,既包含有多源、多时相、多尺度、多分辨率、多类型的遥感图像数据和基础地理数据,也包括在项目开展过程中衍生的许多观测和分析资料,数据量十分庞大。因此,根据数据共享的要求,在数据生产、管理、应用服务以及更新和维护过程中,如何组织和管理好这些海量数据,如何快速、全面有效地访问和获得所需数据,成为面临的突出问题。在这里,采用何种方式利用现有的大型商业化关系数据库系统高效地存储与管理这些数据,成为能否发挥系统最大性能的关键所在。

传统的GIS系统对空间数据(与空间位置、空间关系有关的数据)的存储与管理大多采用这些商业软件特定的文件方式,如:ArcInfo的Coverage、MapInfo的Tab、MAPGIS的WL等。如果数据量越多,这些文件就会越大,数据的处理就会越复杂,其存储、检索、管理也就越困难,而且其最大的缺点还在于不能进行多用户并发操作。由此可见,用以往传统的存储机制去管理像遥感综合调查这样的海量数据,显然难以满足要求。而近年来发展起来的空间数据库引擎技术则是解决海量数据存储管理的途径之一。

本系统建设过程中,采用了空间数据库引擎ArcSDE+大型关系数据库Oracle组合技术,较理想地实现了遥感综合调查海量数据的存储、检索、查询、处理。众所周知,Oracle提供了大型数据库环境,能够很好地处理海量数据,而ArcSDE可将具有地理特征的空间数据和非空间数据统一加载到Oracle中去,因此,通过ArcSDE空间数据库引擎,可将Oracle海量数据管理功能加载到GIS系统中,并可利用Oracle的强大管理机制进行高效率的事务处理、记录锁定、并发控制等服务操作。

4. 海量数据存储

存储技术经历了单个磁盘、磁带、RAID到网络存储系统的发展历程。网络存储技术就是将网络技术和I/O技术集成起来,利用网络的寻址能力、即插即用的连接性、灵活性,存储的高性能和高效率,提供基于网络的数据存储和共享服务。在超大数据量的存储管理、扩展性方面具有明显的优势。

典型的网络存储技术有网络附加存储NAS(Network Attached Storage)和存储区域网SAN(Storage Area Networks)两种。

1)NAS技术是网络技术在存储领域的延伸和发展。它直接将存储设备挂在网上,有良好的共享性、开放性。缺点是与LAN共同用物理网络,易形成拥塞,而影响性能。特别是在数据备份时,性能较低,影响在企业存储应用中的地位。

2)SAN技术是以数据存储为中心,使用光纤通道连接高速网络存储的体系结构。即将数据存储作为网络上的一个区域独立出来。在高度的设备和数据共享基础上,减轻网络和服务器的负担。因光纤通道的存储网和LAN分开,使性能得到很大的提高,而且还提供了很高的可靠性和强大的连续业务处理能力。在SAN中系统的扩展、数据迁移、数据本地备份、远程数据容灾数据备份和数据管理等都比较方便,整个SAN成为一个统一管理的存储池(Storage Pool)。SAN存储设备之间通过专用通道进行通信,不占用服务器的资源。因此非常适合超大量数据的存储,成为网络存储的主流。

3)存储虚拟化技术是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到互操作性的目的和利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成一个单一视图的存储池,可根据用户的需要方便地切割、分配。从而保持已有的投资,减少总体成本,提高存储效率。

存储虚拟化包括3个层次结构:基于服务器的虚拟化存储、基于存储设备的虚拟化存储和基于网络的虚拟化存储。

1)基于服务器的虚拟化存储由逻辑管理软件在主机/服务器上完成。经过虚拟化的存储空间可跨越多个异构的磁盘阵列,具有高度的稳定性和开放性,实现容易、简便。但对异构环境和分散管理不太适应。

2)基于存储设备的虚拟化存储,因一些高端磁盘阵列本身具有智能化管理,可以实现同一阵列,供不同主机分享。其结构性能可达到最优。但实现起来价格昂贵,可操作性差。

3)基于网络的虚拟化存储,通过使用专用的存储管理服务器和相应的虚拟化软件,实现多个主机/服务器对多个异构存储设备之间进行访问,达到不同主机和存储之间真正的互连和共享,成为虚拟存储的主要形式。根据不同结构可分为基于专用服务器和基于存储路由器两种方式。①基于专用服务器的虚拟化,是用一台服务器专用于提供系统的虚拟化功能。根据网络拓扑结构和专用服务器的具体功能,其虚拟化结构有对称和非对称两种方式。在对称结构中数据的传输与元数据访问使用同一通路。实现简单,对服务器和存储设备的影响小,对异构环境的适应性强。缺点是专用服务器可能成为系统性能的瓶颈,影响SAN的扩展。在非对称结构中,数据的传输与元数据访问使用不同通路。应用服务器的I/O命令先通过命令通路传送到专用服务器,获取元数据和传输数据视图后,再通过数据通路得到所需的数据。与对称结构相比,提高了存储系统的性能,增加了扩展能力。②基于存储路由器的SAN虚拟化,存储路由器是一种智能化设备,既具有路由器的功能,又针对I/O进行专门优化。它部署在存储路由器上,多个存储路由器保存着整个存储系统中的元数据多个副本,并通过一定的更新策略保持一致性。这种结构中,因存储路由器具有强大的协议功能,所以具有更多的优势。能充分利用存储资源,保护投资。能实现软硬件隔离,并辅有大量的自动化工具,提高了虚拟服务器的安全性,降低对技术人员的需求和成本。

5. 大数据的安全存储采用什么技术

基于云计算架构的大数据,数据的存储和操作都是以服务的形式提供。目前,大数据的安全存储采用虚拟化海量存储技术来存储数据资源,涉及数据传输、隔离、恢复等问题。解决大数据的安全存储,一是数据加密。在大数据安全服务的设计中,大数据可以按照数据安全存储的需求,被存储在数据集的任何存储空间,通过SSL(SecureSocketsLayer,安全套接层协议层)加密,实现数据集的节点和应用程序之间移动保护大数据。在大数据的传输服务过程中,加密为数据流的上传与下载提供有效的保护。应用隐私保护和外包数据计算,屏蔽网络攻击。目前,PGP和TrueCrypt等程序都提供了强大的加密功能。二是分离密钥和加密数据。使用加密把数据使用与数据保管分离,把密钥与要保护的数据隔离开。同时,定义产生、存储、备份、恢复等密钥管理生命周期。三是使用过滤器。通过过滤器的监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。四是数据备份。通过系统容灾、敏感信息集中管控和数据管理等产品,实现端对端的数据保护,确保大数据损坏情况下有备无患和安全管控。
更多关于大数据的安全存储采用什么技术,进入:https://m.abcgonglue.com/ask/d6a03e1615838691.html?zd查看更多内容

6. 如何处理海量数据

在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:
一、数据量过大,数据中什么情况都可能存在。
如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至 过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时, 前面还能正常处理,突然到了某个地方问题出现了,程序终止了。
二、软硬件要求高,系统资源占用率高。
对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。
三、要求很高的处理方法和技巧。
这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。
下面我们来详细介绍一下处理海量数据的经验和技巧:
一、选用优秀的数据库工具
现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软 公司最近发布的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要, 例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。
二、编写优良的程序代码
处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。
三、对海量数据进行分区操作
对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不 过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷, 而且还可以将日志,索引等放于不同的分区下。
四、建立广泛的索引
对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应 索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完 毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。
五、建立缓存机制
当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。
六、加大虚拟内存
如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理, 内存为1GB,1个P42.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区 上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 =25600 M,解决了数据处理中的内存不足问题。
七、分批处理
海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处 理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还 需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
八、使用临时表和中间表
数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合 并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作, 可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。
九、优化查询SQL语句
在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储 过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表 结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。
十、使用文本格式进行处理
对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择, 是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者 csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。
十一、定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。
十二、建立视图或者物化视图
视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。
十三、避免使用32位机子(极端情况)
目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。
十四、考虑操作系统问题
海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。
十五、使用数据仓库和多维数据库存储
数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。
十六、使用采样数据,进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样 的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出 400万行,经测试软件测试处理的误差为千分之五,客户可以接受。
还有一些方法,需要在不同的情况和场合下运用,例如使用代理键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。

7. 自动驾驶下的海量数据,业界如何安全高效存储

近几年来,各行业纷纷跨界加入造车行列,不说传了多年要造车的国外手机巨头、出资纯电动汽车的科技互联网大厂,国内的科技企业也在跃跃欲试,比如阿里巴巴、华为、网络、小米和滴滴出行。

除了这些高科技企业,还有小马智行、文远知行、AutoX、赢彻科技和主线科技等新兴的自动驾驶初创企业;超星未来、奥特贝睿、宏景智驾等专注于私家车高阶自动驾驶研发的新型一级供应商;以及纯电动车起家的蔚来,小鹏,理想等造车新势力,都纷纷加入汽车产业链,推动了汽车电动化和智能化的进程。

西部数据资深产品市场经理额日特

也正是这些新玩家的加入,使得传统汽车产业链受到了前所未有的压力,同时也推动了传统汽车厂商加速新技术和新应用的落地。在西部数据资深产品市场经理额日特看来,随着汽车智能网联的不断推进,汽车的电子电气架构(E/E)也随之变化,从最初的分布式架构向域融合和中央控制单元过渡。

轮子上的智能手机,对存储架构提出更多要求

如今,不少人业内人士都认可汽车在向“轮子上的智能手机”演变,这个转变,让厂商开始将越来越多的摄像头、雷达、激光雷达等传感器、电动机,甚至以太网、人工智能等技术都引入汽车。

额日特认为,更多传感器的引入,网联技术、人工智能技术的增加,以及汽车电子电气架构的改变,对汽车内存储产品的要求发生了很大的变化。

“在汽车存储领域,单车存储的 数量将会显著降低,容量则会显著提升 。”额日特在不久前广州举办的Auto Tech 2021上演讲时指出。

Counterpoint的报告也印证了这一点,该分析机构预计,未来十年内,汽车单车的存储容量将会达到2TB左右。“目前车内存储主要用在智能座舱和中控系统,且燃油车以32GB为主,电动汽车一般使用64GB,或128GB,相对于2TB来说,还有一个巨大的提升空间。”额日特表示。

他分析称,为了应对汽车电动化、智能化、网联化,及自动化方向的发展,存储产品也面临这很多挑战,主要有四个比较重大的挑战:

一是数据 的可靠性 和 安全性 ,这是存储厂商所面临最基本和最严苛的挑战,也是相关法规及保险责任靠量的关键因素。因为对于自动驾驶来说,数据的可靠性和安全性意味着生命的安全。

存储厂商在数据可靠性和安全性方面也做了不少工作,额日特拿e.MMC、UFS和SSD来说,存储单元是由两个部分组成的,一部分是存储介质Raw NAND,另一部分是控制器和固件。

为了保证更好的TBW(Total Bytes Written),即产品生命周期里能承受的总写入数据量,存储厂商一般都会 通过控制器和固件对底层做一个读写均衡 。“TBW通俗地讲就是耐擦写,意思是NAND Flash是有寿命的,如果数据手册里规定了NAND Flash的擦写次数是3,000次,客户就需要考量该TBW是否满足自己的应用需求。”

还有一个是主机锁定 ,即在汽车主机上焊上一个内存,加了主机锁的内存放到另外一个主机上是没有用的,因为它已经与原来的主机做了锁定,这样也可以确保数据的安全。

另外,写保护也是一个很重要的功能 ,比如汽车如果出事故了,有的用户担心数据会被汽车厂商篡改,“我们存储厂商在与主机厂商、Tier 1企业一起共同努力,协商一个有效的协同保护机制,确保车辆在发生事故后,在警察没有查看数据之前,没有任何一家,包括内存厂商都无法篡改存储器内的数据,以确保司法监管在调查的时候的公正性和严肃性。”额日特表示。

二是复杂的应用场景 ,随着电子电气架构向域及中央控制单元转变,应用的融合对存储的要求也变得更加复杂,不再是单一的读或写。比如导航是一个读密集型操作,行车记录仪是一个写密集型操作。

特别是随着电子电气架构的改变,融合中央控制单元的使用,使得内存需要承受更加复杂的操作系统环境。比如高通的8155平台把智能座舱、数字仪表和中控融合到了一起,此时就需要使用Hypervisor,以允许多个操作系统和应用共享同一个硬件。 但实际上,现在的内存结构,只能做到逻辑分区,不能做到物理分区。

“举一个简单的例子,我们现在所使用的电脑有C盘、D盘、或者E盘,实际上C、D、E盘只是逻辑分区,底层的内存是没有做到物理分区的,这些盘存储的数据都是打散存储在一块内存里,不论是哪个盘坏掉,代表的就是整个内存盘都坏了。”额日特指出。

因此,这就会带来一个问题,比如行车记录仪是一个需要高擦写支持的应用,如果把行车记录仪也融合到智能座舱内的话,做起来很容易。但要是不做物理分区,由于行车记录仪的高擦写,可能整个内存很快就会坏掉。

为了适应这个改变,也为了数据的更加安全,“西部数据现在可以提供一种解决方案,那就是在底层做读写均衡的隔离,比如 一块内存里面,可以分别使用 TLC 和S LC 两种N AND F lash ,由于SLC可以支持高擦写,因此,SLC部分就可以作为行车记录仪的存储。”额日特表示。

三是海量数据存储 ,为了适应自动驾驶的需求,越来越多的雷达和摄像头被部署在汽车上,行车过程中会产生大量的数据。

特别是自动驾驶出租车的企业对数据的存储容量需求是很大的,现在单车一天生成的数据量在8GB左右,但实际上,现在主流汽车的存储容量在2GB到4GB之间。

额日特以西部数据与Waymo的合作为例,西部数据在Waymo自动驾驶出租车上安装了10块2TB的工业级SSD,也就是说Waymo的单车存储容量要求是20TB。其实这也是大部分自动驾驶汽车的存储需求。

四是高性能, 雷达和摄像头会在行车过程中产生大量的数据,为了防止数据丢失,必然需要高性能、大带宽存储的支持。

其实存储产品也在通过不停地创新来获得更高的传输速率。在嵌入式存储器方面,目前汽车领域使用的主流存储产品是e.MMC,比e.MMC更快的是UFS产品,目前汽车领域主要采用的还是UFS2.1。实际上,消费类电子已经在大规模采用UFS3.0的产品了。额日特预计汽车级UFS3.1的产品,应该会在两年内面市。

另外,在SSD方面,目前汽车领域的SSD主要还是采用SATA接口,未来带宽更高、速度更快的NVMe接口的SSD产品也可能会在汽车上得到应用。使用SSD的好处就是容量可以做得更大,比如UFS接口能做到的最大容量可能是512GB,但SSD可以轻松做到4TB、8TB,甚至更大。

满足汽车需求的解决方案

据额日特介绍,西部数据可以提供从端到云的完整解决方案,以支持当前和未来的车辆系统要求,它为多样的应用场景和数据中心,提供了小尺寸嵌入式终端存储和可移动存储,用于获取和分析从车辆收集的大量数据。他特意强调,西部数据的汽车级闪存产品通过了IATF16949认证,符合AEC-Q100标准。

产品方面,有iNAND汽车级嵌入式存闪存盘(EFD),支持UFS和e.MMC接口,具有多种容量,采用11.5×13mm的小包装,可为汽车OEM和一级供应商提供符合其需求的选择。比如iNAND AT EU312 是一款基于 3D NAND 技术的汽车级UFS(通用闪存存储),具有高数据传输速度的UFS 2.1接口和额外的UFS 3.0汽车功能,可提供最高256GB的容量,性能是前代基于e.MMC的产品的2.5倍。AT EU312利用第5代SmartSLC 技术,可提供高性能和可靠的写入。

其e.MMC 嵌入式闪存盘基于e.MMC 5.1 标准,采用2D或3D NAND技术。具体产品有EM122已经获得许多汽车设计的认证并投入生产,EM132在汽车市场中容量达到了256GB。

在PCIe SSD方面,有CL SN720和CL SN520等产品,采用了PCIe Gen3 NVMe接口,容量高达2TB,耐久性高达1600 TBW。

与合作伙伴的成功案例

在本次Auto Tech 2021展会上,西部数据不仅展示了自己家的汽车存储解决方案,也带来了合作伙伴的一些成功案例。

有为信息展示的“主动安全智能防控车载视频终端K5-P”解决方案。

在车载监控方面,其合作伙伴有为信息展示了“主动安全只能防控车载视频终端K5-P”解决方案,该解决方案支持ADAS、DSM只能监控,采用了记录仪、视频功能、主动安全功能一体化设计。同时支持硬盘(2.5” HDD)+ SD卡(西部数据WD Purple micro SD存储卡),双重存储保证数据安全;且具有硬盘防震保护机制;此外,有为信息的专利的存储介质保护装置,可防止任意拆卸硬盘及插拔存储卡。加上其独特流媒体文件系统存储方式,保证了数据安全不被篡改。

车载信息娱乐系统方面,其合作伙伴掌锐展示了“前装车规模组”解决方案------CS199 MT8666AV模组,该模组基于联发科 MT8666AV芯片封装的前装车规级带4G通信模组,具有功能丰富,集成度高、尺寸小、低功耗、性能优、品质稳定的特点,可满足汽车智能化、连网化的前装需求,帮助客户缩短项目开发周期,减少研发投入并降低品控风险。存储方面,采用的是西部数据iNAND AT EM132产品,是汽车市场首个基于3D TLC NAND e.MMC接口产品,采用了标准BGA封装,容量涵盖了从32GB到256GB,具有快速启动、自动刷新、增强型运行健康状态监测,支持固件在线升级和100%预烧录,有AEC-Q100温度2级(-40°C 至105°C)和3级(-40°C至85°C)两种选择。

铱斯电子展示的智能驾驶辅助系统解决方案。

此外,西部数据现场还展示了采用iNAND AT EM122的智能驾舱、智能驾驶、以及车联网等丰富的解决方案。

西部数据公司中国区嵌入式产品销售部门销售总监文芳女士

西部数据公司中国区嵌入式产品销售部门销售总监文芳表示:“车联网、自动驾驶等新技术的商业化落地,对汽车新四化的发展起到了巨大的推动作用,同时也对车载存储解决方案的安全性、可靠性、大容量、高性能以及复杂的场景应用提出了更严苛的要求。西部数据作为数据基础架构的领导者,提供覆盖8GB-18TB容量,包括e.MMC/UFS/micro SD/SSD/HDD等不同规格的车规级及企业级存储产品,支持端-边-云新型数据架构在汽车领域的应用,满足当前和未来单车智能及车路协同的多样化需求。”

未来,西部数据将不断突破创新,以卓越的产品及解决方案赋能汽车领域的改革与发展,为人们带来更安全、优质的驾驶体验。

结语

近年来,汽车行业正在经历前所未有的变革,自动驾驶不断发展,高清3D地图、高级辅助驾驶系统(ADAS)、自主计算机、AI、大数据、增强型信息娱乐系统、无线更新、以及V2X技术等等逐步在汽车上得到普及,而这些功能都需要板载数据存储,未来汽车的存储需求将会越来越大,如何满足汽车市场的特殊需求,是存储企业必须要考虑的,抓住汽车市场,就意味着抓住了未来。

转载自电子发烧友 @2019

8. 银行海量交易数据是怎么存储的

一般来说,银行的数据都是结构化的、持久性存储的(非结构化的数据一般指电子影像,如客户办理业务的回单扫描图片等),以数据库以及文件方式存储为主。按照交易数据性质,我们可以分为“原始流水数据”和“加工后数据”两种。“原始流水数据”一般最开始生成于交易处理的应用程序(这些应用可以理解为前线部队)处理交易的过程,几乎记录了交易的所有内容:交易日期、交易时间、卡号、账号、地区号、网点号、地点、终端号、柜员编号、交易凭证(如Transaction Certification)、交易渠道等等等等乱七八糟你想得到想不到的字段。曾经见过一张表,多达数百个字段,一条记录长度多达数千字节。这类数据的特点是,信息全面,占用空间大。“加工后数据”产生于“原始流水数据”,一般情况下,“前线部队”会把“原始流水数据”提供给其他应用程序(可以理解为后勤部队),“后勤部队”会根据自身应用的需求将数据进行裁剪而不是照单全收。简单举个例子,假设用户拿到的信用卡对账单是由一个叫做“客户账单”(Customer Statement,下面简称CS)的应用生成。CS会根据业界的标准从交易流水中获取仅需的数据,比如交易日期,商户名称、卡号、交易币种、交易金额等。其他并不需要的数据就会被舍弃,这样也就保证了数据存储的经济性。

阅读全文

与如何存储海量数据相关的资料

热点内容
登录韩国id后如何在app付费 浏览:811
bp神经网络预测matlab代码实现 浏览:194
linux基本分区 浏览:274
如何给电脑重要文件设置路径 浏览:387
中国发布要素市场化配置文件 浏览:984
狸窝全能视频转换器密码 浏览:341
哪里下载原始数据 浏览:2
javaclass关键字 浏览:651
零基础学网页UI设计PDF文件 浏览:303
1月6日买苹果送耳机 浏览:520
access代码生成器 浏览:915
柱状图如何更改表格左侧数据 浏览:223
嘉定区常用网络服务有哪些 浏览:271
两份word文件怎么压缩 浏览:471
股票池压缩文件 浏览:656
word2007如何画正方形 浏览:244
vivo最好用什么数据线 浏览:417
二维腿长是哪个数据 浏览:126
红头文件在哪里订书 浏览:175
iphone4s运行ios9 浏览:688

友情链接