导航:首页 > 数据分析 > 非结构化数据都存放在哪里

非结构化数据都存放在哪里

发布时间：2024-10-24 17:00:39

『壹』什么是结构化数据和非结构化数据

1、结构化数据

结构化数据，简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。

基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

2、非结构化数据

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

3、半结构化数据

和普通纯文本相比，半结构化数据具有一定的结构性，OEM(Object exchange Model)是一种典型的半结构化数据模型。

半结构化数据(semi-structured data)。在做一个信息系统设计时肯定会涉及到数据的存储，一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类，并设计相应的表，然后将对应的信息保存到相应的表中。

数据：

数据是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

它不仅指狭义上的数字，还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等，也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如，“0、1、2…”、“阴、雨、下降、气温”、“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。

在计算机科学中，数据是所有能输入计算机并被计算机程序处理的符号的介质的总称，是用于输入电子计算机进行处理，具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛，表示这些对象的数据也随之变得越来越复杂。

『贰』什么是结构化数据，非结构化数据

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
字段可根据需要扩充，即字段数目不定，可称为半结构化数据，例如Exchange存储的数据。
非结构化数据库

在信息社会，信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号；而另一类信息无法用数字或统一的结构表示，如文本、图像、声音、网页等，我们称之为非结构化数据。结构化数据属于非结构化数据，是非结构化数据的特例

数据清洗从名字上也看的出就是把“脏”的“洗掉”。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗.而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

(1)不完整的数据
这一类数据主要是一些应该有的信息缺失，如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来，按缺失的内容分别写入不同Excel文件向客户提交，要求在规定的时间内补全。补全后才写入数据仓库。
(2)错误的数据
这一类错误产生的原因是业务系统不够健全，在接收输入后没有进行判断直接写入后台数据库造成的，比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类，对于类似于全角字符、数据前后有不可见字符的问题，只能通过写SQL语句的方式找出来，然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败，这一类错误需要去业务系统数据库用SQL的方式挑出来，交给业务主管部门要求限期修正，修正之后再抽取。
(3)重复的数据
对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来，让客户确认并整理。
数据清洗是一个反复的过程，不可能在几天内完成，只有不断的发现问题，解决问题。对于是否过滤，是否修正一般要求客户确认，对于过滤掉的数据，写入Excel文件或者将过滤数据写入数据表，在ETL开发的初期可以每天向业务单位发送过滤数据的邮件，促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉，对于每个过滤规则认真进行验证，并要用户确认。

随着网络技术的发展，特别是Internet和Intranet技术的飞快发展，使得非结构化数据的数量日趋增大。这时，主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而，数据库技术相应地进入了“后关系数据库时代”，发展进入基于网络应用的非结构化数据库时代。所谓非结构化数据库，是指数据库的变长纪录由若干不可重复和可重复的字段组成，而每个字段又可由若干不可重复和可重复的子字段组成。简单地说，非结构化数据库就是字段可变的数据库。

我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库，在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平，在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点：

(1)Internet应用中，存在大量的复杂数据类型，iBase通过其外部文件数据类型，可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源，如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。

(2)它采用子字段、多值字段以及变长字段的机制，允许创建许多不同类型的非结构化的或任意格式的字段，从而突破了关系数据库非常严格的表结构，使得非结构化数据得以存储和管理。

(3)iBase将非结构化和结构化数据都定义为资源，使得非结构数据库的基本元素就是资源本身，而数据库中的资源可以同时包含结构化和非结构化的信息。所以，非结构化数据库能够存储和管理各种各样的非结构化数据，实现了数据库系统数据管理到内容管理的转化。

(4)iBase采用了面向对象的基石，将企业业务数据和商业逻辑紧密结合在一起，特别适合于表达复杂的数据对象和多媒体对象。

(5)iBase是适应Internet发展的需要而产生的数据库，它基于Web是一个广域网的海量数据库的思想，提供一个网上资源管理系统iBase Web，将网络服务器(WebServer)和数据库服务器(Database Server)直接集成为一个整体，使数据库系统和数据库技术成为Web的一个重要有机组成部分，突破了数据库仅充当Web体系后台角色的局限，实现数据库和Web的有机无缝组合，从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。

(6)iBase全面兼容各种大中小型的数据库，对传统关系数据库，如Oracle、Sybase、SQLServer、DB2、Informix等提供导入和链接的支持能力。

通过从上面的分析后我们可以预言，随着网络技术和网络应用技术的飞快发展，完全基于Internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术。

阅读全文

与非结构化数据都存放在哪里相关的资料

热点内容

maya粒子表达式教程发布：2025-04-16 09:59:49 浏览：84

抖音小视频如何挂app 发布：2025-04-16 09:49:27 浏览：283

cad怎么设置替补文件发布：2025-04-16 09:41:07 浏览：790

win10启动文件是空的发布：2025-04-16 09:32:22 浏览：397

jk网站有哪些发布：2025-04-16 09:17:47 浏览：134

学编程和3d哪个更好发布：2025-04-16 09:16:56 浏览：932

win10移动硬盘文件无法打开发布：2025-04-16 08:55:42 浏览：385

文件名是乱码还删不掉发布：2025-04-16 08:50:33 浏览：643

苹果键盘怎么打开任务管理器发布：2025-04-16 08:49:47 浏览：437

手机桌面文件名字大全发布：2025-04-16 08:44:22 浏览：334

tplink默认无线密码是多少发布：2025-04-16 08:34:28 浏览：33

ipaddgm文件发布：2025-04-16 08:34:24 浏览：99

lua语言编程用哪个平台发布：2025-04-16 08:32:26 浏览：272

政采云如何导出pdf投标文件发布：2025-04-16 08:27:07 浏览：529

php获取postjson数据发布：2025-04-16 08:10:53 浏览：551

javatimetask 发布：2025-04-16 08:03:46 浏览：16

编程的话要什么证件发布：2025-04-16 07:43:39 浏览：94

钱脉通微信多开发布：2025-04-16 07:43:28 浏览：878

中学生学编程哪个培训机构好发布：2025-04-16 07:37:39 浏览：852

荣耀路由TV设置文件共享错误发布：2025-04-16 07:28:25 浏览：525

导航:首页 > 数据分析 > 非结构化数据都存放在哪里

非结构化数据都存放在哪里

与非结构化数据都存放在哪里相关的资料

友情链接