⑴ 数据仓库的主要特点有哪些
数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。
传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。
数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:1.要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。2.进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。
非易失性
数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。
数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改和删除操作很少。因此,数据经加工和集成进入数据仓库后是极少更新的,通常只需要定期的加载和更新。
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。数据仓库的数据随时间的变化表现在以下几个方面:
(1) 数据仓库的数据时限一般要远远长于操作型数据的数据时限。
(2) 操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
(3) 数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。
⑵ 数据仓库的定义及特点
数据仓库的定义及特点
一数据仓库定义
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
二数据仓库特点
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,也是一个过程。
⑶ 数据仓库与数据挖掘技术—特点及元数据
数据仓库具有以下特点
数据仓库中的数据是面向主题组织的
在较高层次上对分析对象的数据做一个完整的、一致的描述,能有效地刻画出分析对象所涉及的各项数据及数据间的联系。主题通常在一个较高层次上将数据归类的标准,每个主题对应一个宏观分析领域。数据仓库中应重新组织数据,完成业务数据向主题数据的转换。主题的抽取则应根据分析的要求进行确定,根据所需要的信息,分不同类别、不同角度等主题把数据整理之后存储起来
数据仓库的数据是集成的
事务处理系统中的操作型数据在进入数据仓库之前,必须经过统一和综合,演变为分析性数据。需要完成的工作包括:处理字段的同名异义,异义同名,单位不统一,长度不一致等问题,然后对源数据进行综合和计算,生成面向主题分析的高层、综合的数据
数据仓库的数据是稳定的
数据仓库中存放的是供分析决策用的历史数据,而不是联机事务处理的当前数据。涉及的数据操作主要是数据查询,一般不进行数据的增删改操作
数据仓库的数据是随时间不断变化的
数据仓库系统需要不断获取联机事务处理系统不同时刻的数据,经集成后追加到数据仓库中
数据仓库中的数据分为四个级别、早期细节级,当前细节级,轻度综合级,高度综合级
首先进入当前细节级,并根据具体需要进一步的综合,从而进入轻度综合级,乃至高度综合级。老化的数据进入早期细节级,数据仓库中存在着不同的综合级别,一般称之为粒度。粒度越大,表示细节程度越低,综合程度越高
元数据是“关于数据的数据”,是新一轮迭代开发和数据仓库维护的主要技术手册。如同数据仓库的导航器,快速高效的定位信息,实现数据检索和挖掘
1、技术元数据
存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。它主要包括数据仓库结构的描述、业务系统、数据仓库和数据集市的体系结构及模式以及汇总用的算法和操作环境到数据仓库环境的映射
2、业务元数据
业务元数据从业务角度表述了数据仓库中的数据
数据仓库的建立过程一般有两种方法,“自顶而下”和“自底而上”。
自顶而下:先建立一个企业级数据仓库,然后再在其基础上建立部门级数据集市。
自底向上:优先建立一些数据集市,最后再把它们汇集成一个企业级数据仓库。
⑷ 目前最常用的三种数据模型及其特点是什么
目前最常用的三种数据模型为层次模型、网状模型和关系模型。
一、层次模型
层次模型将数据组织成一对多关系的结构,层次结构采用关键字来访问其中每一层次的每一部分。
层次模型发展最早,它以树结构为基本结构,典型代表是IMS模型。
优点是存取方便且速度快;结构清晰,容易理解;数据修改和数据库扩展容易实现;检索关键属性十分方便。
二、网状模型
网状模型用连接指令或指针来确定数据间的显式连接关系,是具有多对多类型的数据组织方式。
网状数据模型通过网状结构表示数据间联系,开发较早且有一定优点,目前使用仍较多,典型代表是 DBTG模型。
优点是能明确而方便地表示数据间的复杂关系。
三、关系模型
关系模型以记录组或数据表的形式组织数据,以便于利用各种地理实体与属性之间的关系进行存储和变换,不分层也无指针,是建立空间数据和属性数据之间关系的一种非常有效的数据组织方法。
优点在于结构特别灵活,概念单一,满足所有布尔逻辑运算和数学运算规则形成的查询要求;能搜索、组合和比较不同类型的数据;增加和删除数据非常方便。
(4)操作型数据有哪些特点扩展阅读:
数据模型按不同的应用层次分成三种类型:分别是概念数据模型、逻辑数据模型、物理数据模型。
1、概念模型(Conceptual Data Model),是一种面向用户、面向客观世界的模型,主要用来描述世界的概念化结构,它是数据库的设计人员在设计的初始阶段。
2、逻辑模型(Logical Data Model),是一种面向数据库系统的模型,是具体的DBMS所支持的数据模型。
3、物理模型(Physical Data Model),是一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构,它不但与具体的DBMS有关,而且还与操作系统和硬件有关。
⑸ 简述数据仓库有哪些主要的特征
1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。
⑹ 数据模型的分类有哪些,各有什么特点
数据模型按不同的应用层次分成概念数据模型、逻辑数据模型、物理数据模型。
1、概念数据模型
特点是面向用户、面向现实世界的数据模型,描述一个单位的概念化结构;具有较强的语义表达能力,能够方便、直接地表达应用中的各种语义知识;简单、清晰、易于用户理解;概念模型是充满主观色彩的工件。
2、逻辑数据模型
特点是直接反映出业务部门的需求,对系统的物理实施有着重要指导作用;可以通过实体和关系勾勒出企业的数据蓝图;逻辑模型提供用户定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
3、物理数据模型
特点是具有以实物或画图形式直观的表达认识对象的特征;每一种逻辑数据模型在实现时都有其对应的物理数据模型;描述数据在储存介质上的组织结构,不但与具体的DBMS有关,而且还与操作系统和硬件有关。
(6)操作型数据有哪些特点扩展阅读:
数据模型结构主要分为数据结构、数据操作、数据约束。
1、数据结构主要描述数据的类型、内容、性质以及数据间的联系等。数据类型,如DBTG网状模型中的记录型、数据项、关系模型中的关系等。数据结构是数据模型的基础,不同的数据结构具有不同的操作和约束。
2、数据操作主要描述在相应的数据结构上的操作类型和操作方式。是操作算符的集合,包括若干操作和推理规则,用以对目标类型的有效实例所组成的数据库进行操作。
3、数据约束主要描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。约束条件可以按不同的原则划分为数据值的约束和数据间联系的约束;静态约束和动态约束;实体约束和实体间的参照约束等。
参考资料来源:网络-数据模型
参考资料来源:网络-概念模型
参考资料来源:网络-逻辑模型
参考资料来源:网络-物理模型