⑴ 數據倉庫的主要特點有哪些
數據倉庫是面向主題的、集成的、非易失的和時變的數據集合,用以支持管理決策。
傳統資料庫中,最大的特點是面向應用進行數據的組織,各個業務系統可能是相互分離的。而數據倉庫則是面向主題的。主題是一個抽象的概念,是較高層次上企業信息系統中的數據綜合、歸類並進行分析利用的抽象。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。
通過對分散、獨立、異構的資料庫數據進行抽取、清理、轉換和匯總便得到了數據倉庫的數據,這樣保證了數據倉庫內的數據關於整個企業的一致性。
數據倉庫中的綜合數據不能從原有的資料庫系統直接得到。因此在數據進入數據倉庫之前,必然要經過統一與綜合,這一步是數據倉庫建設中最關鍵、最復雜的一步,所要完成的工作有:1.要統一源數據中所有矛盾之處,如欄位的同名異義、異名同義、單位不統一、字長不一致,等等。2.進行數據綜合和計算。數據倉庫中的數據綜合工作可以在從原有資料庫抽取數據時生成,但許多是在數據倉庫內部生成的,即進入數據倉庫以後進行綜合生成的。
非易失性
數據倉庫的數據反映的是一段相當長的時間內歷史數據的內容,是不同時點的資料庫快照的集合,以及基於這些快照進行統計、綜合和重組的導出數據。
數據非易失性主要是針對應用而言。數據倉庫的用戶對數據的操作大多是數據查詢或比較復雜的挖掘,一旦數據進入數據倉庫以後,一般情況下被較長時間保留。數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少。因此,數據經加工和集成進入數據倉庫後是極少更新的,通常只需要定期的載入和更新。
數據倉庫包含各種粒度的歷史數據。數據倉庫中的數據可能與某個特定日期、星期、月份、季度或者年份有關。數據倉庫的目的是通過分析企業過去一段時間業務的經營狀況,挖掘其中隱藏的模式。雖然數據倉庫的用戶不能修改數據,但並不是說數據倉庫的數據是永遠不變的。分析的結果只能反映過去的情況,當業務變化後,挖掘出的模式會失去時效性。因此數據倉庫的數據需要更新,以適應決策的需要。從這個角度講,數據倉庫建設是一個項目,更是一個過程。數據倉庫的數據隨時間的變化表現在以下幾個方面:
(1) 數據倉庫的數據時限一般要遠遠長於操作型數據的數據時限。
(2) 操作型系統存儲的是當前數據,而數據倉庫中的數據是歷史數據。
(3) 數據倉庫中的數據是按照時間順序追加的,它們都帶有時間屬性。
⑵ 數據倉庫的定義及特點
數據倉庫的定義及特點
一數據倉庫定義
數據倉庫之父Bill Inmon在1991年出版的「Building the Data Warehouse」一書中所提出的定義被廣泛接受:數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。
對於數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用於支持決策,面向分析型數據處理,它不同於企業現有的操作型資料庫;其次,數據倉庫是對多個異構的數據源有效集成,集成後按照主題進行了重組,並包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
二數據倉庫特點
1、面向主題。操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
2、集成的。面向事務處理的操作型資料庫通常與某些特定的應用相關,資料庫之間相互獨立,並且往往是異構的。而數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
3、相對穩定的。操作型資料庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
4、反映歷史變化。操作型資料庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,並及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,也是一個過程。
⑶ 數據倉庫與數據挖掘技術—特點及元數據
數據倉庫具有以下特點
數據倉庫中的數據是面向主題組織的
在較高層次上對分析對象的數據做一個完整的、一致的描述,能有效地刻畫出分析對象所涉及的各項數據及數據間的聯系。主題通常在一個較高層次上將數據歸類的標准,每個主題對應一個宏觀分析領域。數據倉庫中應重新組織數據,完成業務數據向主題數據的轉換。主題的抽取則應根據分析的要求進行確定,根據所需要的信息,分不同類別、不同角度等主題把數據整理之後存儲起來
數據倉庫的數據是集成的
事務處理系統中的操作型數據在進入數據倉庫之前,必須經過統一和綜合,演變為分析性數據。需要完成的工作包括:處理欄位的同名異義,異義同名,單位不統一,長度不一致等問題,然後對源數據進行綜合和計算,生成面向主題分析的高層、綜合的數據
數據倉庫的數據是穩定的
數據倉庫中存放的是供分析決策用的歷史數據,而不是聯機事務處理的當前數據。涉及的數據操作主要是數據查詢,一般不進行數據的增刪改操作
數據倉庫的數據是隨時間不斷變化的
數據倉庫系統需要不斷獲取聯機事務處理系統不同時刻的數據,經集成後追加到數據倉庫中
數據倉庫中的數據分為四個級別、早期細節級,當前細節級,輕度綜合級,高度綜合級
首先進入當前細節級,並根據具體需要進一步的綜合,從而進入輕度綜合級,乃至高度綜合級。老化的數據進入早期細節級,數據倉庫中存在著不同的綜合級別,一般稱之為粒度。粒度越大,表示細節程度越低,綜合程度越高
元數據是「關於數據的數據」,是新一輪迭代開發和數據倉庫維護的主要技術手冊。如同數據倉庫的導航器,快速高效的定位信息,實現數據檢索和挖掘
1、技術元數據
存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據。它主要包括數據倉庫結構的描述、業務系統、數據倉庫和數據集市的體系結構及模式以及匯總用的演算法和操作環境到數據倉庫環境的映射
2、業務元數據
業務元數據從業務角度表述了數據倉庫中的數據
數據倉庫的建立過程一般有兩種方法,「自頂而下」和「自底而上」。
自頂而下:先建立一個企業級數據倉庫,然後再在其基礎上建立部門級數據集市。
自底向上:優先建立一些數據集市,最後再把它們匯集成一個企業級數據倉庫。
⑷ 目前最常用的三種數據模型及其特點是什麼
目前最常用的三種數據模型為層次模型、網狀模型和關系模型。
一、層次模型
層次模型將數據組織成一對多關系的結構,層次結構採用關鍵字來訪問其中每一層次的每一部分。
層次模型發展最早,它以樹結構為基本結構,典型代表是IMS模型。
優點是存取方便且速度快;結構清晰,容易理解;數據修改和資料庫擴展容易實現;檢索關鍵屬性十分方便。
二、網狀模型
網狀模型用連接指令或指針來確定數據間的顯式連接關系,是具有多對多類型的數據組織方式。
網狀數據模型通過網狀結構表示數據間聯系,開發較早且有一定優點,目前使用仍較多,典型代表是 DBTG模型。
優點是能明確而方便地表示數據間的復雜關系。
三、關系模型
關系模型以記錄組或數據表的形式組織數據,以便於利用各種地理實體與屬性之間的關系進行存儲和變換,不分層也無指針,是建立空間數據和屬性數據之間關系的一種非常有效的數據組織方法。
優點在於結構特別靈活,概念單一,滿足所有布爾邏輯運算和數學運算規則形成的查詢要求;能搜索、組合和比較不同類型的數據;增加和刪除數據非常方便。
(4)操作型數據有哪些特點擴展閱讀:
數據模型按不同的應用層次分成三種類型:分別是概念數據模型、邏輯數據模型、物理數據模型。
1、概念模型(Conceptual Data Model),是一種面向用戶、面向客觀世界的模型,主要用來描述世界的概念化結構,它是資料庫的設計人員在設計的初始階段。
2、邏輯模型(Logical Data Model),是一種面向資料庫系統的模型,是具體的DBMS所支持的數據模型。
3、物理模型(Physical Data Model),是一種面向計算機物理表示的模型,描述了數據在儲存介質上的組織結構,它不但與具體的DBMS有關,而且還與操作系統和硬體有關。
⑸ 簡述數據倉庫有哪些主要的特徵
1、數據倉庫是面向主題的;操作型資料庫的數據組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
2、數據倉庫是集成的,數據倉庫的數據有來自於分散的操作型數據,將所需數據從原來的數據中抽取出來,進行加工與集成,統一與綜合之後才能進入數據倉庫;
數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
3、數據倉庫是不可更新的,數據倉庫主要是為決策分析提供數據,所涉及的操作主要是數據的查詢;
4、數據倉庫是隨時間而變化的,傳統的關系資料庫系統比較適合處理格式化的數據,能夠較好的滿足商業商務處理的需求。穩定的數據以只讀格式保存,且不隨時間改變。
⑹ 數據模型的分類有哪些,各有什麼特點
數據模型按不同的應用層次分成概念數據模型、邏輯數據模型、物理數據模型。
1、概念數據模型
特點是面向用戶、面向現實世界的數據模型,描述一個單位的概念化結構;具有較強的語義表達能力,能夠方便、直接地表達應用中的各種語義知識;簡單、清晰、易於用戶理解;概念模型是充滿主觀色彩的工件。
2、邏輯數據模型
特點是直接反映出業務部門的需求,對系統的物理實施有著重要指導作用;可以通過實體和關系勾勒出企業的數據藍圖;邏輯模型提供用戶定義完整性約束條件的機制,以反映具體應用所涉及的數據必須遵守的特定的語義約束條件。
3、物理數據模型
特點是具有以實物或畫圖形式直觀的表達認識對象的特徵;每一種邏輯數據模型在實現時都有其對應的物理數據模型;描述數據在儲存介質上的組織結構,不但與具體的DBMS有關,而且還與操作系統和硬體有關。
(6)操作型數據有哪些特點擴展閱讀:
數據模型結構主要分為數據結構、數據操作、數據約束。
1、數據結構主要描述數據的類型、內容、性質以及數據間的聯系等。數據類型,如DBTG網狀模型中的記錄型、數據項、關系模型中的關系等。數據結構是數據模型的基礎,不同的數據結構具有不同的操作和約束。
2、數據操作主要描述在相應的數據結構上的操作類型和操作方式。是操作算符的集合,包括若干操作和推理規則,用以對目標類型的有效實例所組成的資料庫進行操作。
3、數據約束主要描述數據結構內數據間的語法、詞義聯系、他們之間的制約和依存關系,以及數據動態變化的規則,以保證數據的正確、有效和相容。約束條件可以按不同的原則劃分為數據值的約束和數據間聯系的約束;靜態約束和動態約束;實體約束和實體間的參照約束等。
參考資料來源:網路-數據模型
參考資料來源:網路-概念模型
參考資料來源:網路-邏輯模型
參考資料來源:網路-物理模型