1. 什麼是數據倉庫為什麼要建立數據倉庫數據倉庫有什麼特點
資料庫是一個裝數據(信息的原材料)的地方。 數據倉庫是一種系統,這種系統也是用資料庫裝東西。(這有點沒說清楚:個人理解資料庫和數據倉庫當然都是裝數據的地方,關鍵的區別是裝的什麼樣的數據,資料庫裝的原始數據,沒經過任何加工;而數據倉庫是為了滿足分析需要,對源數據進行了Transform過程,具體是怎樣一個處理過程,可以從Bill Inmon的倉庫定義四個特性進行理解。)數據倉庫系統(用資料庫裝東西)與其他基礎業務系統(例如財務系統、銷售系統、人力資源系統等,也是用資料庫裝東西)的區別是: 基礎業務系統的特點是各管各的,例如財務系統生產了白菜,那麼用一個資料庫來裝,人力資源系統生產了豬肉,再用一個資料庫來裝。我要做一道菜,需要分別到各個資料庫去取,比較麻煩(現實的情況是大部分時候讓種菜的農民伯伯送過來,但送過來的東西不一定是我想要的,而且不同的時候我想要不同的東西,經常會被農民伯伯罵,弄得雙方都不開心)。另外一方面,各個資料庫中放的是一些比較原始的東西,我要拿過來做菜,還需要經過很麻煩的清洗過程,一不小心裏面可能就藏著一條大青蟲。那麼,數據倉庫系統就是建立一個大的超市,將各地農民伯伯出產的東西收集過來,清洗干凈,分門別類地放好。這樣,你要哪種菜的時候,直接從超市裡面拿就可以了。
數據倉庫的特點是:
(1)數據倉庫是面向主題的.
(2)數據倉庫是集成的
(3)數據倉庫具有時間相關性.
(4)數據倉庫的數據是相對穩定的.
數據倉庫可以說是決策支持系統(個人不同意這個觀點,決策支持系統(DDS)是在管理信息系統的基礎上發展起來的,在數據倉庫、OLAP技術和數據挖掘工具出現以前,就已經有DSS了,但其在實際應用開發過程中暴露出許多問題,DW為克服傳統DDS存在的問題提供了技術上的支持,基於DW上的DSS效果自然有很大提升),能幫助老闆了解企業的整體全貌,看到數據倉庫提供的經過整理統計歸納的數據後老闆憑自己的管理經驗可以發現企業的問題或困難或成功因素在哪一方面,然後可以不斷的追溯數據,直到確定到最具體的細節上,這樣能夠不斷提升老闆或管理層的管理水平,不斷改善企業的管理。我們知道的最好的一個例子就是美國某大型超市啤酒和尿布的故事。 沃爾瑪公司在美國的一位店面經理曾發現,每周,啤酒和尿布的銷量都會有一次同比攀升,一時卻搞不清是什麼原因。後來,沃爾瑪運用商業智能(Business Intelligence,簡稱BI)技術發現,購買這兩種產品的顧客幾乎都是25歲到35歲、家中有嬰兒的男性,每次購買的時間均在周末。沃爾瑪在對相關數據分析後得知,這些人習慣晚上邊看球賽、邊喝啤酒,邊照顧孩子,為了圖省事而使用一次性的尿布。得到這個結果後,沃爾瑪決定把這兩種商品擺放在一起,結果,這兩種商品的銷量都有了顯著增加。 資料庫是數據倉庫的基礎。數據倉庫實際上也是由資料庫的很多表組成的(這句話明顯不成立,數據倉庫里表分為事實表和維表,這和資料庫里的表還是有本質區別的,組織方式完全不一樣,一個是面向主題,一個是面向業務的)。需要把存放大量操作性業務數據的資料庫經過篩選、抽取、歸納、統計、轉換到一個新的資料庫中。然後再進行數據展現。老闆關注的是數據展現的結果。
2. 數據倉庫與數據挖掘問題
公眾交流平台
1 介紹
數據倉庫是面向主題的、集成的、與時間相關的、不可修改的數據集合。數據倉庫技術是基於信息系統業務發展的需要,基於資料庫系統技術發展而來,並逐步獨立的一系列新的應用技術。數據倉庫系統可以看作是基於數學及統計學嚴謹邏輯思維的並達成「科學的判斷、有效的行為」的一個工具,也是一種達成「數據整合、知識管理」的有效手段。隨著數據倉庫技術應用的不斷深入,越來越多的企業開始使用數據倉庫技術建設自己的數據倉庫系統,希望能對歷史數據進行具體而又有針對性的分析與挖掘,以期從中發現新客戶和客戶新的需求。
目前主要的數據倉庫產品供應商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收購)等。Oracle公司的數據倉庫解決方案包含了業界領先的資料庫平台、開發工具和應用系統,能夠提供一系列的數據倉庫工具集和服務,具有多用戶數據倉庫管理能力,多種分區方式,較強的與OLAP工具的交互能力,及快速和便捷的數據移動機制等特性;IBM公司的數據倉庫產品稱為DB2 Data Warehouse Edition,它結合了DB2數據伺服器的長處和IBM的商業智能基礎設施,集成了用於倉庫管理、數據轉換、數據挖掘以及OLAP分析和報告的核心組件,提供了一套基於可視數據倉庫的商業智能解決方案;微軟的SQL Server提供了三大服務和一個工具來實現數據倉庫系統的整合,為用戶提供了可用於構建典型和創新的分析應用程序所需的各種特性、工具和功能,可以實現建模、ETL、建立查詢分析或圖表、定製KPI、建立報表和構造數據挖掘應用及發布等功能;SAS公司的數據倉庫解決方案是一個由30多個專用模塊構成的架構體系,適應於對企業級的數據進行重新整合,支持多維、快速查詢,提供服務於OLAP操作和決策支持的數據採集、管理、處理和展現功能;Teradata公司提出了可擴展數據倉庫基本架構,包括數據裝載、數據管理和信息訪問幾個部分,是高端數據倉庫市場最有力競爭者,主要運行在基於Unix操作系統平台的NCR硬體設備上;Sybase提供了稱為Warehouse Studio的一整套覆蓋整個數據倉庫建立周期的產品包,包括數據倉庫的建模、數據集成和轉換、數據存儲和管理、元數據管理和數據可視化分析等產品;Business Objects是集查詢、報表和OLAP技術為一身的智能決策支持系統,具有較好的查詢和報表功能,提供多維分析技術,支持多種資料庫,同時它還支持基於Web瀏覽器的查詢、報表和分析決策。
根據IDC發布的2006年數據倉庫市場分析報告,上述公司占據了全球近90%的市場份額,提供的數據倉庫產品的功能特性已經成為市場的主流。這些公司在推出各自的數據倉庫產品的同時也提供了相應的數據倉庫解決方案。本文後續內容將針對這些數據倉庫產品和解決方案的主要支撐技術進行比較,並結合IDC和ChinaBI相關報告給出相應的市場情況分析。
2 支撐技術
在數據倉庫系列技術中,主要的支撐技術包括資料庫技術、ETL技術、OLAP技術、報表技術、數據挖掘技術。
2.1 資料庫技術
資料庫技術是支撐數據倉庫技術的基礎技術。盡管在數據倉庫技術存儲模型方面,基於資料庫技術而發展的關系模式的理念已經被顛覆,取而代之是各種各樣的數據倉庫數據模型,如星型模型,雪花模型等。然而,在已有的數據倉庫實踐中,關系資料庫仍然是實質的資料庫存儲工具,只是將資料庫表改稱為了事實表和維表,將屬性域之間的關系重新定義為維度,量度,層次,粒度等。
成熟的數據倉庫後台資料庫包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查詢效率方面,Sybase IQ由於採用了列存儲技術,查詢效率比較高;在兼容性方面,Teradata從軟體到硬體都必須是專用的,因而兼容性最差;在管理平台和海量數據管理方面,Oracle、DB2和SQL Server都提供了一系列完整的工具,相對於其它產品有著明顯的優勢;在磁碟空間利用方面,Sybase IQ的壓縮比是所有資料庫中最好的,而Teradata最為浪費。
另外,SAS公司和BO公司也擁有自己的數據管理能力,但對於大型數據倉庫的數據管理,仍然需要使用上述資料庫產品,SAS和BO都提供了與這些資料庫進行連接的專門介面。
2.2 ETL技術
數據倉庫系統是集成的、與時間相關的數據集合,ETL作為數據倉庫的核心,負責將分布的、異構數據源中的數據進行抽取、清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。ETL能夠按照統一的規則集成並提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。要實現數據倉庫中數據的自動更新運轉,ETL技術是必不可少的關鍵技術之一。
主流數據倉庫產品供應商都擁有各自的ETL能力。IBM的ETL工具稱為IBM WebSphere DataStage,它為整個ETL過程提供了一個圖形化的開發環境,支持對多種操作數據源的數據抽取、轉換和維護,並將其輸入數據集或數據倉庫;Teradata的ETL工具稱為ETL Automation,它利用Teradata資料庫本身的並行處理能力,通過SQL語句實現數據的轉換,提供對ETL流程的支持,包括前後依賴、執行和監控等;SAS的ETL工具稱為ETL Studio,提供管理ETL流程和建立數據倉庫、數據集市和OLAP結構的單控制點。其他幾家公司則將其工具融合在大的數據倉庫組件中,如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可擴展數據整合平台Data Integrator。
上述各公司提供的ETL相關工具功能相近,在易用性、效率、價格等方面各有千秋,但就工具的二次開發、集成和開放性而言,與專業的數據集成平台,如Informatica公司的PowerCenter,相比還是存在一定的差距。
2.3 OLAP技術
聯機分析處理(OLAP)是針對特定問題的聯機數據訪問和分析,通過對信息進行快速、穩定、一致和互動式的存取,對數據進行多層次、多階段的分析處理,以獲得高度歸納的分析結果。聯機事務處理(OLTP)已不能滿足終端用戶對資料庫查詢分析的需要,SQL對大數據庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系資料庫進行大量計算才能得到結果,而查詢的結果並不能滿足決策者提出的需求,由此出現了多維資料庫和多維分析的概念。
目前主流的OLAP產品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP Server等,這些產品都可以生成多維數據立方體,提供多維數據的快速分析,支持所有主流關系型資料庫如DB2,Oracle,SQL Server,Sybase等,同時可讀取關系資料庫中細節數據,實現混合在線分析(HOLAP)或關系型在線分析(ROLAP)。並且,各廠商的OLAP Sever對自己的資料庫產品的支持均好於其它資料庫,各自的分析工具也都基於開放的OLE DB標准,可以訪問支持OLE DB標準的數據立方體。
BO公司和Sybase公司則分別提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension,支持標准OLAP API,如OLEDB for OLAP,能夠對Microsoft、IBM等OLAP數據進行劃分、鑽取等處理,兼容第三方報表和展現工具。Teradata盡管不提供獨立的OLAP工具,但提供了相關技術,用於提升運行於Teradata資料庫上的OLAP應用系統的性能。
2.4 報表技術
報表技術主要是將集成在數據模型里的數據,按照復雜的格式、指定行列統計項,計算形成的特殊表格。一般的簡單報表可以使用通用的前台展現技術實現,而復雜的報表則需要使用特定的報表技術。主流的報表技術都可以靈活的制定各種報表模版庫和指標庫,並根據每個區塊或單元格的需要引用指標,實現一系列復雜的符合要求的報表的自動生成。
主流數據倉庫廠商的報表工具中較為有影響包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通過收購Cognos公司獲得了完整的報表產品Cognos ReportNet,覆蓋了各種報表需求,包括管理報表、商業報表、賬單和發票等;BO公司提供了一個完整的企業報表解決方案Crystal Reports Server,支持通過Web快速便捷的創建、管理和交付報表;Oracle Reports工具提供了自由的數據格式方式,可以自動生成個性化字母或矩陣風格的布局,包括動態、數據驅動的圖表;SQL Server的報表功能包含在Reporting Services (SSRS)中,包括處理組件、一整套可用於創建和管理報表的工具、在自定義應用程序中集成和擴展數據和報表處理的API。與上述產品相比,Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等報表產品在功能、性能、二次開發等方面都還存在著一定的差距。
總的來說,這些產品在大部分通用軟體領域相對國產軟體都要優秀,但在有中國特色的報表領域內卻是例外,在處理能力存在一定的不適應性。另外這些產品的數學模型都是基於SQL/OLAP理論設計的,在技術上也不能滿足國內復雜報表的製作需求。
2.5 數據挖掘技術
當數據積累到一定數量時,某些潛在聯系、分類、推導結果和待發現價值隱藏在其中,可以使用數據發掘工具幫助發現這些有價值的數據。數據挖掘就是從海量數據中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。通過數據挖掘能找出資料庫中隱藏的信息,實現用模型來擬合數據、探索型數據分析,數據驅動型的發現,演繹型學習等功能。
目前,IBM公司的IBM Intelligent Miner支持典型數據集自動生成、關聯發現、序列規律發現、概念性分類和可視化呈現,可以自動實現數據選擇、數據轉換、數據發掘和結果呈現這一整套數據發掘操作;Oracle公司提供的數據挖掘平台稱為Oracle Data Miner,它提供了的一個圖形用戶界面,通過簡單易用的向導來指導完成數據准備、數據挖掘、模型評估和模型評價過程,根據需要自動生成將數據挖掘步驟轉換成一個集成的數據挖掘/BI應用程序所需的代碼;SAS公司的SAS Enterprise Miner將數據挖掘過程簡單流程化,支持關聯、聚類、決策樹、神經元網路和經典的統計回歸技術;Teradata公司的挖掘工具稱為Teradata Warehouse Miner,它通過將數據挖掘技術整合到數據倉庫來簡化數據挖掘流程,該工具還可實現將多家廠商的數據挖掘技術嵌入Teradata企業級數據倉庫環境中運行;Microsoft數據挖掘平台不同於傳統數據挖掘應用程序,它支持組織中數據的整個開發生命周期,允許第三方添加自定義演算法以支持特定的挖掘需求,支持實時根據挖掘的數據集進行數據驗證。對比於上述公司,Sybase和BO公司並沒有推出專門的數據挖掘平台或工具。
和前幾項支撐技術相比,數據挖掘技術的專業性更強,與應用領域的特殊背景結合得更加緊密。上述產品除了在性能、通用性、數據展示、二次開發上有一定差異外,沒有一個能夠占據絕對技術和市場優勢,反而是一些專門領域內的專業挖掘工具更具競爭性,如Fair Isaac公司占據了全球信用卡積分市場近7成的份額。
3 市場分析
國際權威市場分析機構IDC將數據倉庫平台工具市場細分為數據倉庫生成(Data Warehouse Generation)工具市場和數據倉庫管理(Data Warehouse Management)工具市場兩個部分,前者涵蓋數據倉庫的設計和ETL過程的各種工具,後者指數據倉庫後台資料庫的管理工具,如DBMS。根據IDC發布的《全球數據倉庫平台工具2006年度供應商市場份額》分析報告,2006年該市場增長率為12.5%,規模達到57億美元,其中數據倉庫生成工具和數據倉庫管理工具兩個市場的比重分別為23.3%和76.7%,相對於數據倉庫管理工具市場,數據倉庫生成工具市場的增長進一步放緩。可以預見,整個數據倉庫市場將進一步向擁有強大後台資料庫系統的傳統廠商傾斜。從供應商看,Oracle公司繼續占據數據倉庫管理領域的領先供應商地位,並且與其主要競爭者IBM之間的這種領先優勢正逐漸擴大。Microsoft緊追IBM之後,與其之間的差距則在逐漸縮小。
在國內,商業智能已經成為企業信息化中最重要的組成部分,而數據倉庫相關技術在其中扮演著無可替代的重要角色。據ChinaBI統計,2007年中國大陸地區的BI市場份額約為20億元人民幣,同比2006年增長35%,其中BI產品許可證約為9億元人民幣,BI系統集成約為11億元人民幣。現有BI廠商包括產品提供商、集成商、分銷商、服務商等有近500家,在未來幾年內商業智能市場需求旺盛,市場規模增長迅速。從國內數據倉庫實踐看,根據ChinaBI評選的2007年中國十大數據倉庫的初步結果,傳統資料庫廠商占據7個,分別是IBM 3個、Oracle 3個、SQL Server 1個,其餘3個屬於NCR/Teradata公司;從數據倉庫規模來看,傳統資料庫廠商更佔有巨大優勢,總數據量為536.3T,Teradata則為54T。涉及的行業包括通信、郵政、稅務、證券和保險等。
在數據倉庫市場快速發展的同時,市場競爭也日趨激烈,其中尤其以Oracle收購Hyperion、SAP收購BO、IBM收購Cognos具有代表意義。截至2007年底,混亂的市場已經基本明朗化,三個層次逐漸浮現出來。Oracle,IBM,Microsoft和SAP位居第一層次,能夠提供全面的解決方案;第二層次是NCR Teradata和SAS等產品相對獨立的供應商,可以提供解決方案中的部分應用;第三層次是只專注於單一領域的專業廠商,但其在並購的硝煙中日趨難以存活。
3. 誰能說說數據倉庫,數據挖掘,BI三者之間的區別和聯系的相關推薦
數據倉庫(DW)屬於BI的一部分,一般來說DW就是BI這個房子的地基了. 做好DW才好進而分析利用內,讓數據容產生價值. DW沒做好,整個BI項目很容易垮掉.
BI包括ETL, DW和相應的Reporting System. 因為現在一般的公司動不動說上個BI系統,都是要從DW建模開始做,然後做ETL,最後做對應的Reporting System. 雖然最終領導們只看到了他們想要的報表,但是這一套系統是需要DW和ETL的支持的。
數據挖掘(DM)是一門新興的技術,在BI 中會常用到數據挖掘的技術。數據挖掘涉及到的是資料庫、統計學、機器學習、數據分析、可視化等等。
三者之間緊密聯系,但是屬於三個不同的概念范疇。
4. 教你輕松掌握數據倉庫的規劃和構建策略
教你輕松掌握數據倉庫的規劃和構建策略
數據倉庫作為決策支持系統(DSS)的基礎,具有面向主題的、集成的、不可更新的、隨時間不斷變化的特性。這些特點說明了數據倉庫從數據組織到數據處理,都與原來的資料庫有很大的區別,這也就需要在數據倉庫系統設計時尋求一個適合於數據倉庫設計的方法。在一般的系統開發規劃中,首先需要確定系統的功能,這些系統的功能一般是通過對用戶的需求分析得到的。從數據倉庫的應用角度來看,DSS分析員一般是企業中的中高層管理人員,他們對決策支持的需求不能預先做出規范的說明,只能給設計人員一個抽象地描述。
這就需要設計人員在與用戶不斷的交流溝通中,將系統的需求逐步明確,並加以完善。因此數據倉庫的開發規劃過程實際上是一個用戶和設計人員對其不斷了解、熟悉和完善的過程。 數據倉庫的開發應用規劃是開發數據倉庫的首要任務。只有制定了正確的數據倉庫規劃,才能使組織主要力量有序地實現數據倉庫的開發應用。在數據倉庫規劃中一般需要經歷這樣幾個過程:選擇實現策略、確定數據倉庫的開發目標和實現范圍、選擇數據倉庫體系結構、建立商業和項目規劃預算。 當數據倉庫規劃完成後,需要編制相應的數據倉庫規劃說明書,說明數據倉庫與企業戰略的關系,以及與企業急需處理的、范圍相對有限的開發機會,重點支持的職能部門和今後數據倉庫開發工作的建議,實際使用方案和開發預算,作為數據倉庫實際開發的依據。
1、選擇數據倉庫實現策略
數據倉庫的開發策略主要有自頂向下、自底向上和這兩種策略的聯合使用。自頂向下策略在實際應用中比較困難,因為數據倉庫的功能是一種決策支持功能。這種功能在企業戰略的應用范圍中常常是很難確定的,因為數據倉庫的應用機會往往超出企業當前的實際業務范圍,而且在開發前就確定目標,會在實現預定目標後就不再追求新的應用,是數據倉庫喪失更有戰略意義的應用。由於該策略在開發前就可以給出數據倉庫的實現范圍,能夠清楚地向決策者和企業描述系統的收益情況和實現目標,因此是一種有效的數據倉庫開發策略。該方法使用時需要開發人員具有豐富的自頂向下開發系統的經驗,企業決策層和管理人員完全知道數據倉庫的預定目標並且了解數據倉庫能夠在那些決策中發揮作用。
自底向上策略一般從某個數據倉庫原型開始,選擇一些特定的為企業管理人員所熟知的管理問題作為數據倉庫開發的對象,在此基礎上進行數據倉庫的開發。因此,該策略常常用於一個數據集市、一個經理系統或一個部門的數據倉庫開發。該策略的優點在於企業能夠以較小的投入,獲得較高的數據倉庫應用收益。在開發過程中,人員投入較少,也容易獲得成效。當然,如果某個項目的開發失敗可能造成企業整個數據倉庫系統開發的延遲。該策略一般用於企業洗碗對數據倉庫的技術進行評價,以確定該技術的應用方式、地點和時間,或希望了解實現和運行數據倉庫所需要的各種費用,或在數據倉庫的應用目標並不是很明確時,數據倉庫對決策過程影響不是很明確時使用。
在自頂向下的開發策略中可以採用結構化或面向對象的方法,按照數據倉庫的規劃、需求確定、系統分析、系統設計、系統集成、系統測試和系統試運行的階段完成數據倉庫的開發。而在自底向上的開發中,則可以採用螺旋式的原型開發方法,使用戶可以根據新的需求對試運行的系統進行修改。螺旋式的原型開發方法要求在較短的時間內快速的生成可以不斷增加功能的數據倉庫系統,這種開發方法主要適合於這樣一些場合:在企業的市場動向和需求無法預測,市場的時機是實現產品的重要組成部分,不斷地改進對與企業的市場調節是必需的;持久的競爭優勢來自連續不斷地改進,系統地改進是基於用戶在使用中的不斷發現。 自頂向下和自底向上策略的聯合使用具有兩種策略的優點,既能快速的完成數據倉庫的開發與應用,還可建立具有長遠價值的數據倉庫方案。但在實踐中往往難以操作,通常需要能夠建立、應用和維護企業模型、數據模型和技術結構的、具有豐富經驗的開發人員,能夠熟練的從具體(如業務系統中的元數據)轉移到抽象(只基於業務性質而不是基於實現系統技術的邏輯模型);企業需要擁有由最終用戶和信息系統人員組成的有經驗的開發小組,能夠清楚地指出數據倉庫在企業戰略決策支持中的應用。
2、確定數據倉庫的開發目標和實現范圍
為確定數據倉庫的開發目標和實現范圍,首先需要對企業管理者等數據倉庫用戶解釋數據倉庫在企業管理中的應用和發展趨勢,說明企業組織和使用數據來支持跨功能系統的重要性,對企業經營戰略的支持,以確定開發目標。在該階段確認與使用數據倉庫有關的業務要求,這些要求應該只支持最主要的業務職能部門,將使用精力集中在收益明顯的業務上,使數據倉庫的應用立即產生效果,不應該消耗太多的精力在各個業務上同時鋪開數據倉庫的應用。
在確定開發目標和范圍以後,應該編制需求文檔,作為今後開發數據倉庫的依據。 數據倉庫開發的首要目標是確定所需要信息的范圍,確定用戶提供決策幫助時,在主題和指標域需要哪些數據源。這就需要定義:用戶需要什麼數據?面向主題的數據倉庫需要什麼樣的支持數據?為成功地向用戶提交數據,開發人員需要哪些商業知識?哪些背景知識?這就需要定義整體需求,以文件的形式整理現存的記錄系統和系統環境,對使用數據倉庫中數據的候選應用系統進行標識、排序,構造一個傳遞模型,確定尺度、事實及時間標記演算法,以便從系統中抽取信息且將他們放入數據倉庫。通過信息范圍確定可為開發人員提供一個良好的分析平台,和用戶一起分析哪些信息是數據倉庫需要的,進行商業活動需要什麼數據。開發人員可以和用戶進一步定義需要,例如數據分級層次、聚合的層次、載入的頻率以及需要保持的時間表等。 數據倉庫開發的另一個重要目標是確定利用哪些方法和工具訪問和導航數據?雖然用戶都需要存取並且檢索數據倉庫的內容,但是所存取的粒度有所不同,有的可能是詳細的記錄,有的可能是比較概括的記錄或十分概括的記錄。用戶要求的數據概括程度不同,將導致數據倉庫的聚集和概括工具的需求不同。
數據倉庫還有具有一定功能來訪問和檢索圖表、預定義的報表、多維數據、概括性數據和詳細記錄。用戶從數據倉庫中獲得信息,應該有電子表格、統計分析器和支持多維分析的分析處理器等工具的支持,以解釋和分析數據倉庫中的內容,產生並且驗證不同的市場假設、建議和決策方案。為將決策建議和各種決策方案向用戶清楚地表達出來,需要利用報表、圖表和圖像等強有力的信息表達工具。 數據倉庫開發的其他目標,是確定數據倉庫內部數據的規模。在數據倉庫中不僅包含當前數據,而且包含多年的歷史數據。數據的概括程度決定了這些數據壓縮和概括的最大限度。如果要讓數據倉庫提供對歷史記錄進行決策查詢的功能,就必須支持對大量數據的管理。數據的規模不僅直接影響決策查詢的時間,而且還將直接影響企業決策的質量。
在數據倉庫的開發目標中,還有:根據用戶對數據倉庫的基本需求,確定數據倉庫中數據的含義;確定數據倉庫內容的質量,以確定使用、分析和建議的可信級別;哪種類型的數據倉庫可以滿足最終用戶的需求,這些數據倉庫應該具有怎樣的功能;需要哪些元數據,如何使用數據源中的數據等。 數據倉庫的開發目標多種多樣,十分復雜,需要開發人員和用戶在開發與使用的過程中不斷交互完善。因此,在規劃中需要確定數據倉庫的開發范圍。使開發人員能夠根據需求和目標的重要性逐步進行,並且在開發中吸取經驗教訓,為數據倉庫在企業中的全部實現提供技術准備。因此,在為數據倉庫確定總體開發方向和目標以後,就必須確定一個有限的能夠很快體現數據倉庫效益的使用范圍。在考慮數據倉庫苦的應用范圍時,主要從使用部門的數量和類型、數據源的數量、企業模型的子集、預算分配以及開發項目所需的時間等角度分析。
在分析這些因素時,可從用戶的角度和技術的角度兩方面進行。 從用戶的角度應該分析哪些部門最先使用數據倉庫?是哪些人員為了什麼目的使用數據倉庫?以及數據倉庫首先要滿足哪些決策查詢?因為這些決策查詢往往確定了關於數據維數、報表的種類,這些因素都將確定數據倉庫定義時所需要的數量關系。查詢的格式越具體,越容易提供數據倉庫的維數、聚集和概括的規劃說明。 從技術角度分析,應該確定數據倉庫中元資料庫的規模,數據倉庫的元資料庫是存儲數據倉庫中數據定義的模型。數據定義存儲在倉庫管理器的目錄中,可以作為所有查詢和報表工具構造和查詢數據倉庫的依據。元資料庫的規模直接表示了數據倉庫中必須管理的數據規模。通過對元資料庫規模的管理,實際上就確定了數據倉庫中所需要管理的數據規模。
3、數據倉庫的結構選擇
數據倉庫的結構可以進行靈活的選擇,可將組織所使用的各種平台進行恰當的分割,把數據源、數據倉庫和最終用戶使用的工作站分割開來進行恰當的設計。
(1)數據倉庫的應用結構
基於業務處理系統的數據倉庫 在這種結構中,將運作的數據用於無需修改數據的只讀應用程序中。具有這種結構的數據倉庫元資料庫是一種虛庫,而不是數據倉庫自身的元數據。在數據倉庫元資料庫的直接指導下,對數據倉庫的查詢就是簡單的從資料庫中抽取數據。
單純數據倉庫
利用在數據倉庫中的數據源凈化、集成、概括和集成等操作,將數據源從業務處理系統中傳輸進集中的數據倉庫,各部門的數據倉庫應用只在數據倉庫中進行。這種結構經常發生在多部門、少用戶使用數據倉庫的情況下。這里的集中僅僅是邏輯上的,物理上可能是分散的。
單純數據集市
數據集市是指在部門中使用的數據倉庫,因為企業中的各個職能部門都有自己的特殊需要,而統一的數據倉庫可能不能滿足這些部門的特殊要求。這種體系結構經常發生在個別部門對數據倉庫的應用感興趣,而組織中其他部門卻對數據倉庫的應用十分冷漠之時,由熱心的部門單獨開發式所採用。
數據倉庫和數據集市
企業各部門擁有滿足自己需要的數據集市,其數據從企業數據倉庫中獲取,而數據倉庫從企業各種數據源中收集和分配。這種體系結構是一種較為完善的數據倉庫體系結構,往往發生在組織整體對數據倉庫應用感興趣之時所採用的體系結構。
(2)數據倉庫的技術平台結構 單層結構
單層結構主要是在數據源和數據倉庫之間共享平台,或者讓數據源、數據倉庫、數據集市與最終用戶工作站使用同一個平台。共享一個平台可以降低數據抽取和數據轉換的復雜性,但是共享平台在應用中可能遇到性能和管理方面的問題,這種體系結構一般在數據倉庫規模較小,而組織的業務系統平台具有較大潛力之時所採用。
客戶/伺服器兩層結構
一層為客戶機,一層為伺服器,最終用戶訪問工具在客戶層上運行,而數據源、數據倉庫和數據集市位於伺服器上,該技術機構一般用於普通規模的數據倉庫。
三層客戶/伺服器結構
基於工作站的客戶層、基於伺服器的中間層和基於主機的第三層。主機層負責管理數據源和可選的源數據轉換;伺服器運行數據倉庫和數據集市軟體,並且存儲倉庫的數據;客戶工作站運行查詢和報表運用程序,且還可以存儲從數據集市或數據倉庫卸載的局部數據。在數據倉庫稍具規模,兩層數據倉庫結構已經不能滿足客戶的需求,要講數據倉庫的數據存儲管理、數據倉庫的應用處理和客戶端應用分開之時,可以採用這種結構。
多層式結構
這是在三層機構基礎上發展起來的數據倉庫結構,在該結構中從最內數據層到最外層的客戶層依次是:單獨的數據倉庫存儲層、對數據倉庫和數據集市進行管理的數據倉庫服務層、進行數據倉庫查詢處理的查詢服務層、完成數據倉庫應用處理的應用服務層和面向最終用戶的客戶層。體系層次可能多達五層,這種體系結構一般用於超規模數據倉庫系統。
4、數據倉庫使用方案和項目規劃預算
數據倉庫的實際使用方案與開發預算,是數據倉庫規劃中最後需要確定的問題。因為數據倉庫主要用於對企業管理人員的決策支持,確保其實用性是十分重要的,因此需要讓最終用戶參與數據倉庫的功能設計。這種參與是通過用戶的實際使用方案進行的,使用方案是一個非常重要的需求模型。實際使用方案必須有助於闡明最終用戶對數據倉庫的要求,這些要求有的只使用適當的數據源就可以得到基本滿足,而有的卻需要來自企業外部的數據源,這就需要通過使用方案將這些不同的要求聯系起來。 實際使用方案還可以將最終用戶的決策支持要求與數據倉庫的技術要求聯系起來。因為當用戶確定最終要求後,為元資料庫的范圍確定一個界限。還可以確定所需要的歷史信息的數量,當根據特定的用戶進行數據倉庫的規劃時,就可確定最終用戶所關心的維度(時間、方位、商業單位和生產企業),因為維度與所需要的概括操作有明顯的關系,必須選擇對最終用戶有實際意義的維度,如:「月」、「季度」、「年」等。最後,還可以確定數據集市/數據倉庫的結構需要,使設計人員確定採用單純數據倉庫結構,還是單純的數據集市結構或者是兩者相結合的結構。
在實際使用開發方案確定後,還需要對開發方案的預算進行估計,確定項目的投資數額。投資方案的確定可以依據以往的軟體開發成本,但是這種預算的評估比較粗糙。另一種方法是參照結構進行成本評估,也就是說,將數據倉庫實際使用方案所確定的構件進行分解,根據各個構件的成本進行預算估算。數據倉庫的構件包含在數據源、數據倉庫、數據集市、最終用戶存取、數據管理、元數據管理、傳輸基礎等部分中,這些構件有的在企業原有信息系統中已經具備,有的可以選擇商品化構件,有的則需要自我開發。根據這些構件的不同來源,可以確定比較准確的預算。 在完成數據倉庫規劃後,就需要編制數據倉庫開發說明書,說明系統與企業戰略目標的關系,以及系統與企業急需處理的范圍相對有限的開發機會,所設想的業務機會的說明以及目標任務概況說明、重點支持的職能部門和今後工作的建議。數據倉庫項目應有明確的業務價值計劃開始,在計劃中需要闡明期望取得的有形和無形的利益。無形利益包含利用數據倉庫使決策完成得更快更好等利益。
業務價值計劃最好由目標業務主管來完成,因為數據倉庫是用戶驅動的,應該讓用戶積極參與數據倉庫的建設,在規劃書中要確定數據倉庫開發目標的實現范圍、體系結構和使用方案及開發預算。
5. 何謂數據倉庫為什麼要建立數據倉庫何謂數據挖掘它有哪些方面的功能
何謂數據倉庫?為什麼要建立數據倉庫?
答:數據倉庫是一種新的數據處理體系結構,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,為企業決策支持系統提供所需的集成信息。
建立數據倉庫的目的有3個:
一是為了解決企業決策分析中的系統響應問題,數據倉庫能提供比傳統事務資料庫更快的大規模決策分析的響應速度。
二是解決決策分析對數據的特殊需求問題。決策分析需要全面的、正確的集成數據,這是傳統事務資料庫不能直接提供的。
三是解決決策分析對數據的特殊操作要求。決策分析是面向專業用戶而非一般業務員,需要使用專業的分析工具,對分析結果還要以商業智能的方式進行表現,這是事務資料庫不能提供的。
何謂數據挖掘?它有哪些方面的功能?
答:從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數據挖掘。相關的名稱有知識發現、數據分析、數據融合、決策支持等。
數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。