❶ 數據倉庫的發展歷程
數據倉庫是決策支持系統(dss)和聯機分析應用數據源的結構化數據環境。數據倉庫研究和解決從資料庫中獲取信息的問題。數據倉庫的特徵在於面向主題、集成性、穩定性和時變性。
數據倉庫 ,由數據倉庫之父比爾·恩門(Bill Inmon)於1990年提出,主要功能仍是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。
數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的「Building the Data Warehouse」(《建立數據倉庫》)一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。
❷ 資料庫技術的發展趨勢
下一代資料庫技術的發展主流
針對關系資料庫技術現有的局限性,理論界如今主要有三種觀點 :
面向對象的資料庫技術將成為下一代資料庫技術發展的主流 部分學者認為現有的關系型資料庫無法描述現實世界的實體,而面向對象的數據模型由於吸收了已經成熟的面向對象程序設計方法學的核心概念和基本思想,使得它符合人類認識世界的一般方法,更適合描述現實世界。甚至有人預言,資料庫的未來將是面向對象的時代。
面向對象的關系資料庫技術 關系資料庫幾乎是當前資料庫系統的標准,關系語言與常規語言一起幾乎可完成任意的資料庫操作,但其簡潔的建模能力、有限的數據類型、程序設計中數據結構的制約等卻成為關系型資料庫發揮作用的瓶頸。面向對象方法起源於程序設計語言,它本身就是以現實世界的實體對象為基本元素來描述復雜的客觀世界,但功能不如資料庫靈活。因此部分學者認為將面向對象的建模能力和關系資料庫的功能進行有機結合而進行研究是資料庫技術的一個發展方向。
面向對象資料庫技術 面向對象資料庫的優點是能夠表示復雜的數據模型,但由於沒有統一的數據模式和形式化理論,因此缺少嚴格的數據邏輯基礎。而演繹資料庫雖有堅強的數學邏輯基礎,但只能處理平面數據類型。因此,部分學者將兩者結合,提出了一種新的資料庫技術——演繹面向對象資料庫,並指出這一技術有可能成為下一代資料庫技術發展的主流。
資料庫技術發展的新方向
非結構化資料庫是部分研究者針對關系資料庫模型過於簡單,不便表達復雜的嵌套需要以及支持數據類型有限等局限,從數據模型入手而提出的全面基於網際網路應用的新型資料庫理論。支持重復欄位、子欄位以及變長欄位並實現了對變長數據和重復欄位進行處理和數據項的變長存儲管理,在處理連續信息(包括全文信息)和非結構信息 (重復數據和變長數據)中有著傳統關系型資料庫所無法比擬的優勢。但研究者認為此種資料庫技術並不會完全取代如今流行的關系資料庫,而是它們的有益的補充。
資料庫技術發展的又一趨勢
有學者指出 :資料庫與學科技術的結合將會建立一系列新資料庫,如分布式資料庫、並行資料庫、知識庫、多媒體資料庫等,這將是資料庫技術重要的發展方向。其中,許多研究者都對多媒體資料庫作為研究的重點,並認為多媒體技術和可視化技術引入多媒體資料庫將是未來資料庫技術發展的熱點和難點。
未來資料庫技術及市場發展的兩大方向數據倉庫電子商務部分學者在對各個資料庫廠商的發展方向和應用需求的不斷擴展的現狀進行分析的基礎上,提出資料庫技術及市場在向數據倉庫和電子商務兩個方向不斷發展的觀點。他們指出 :從上一年開始,許多行業如電信、金融、稅務等逐步認識到數據倉庫技術對於企業宏觀發展所帶來的巨大經濟效益,紛紛建立起數據倉庫系統。在中國提供大型數據倉庫解決方案的廠商主要有Oracle、IBM、Sybase、CA及Informix等廠商,已經建設成功並已收回投資的項目主要有招商銀行系統和國信證券系統等。當前,國內外學者對數據倉庫的研究正在繼續深入。與此同時,一些學者將資料庫技術及市場發展的視角瞄準電子商務領域,他們認為 :如今的信息系統逐漸要求按照以客戶為中心的方式建立應用框架,因此勢必要求資料庫應用更加廣泛地接觸客戶,而Internet給了我們一個非常便捷的連接途徑,通過Internet我們可以實現所謂的One One Marketing和One One business,進而實現E business。因此,電子商務將成為未來資料庫技術發展的另一方向。
面向專門應用領域的資料庫技術許多研究者從實踐的角度對資料庫技術進行研究,提出了適合應用領域的資料庫技術如工程資料庫、統計資料庫、科學資料庫、空間資料庫、地理資料庫等。這類資料庫在原理上也沒有多大的變化,但是它們卻與一定的應用相結合,從而加強了系統對有關應用的支撐能力,尤其表如今數據模型、語言、查詢方面。部分研究者認為,隨著研究工作的繼續深和資料庫技術在實踐工作中的應用,資料庫技術將會更多朝著專門應用領域發展。 數據和數據處理
數據(Data)是用於描述現實世界中各種具體事物或抽象概念的,可存儲並具有明確意義的符號,包括數字,文字,圖形和聲音等.數據處理是指對各種形式的數據進行收集,存儲,加工和傳播的一系列活動的總和.其目的之一是從大量的,原始的數據中抽取,推導出對人們有價值的信息以作為行動和決策的依據;目的之二是為了藉助計算機技術科學地保存和管理復雜的,大量的數據,以便人們能夠方便而充分地利用這些寶貴的信息資源.
資料庫
資料庫(DataBase,DB)是存儲在計算機輔助存儲器中的,有組織的,可共享的相關數據集合.資料庫具有如下特性.
⑴資料庫是具有邏輯關系和確定意義的數據集合.
⑵資料庫是針對明確的應用目標而設計,建立和載入的.每個資料庫都具有一組用戶,並為這些用戶的應用需求服務.
⑶一個資料庫反映了客觀事物的某些方面,而且需要與客觀事物的狀態始終保持一致.
資料庫管理系統及其基本功能
資料庫管理系統(DataBase Management System,DBMS)是對資料庫進行管理的系統軟體,它的職能是有效地組織和存儲數據,獲取和管理數據,接受和完成用戶提出的各種數據訪問請求.能夠支持關系型數據模型的資料庫管理系統,稱為關系型資料庫管理系統(Relational DataBase Management System,RDBMS).
RDBMS的基本功能包括以下4個方面:
⑴數據定義功能:RDBMS提供了數據定義語言(Data Definition Language,DDL),利用DDL可以方便地對資料庫中的相關內容進行定義.例如,對資料庫,表,欄位和索引進行定義,創建和修改.
⑵數據操縱功能:RDBMS提供了數據操縱語言(Data Manipulation Language,DML),利用DML可以實如今資料庫中插入,修改和刪除數據等基本操作.
⑶數據查詢功能:RDBMS提供了數據查詢語言(Data Query Language,DQL),利用DQL可以實現對資料庫的數據查詢操作.
⑷數據控制功能:RDBMS提供了數據控制語言(Data Control Language,DCL),利用DCL可以完成資料庫運行控制功能,包括並發控制(即處理多個用戶同時使用某些數據時可能產生的問題),安全性檢查,完整性約束條件的檢查和執行,資料庫的內部維護(例如索引的自動維護)等.RDBMS的上述許多功能都可以通過結構化查詢語言(Structured Query Language,SQL)來實現的,SQL是關系資料庫中的一種標准語言,在不同的RDBMS產品中,SQL中的基本語法是相同的.此外,DDL,DML,DQL和DCL也都屬於SQL.
⒈3.4資料庫應用系統及其組成
資料庫應用系統又簡稱為資料庫系統,是指擁有資料庫技術支持的計算機系統,它可以實現有組織地,動態地存儲大量相關數據,提供數據處理和信息資源共享服務的功能.
各類人員主要參與資料庫應用系統的需求分析,設計,開發,使用,管理和維護,他們在資料庫應用系統的開發,運行及維護等階段扮演著不同的角色,並起著不同的作用.各類人員主要包括以下幾種.
⑴最終用戶.
⑵系統分析員.
⑶應用程序員.
⑷資料庫管理員(DataBase Administrator,DBA). 從其應用方式來看,資料庫技術主要起著兩方面的作用.
⑴信息系統開發作用.利用資料庫技術以及互聯網技術,並結合具體的編程語言,可以開發一個信息系統,從而解決業務數據的輸入和管理問題.在信息系統開發中,主要利用的是RDBMS的基本功能,即數據定義功能,數據操縱功能,數據查詢功能以及數據控制功能.
⑵數據分析與展示作用.利用RDBMS的數據查詢功能對資料庫中的數據進行關聯組合或逐級匯總分析,並以表格,圖形或報表形式將分析結果進行展示,從而解決業務數據的綜合利用問題.
❸ 資料庫的發展前景怎麼樣
在信息化時代,資料庫成為企業經營管理必不可少的工具。經過了一個世紀的發展,目前資料庫行業已經進入到快速發展階段,非關系型的資料庫盛行,「數據上雲」新模式誕生,市場規模達到665億美元。未來,隨著海量數據的爆發,全球資料庫行業市場規模有望突破2000億美元。
資料庫成為企業經營管理必不可少的工具
在全球信息化的時代,資料庫已經逐漸成為了眾多企業經營管理必不可少的工具。資料庫指的是一種用於存儲和管理擁有固定格式和結構數據的倉庫型數據管理系統。
資料庫這一行業技術發源並興起於美國,如今已經廣泛應用於全世界各企業之中。資料庫一般可分為關系型資料庫和非關系型資料庫。
關系型資料庫的基層單位是由二維的行列分部組成的表格,一個關系型資料庫往往可以涵蓋多個行列分部表格。表格中每一行分布代表了一條獨特的數據記錄,而各列則代表了同一數據記錄的不同特性。通過多種來源獲取的數據最後會通過抽取、轉化、載入後整合進一個數據倉庫之中。關系型資料庫根據其數據處理技術的不同又可以分為聯機事務型資料庫與聯機分析型資料庫。
非關系型資料庫是一個用於概括一切可供替代傳統關系型資料庫的開放式術語。非關系型資料庫同樣也可以通過嵌套類的方式將互有關系的數據存儲在同一結構當中。非關系型資料庫採用了更為靈活的數據結構,並且可以橫向到達多個處理器。以功能劃分,非關系型資料庫可以分為文檔型資料庫、鍵值型資料庫、列存儲資料庫、圖形資料庫四種。
非關系型的資料庫盛行,「數據上雲」新模式誕生
經歷了前兩個階段的發展,目前全球資料庫已經進入到了快速發展期,非關系型的資料庫盛行,「數據上雲」新模式誕生。2019年,全球資料庫行業市場規模已經達到了584億美元。2020年,全球信息化程度進一步提高,經營管理信息化、辦公模式自動化等均推動了整個全球資料庫行業的發展,2020年全球資料庫行業市場規模已經達到了665億美元。
註:2019年數據為Expert Market Research測算數據,2018和2020年數據為前瞻基於Expert Market Research數據同時根據行業當年及往年發展情況進行的測算。
海量數據爆發將驅動全球資料庫行業市場規模增長
在互聯網化趨勢下,各個行業數據量呈爆炸式增長。另外隨著數據大集中、數據挖掘、商業智能、協同作業等大數據處理技術的日趨成熟,數據價值呈指數上升趨勢。
根據IDC與浪潮聯合發布的最新報告顯示,隨著數據爆發式增長,到2025年全球大數據儲量將達到175ZB。前瞻預測,2026年全球大數據儲量將達到223ZB。
海量數據的爆發必將驅動整個全球資料庫行業市場的穩步增長,2026年全球資料庫行業市場規模有望突破2000億美元。
❹ 資料庫的發展趨勢和發展前景
數據挖掘、海量存儲、數據倉庫、智能商務運算、高性能並發管理與控制
主流產品的發展現狀
資料庫管理系統經歷了30多年的發展演變,已經取得了輝煌的成就,發展成了一門內容豐富的學科,形成了總量達數百億美元的一個軟體產業。根據Gartner Dataquest公司的調查,2000年國際資料庫市場銷售總額達88億美元,比1999年增長10%。根據CCID的報告,2000年的中國資料庫管理系統市場銷售總額達24.8億元,比1999年增長了41.7%,占軟體市場總銷售額的10.8%。可見,資料庫已經發展成為一個規模巨大、增長迅速的市場。
目前,市場上具有代表性的資料庫產品包括Oracle公司的Oracle、IBM公司的DB2以及微軟的SQL Server等。在一定意義上,這些產品的特徵反映了當前資料庫產業界的最高水平和發展趨勢。因此,分析這些主流產品的發展現狀,是我們了解資料庫技術發展的一個重要方面。
關系資料庫技術仍然是主流
關系資料庫技術出現在20世紀70年代、經過80年代的發展到90年代已經比較成熟,在90年代初期曾一度受到面向對象資料庫的巨大挑戰,但是市場最後還是選擇了關系資料庫。無論是Oracle公司的Oracle 9i、IBM公司的DB2、還是微軟的SQL Server等都是關系型資料庫。Gartner Dataquest的報告顯示關系資料庫管理系統(RDBMS)的市場份額最大, 2000年RDBMS的市場份額占整個資料庫市場的80%,這個比例比1999年增長了15%。這組數據充分說明RDBMS仍然是當今最為流行的資料庫軟體。當前,由於互聯網應用的興起,XML格式的數據的大量出現,學術界有一部分學者認為下一代資料庫將是支持XML模型的新型的資料庫。作者對此持否定態度,認為關系技術仍然是主流,無論是多媒體內容管理、XML數據支持、還是復雜對象支持等都將是在關系系統內核技術基礎上的擴展。
產品形成系列化
一方面,Web和數據倉庫等應用的興起,數據的絕對量在以驚人的速度迅速膨脹;另一方面,移動和嵌入式應用快速增長。針對市場的不同需求,資料庫正在朝系列化方向發展。例如IBM公司的DB2通用資料庫產品包括了從高端的企業級並行資料庫伺服器,到移動端產品DB2 Everywhere的一整套系列。從支持平台看,今天的DB2已經不再是大型機上的專有產品,它支持目前主流的各種平台,包括Linux和Windows NT。此外,它還有各種中間件產品,如DB2 Connect、DB2 Datajointer、DB2 Replication等,構成了一個龐大的資料庫家族。
支持各種互聯網應用
資料庫管理系統是網路經濟的重要基礎設施之一。支持Internet(甚至於Mobile Internet)資料庫應用已經成為資料庫系統的重要方面。例如,Oracle公司從8版起全面支持互聯網應用,是互聯網資料庫的代表。微軟公司更是將SQL Server作為其整個.NET計劃中的一個重要的成分。對於互聯網應用,由於用戶數量是無法事先預測的,這就要求資料庫相比以前擁有能處理更大量的數據以及為更多的用戶提供服務的能力,也就是要擁有良好的可伸縮性及高可用性。此外,互聯網提供大量以XML格式數據為特徵的半結構化數據,支持這種類型的數據的存儲、共享、管理、檢索等也是各資料庫廠商的發展方向。
向智能化集成化方向擴展
資料庫技術的廣泛使用為企業和組織收集並積累了大量的數據。數據豐富知識貧乏的現實直接導致了聯機分析處理(OLAP)、數據倉庫(Data Warehousing)和數據挖掘(Data Mining)等技術的出現,促使資料庫向智能化方向發展。同時企業應用越來越復雜,會涉及到應用伺服器、Web伺服器、其它資料庫、舊系統中的應用以及第三方軟體等,資料庫產品與這些軟體是否具有良好集成性往往關繫到整個系統的性能。Oracle公司的Oracle 9i 產品包括了OLAP、數據挖掘、ETL工具等一套完整的BI(商業智能)支持平台,中間件產品與其核心資料庫具有緊密集成的特性,Oracle Application Server 增加的一項關鍵功能是高速緩存特性,該特性可以將數據從資料庫卸載到應用伺服器,加速 Web用戶對數據的訪問速度。IBM 公司也把BI套件作為其資料庫的一個重點來發展。微軟認為商務智能將是其下一代主要的利潤點。
資料庫技術的發展趨勢
數據、計算機硬體和資料庫應用,這三者推動著資料庫技術與系統的發展。資料庫要管理的數據的復雜度和數據量都在迅速增長;計算機硬體平台的發展仍然實踐著摩爾定律;資料庫應用迅速向深度、廣度擴展。尤其是互聯網的出現,極大地改變了資料庫的應用環境,向資料庫領域提出了前所未有的技術挑戰。這些因素的變化推動著資料庫技術的進步,出現了一批新的資料庫技術,如Web資料庫技術、並行資料庫技術、數據倉庫與聯機分析技術、數據挖掘與商務智能技術、內容管理技術、海量數據管理技術等。限於篇幅,本文不可能逐一去展開來闡述這些方面的變化,只是從這些變化中歸納出資料庫技術發展呈現出的突出特點。
「四高」 即DBMS具有高可靠性、高性能、高可伸縮性和高安全性。資料庫是企業信息系統的核心和基礎,其可靠性和性能是企業領導人非常關心的問題。因為,一旦宕機會給企業造成巨大的經濟損失,甚至會引起法律的糾紛。最典型的例子就是證券交易系統,如果在一個行情來臨的時候,由於交易量的猛增,造成資料庫系統的處理能力不足,導致資料庫系統崩潰,將會給證券公司和股民造成巨大的損失。在我國計算機應用的早期,由於計算機系統還不是企業運營必要的成分,人們對資料庫的重要性認識不足,而且為了經費上的節約常常採用一些低層次的數據管理軟體,如dBASE等,或者盜版的軟體。但是,隨著信息化進程的深化,計算機系統越來越成為企業運營的不可缺少的部分,這時,資料庫系統的穩定和高效是必要的條件。在互聯網環境下還要考慮支持幾千或上萬個用戶同時存取和7x24小時不間斷運行的要求,提供聯機數據備份、容錯、容災以及信息安全措施等。
事實上,資料庫系統的穩定和高效也是技術上長久不衰的追求。此外,從企業信息系統發展的角度上看,一個系統的可擴展能力也是非常重要的。由於業務的擴大,原來的系統規模和能力已經不再適應新的要求的時候,不是重新更換更高檔次的機器,而是在原有的基礎上增加新的設備,如處理器、存儲器等,從而達到分散負載的目的。數據的安全性是另一個重要的課題,普通的基於授權的機制已經不能滿足許多應用的要求,新的基於角色的授權機制以及一些安全功能要素,如存儲隱通道分析、標記、加密、推理控制等,在一些應用中成為切切實實的需要。
「互聯」 指資料庫系統要支持互聯網環境下的應用, 要支持信息系統間「互聯互訪」,要實現不同資料庫間的數據交換和共享,要處理以XML類型的數據為代表的網上數據,甚至要考慮無線通訊發展帶來的革命性的變化。與傳統的資料庫相比,互聯網環境下的資料庫系統要具備處理更大量的數據以及為更多的用戶提供服務的能力,要提供對長事務的有效支持,要提供對XML類型數據的快速存取的有效支持。
「協同」 面向行業應用領域要求,在DBMS核心基礎上,開發豐富的資料庫套件及應用構件,通過與製造業信息化、電子政務等領域應用套件捆綁,形成以DBMS為核心的面向行業的應用軟體產品家族。滿足應用需求,協同發展資料庫套件與應用構件,已成為當今資料庫技術與產品發展的新趨勢。規劃中的Oracle 11i的主要擴展方面據稱主要也是各種面向應用套件的支持。
❺ 數據倉庫的技術發展
從資料庫到數據倉庫
企業的數據處理大致分為兩類:一類是操作型處理,也稱為聯機事務處理,它是針對具體業務在資料庫聯機的日常操作,通常對少數記錄進行查詢、修改。另一類是分析型處理,一般針對某些主題的歷史數據進行分析,支持管理決策。
兩者具有不同的特徵,主要體現在以下幾個方面。
1、處理性能
日常業務涉及頻繁、簡單的數據存取,因此對操作型處理的性能要求是比較高的,需要資料庫能夠在很短時間內做出反應。
2、數據集成
企業的操作型處理通常較為分散,傳統資料庫面向應用的特性使數據集成困難。
3、數據更新
操作型處理主要由原子事務組成,數據更新頻繁,需要並行控制和恢復機制。
4、數據時限
操作型處理主要服務於日常的業務操作。
5、數據綜合
操作型處理系統通常只具有簡單的統計功能。
資料庫已經在信息技術領域有了廣泛的應用,我們社會生活的各個部門,幾乎都有各種各樣的資料庫保存著與我們的生活息息相關的各種數據。作為資料庫的一個分支,數據倉庫概念的提出,相對於資料庫從時間上就近得多。美國著名信息工程專家WilliamInmON博士在90年代初提出了數據倉庫概念的一個表述,認為:「一個數據倉庫通常是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩定的數據集合,它用於對管理決策過程的支持。」
這里的主題,是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。
集成,是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和匯總的過程,因此數據倉庫中的信息是關於整個企業的一致的全局信息。
隨時間變化,是指數據倉庫內的信息並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。
資料庫安全
計算機攻擊、內部人員違法行為,以及各種監管要求,正促使組織尋求新的途徑來保護其在商業資料庫系統中的企業和客戶數據。
您可以採取八個步驟保護數據倉庫並實現對關鍵法規的遵從。
1. 發現
使用發現工具發現敏感數據的變化。
2.漏洞和配置評估
評估資料庫配置,確保它們不存在安全漏洞。這包括驗證在操作系統上安裝資料庫的方式(比如檢查資料庫配置文件和可執行程序的文件許可權),以及驗證資料庫自身內部的配置選項(比如多少次登錄失敗之後鎖定帳戶,或者為關鍵表分配何種許可權)。
3. 加強保護
通過漏洞評估,刪除不使用的所有功能和選項。
4. 變更審計
通過變更審計工具加強安全保護配置,這些工具能夠比較配置的快照(在操作系統和資料庫兩個級別上),並在發生可能影響資料庫安全的變更時,立即發出警告。
5. 資料庫活動監控(DAM)
通過及時檢測入侵和誤用來限制信息暴露,實時監控資料庫活動。
6. 審計
必須為影響安全性狀態、數據完整性或敏感數據查看的所有資料庫活動生成和維護安全、防否認的審計線索。
7.身份驗證、訪問控制和授權管理
必須對用戶進行身份驗證,確保每個用戶擁有完整的責任,並通過管理特權來限制對數據的訪問。
8. 加密
使用加密來以不可讀的方式呈現敏感數據,這樣攻擊者就無法從資料庫外部對數據進行未授權訪問。
如何應對監控需求
數據,作為企業核心資產,越來越受到企業的關注,一旦發生非法訪問、數據篡改、數據盜取,將給企業帶來巨大損失。資料庫作為數據的核心載體,其安全性就更加重要。
面對資料庫的安全問題,企業常常遇到以下主要挑戰:資料庫被惡意訪問、攻擊、甚至遭到數據偷竊,而您不能及時地發現這些惡意的操作; 不了解數據使用者對資料庫的訪問細節,從而不能保證您對數據安全的管理;
信息安全同樣會帶來審計問題,當今全球對合規/ 審計要求越來越嚴格,由於不滿足合規要求而導致處罰的事件屢見不鮮。美國《薩班斯法案》的強制性要求曾導致2007年7月5日中國第一家海外上市公司—華晨中國汽車控股有限公司從美國紐約證券交易所退市。
有關信息安全的合規/審計要求,中國政府也進行了大量的強化工作,例如,為了加強商業銀行信息科技風險管理,銀監會出台了《商業銀行信息科技風險管理指引》規則,中國政府——財政部、證監會、銀監會、保監會及審計署等五部委會聯合發布「中國版薩班尼斯-奧克斯利法案(以下簡稱『C-SOX法案』)」——《企業內部控制基本規范》。
面對合規/審計要求,企業往往面臨以下挑戰:
·不能做到持續性審計
用戶審計主要是針對資料庫、應用系統日誌做審計,這些日誌內容非常龐大,DBA(數
據庫管理員)和信息安全審計人員的審計工作就只能做事後分析,分析時間也長。不能做到持續性審計。
·審計並不規范
用戶審計的內容和表格主要是根據外部審計人員要求和內部安全管理要素來考慮,這些
審計工作的好壞基本上取決於DBA和信息安全審計人員的經驗和技能,這些不能有效成為公司規范和滿足外部審計要求。
·資料庫管理員權責沒有完全區分開,導致審計效果問題
資料庫管理和審計原始數據的收集實際上都是由DBA來做的,這就導致了DBA的權責不明確,DBA沒辦法客觀審計自己所做的工作,盡管用戶設置了信息安全審計人員,但該角色的審計工作的部分證據建立在DBA初步審計基礎上,因此審計效果與可靠性存問題。
·審計並不完整
人工審計需要面對海量的日誌,不可能對所有數據進行細致審計;審計報告就未必能滿足
100%可見性。
為了滿足企業的信息安全、合規、審計等需求,IBM公司推出了「CARS」企業信息架構,該架構主要從「法規遵從」(Compliance)、「信息可用」(Availability)、「信息保留」(Retention)、「信息安全」(Security) 四個方面進行了全面的滿足和保護。不僅如此,IBM Guardium資料庫安全、合規、審計、監控解決方案的推出,針對了「法規遵從」和「信息安全」進行了專項治理和加強。
Guardium資料庫安全、合規、審計、監控解決方案,以軟硬體一體伺服器的方式,大大增強資料庫安全性,滿足並方便審計工作,提升性能,並簡化了安裝部署工作。可以防止對資料庫的破壞、惡意訪問、偷竊數據,可幫助判斷客戶關鍵敏感的數據在什麼地方;誰在使用這些數據;控制對資料庫中數據的訪問,並可監控特權用戶;幫助企業強制執行安全規范;檢查薄弱環節、漏洞,防止對資料庫配置的改動;滿足合規/審計的要求,並可簡化內部和外部審計、合規的過程並使其自動化,增強運作效率;管理安全的復雜性。
❻ 數據湖正在成為新的數據倉庫
編譯:誠歷,阿里巴巴計算平台事業部 EMR 技術專家,Apache Sentry PMC,Apache Commons Committer,目前從事開源大數據存儲和優化方面的工作。
像公有雲數據湖和 Delta Lake 這樣的平台指出了一個中央數據樞紐的趨勢,用來支持決策和AI驅動的自動化決策。
數據倉庫是否再次加入這股浪潮呢,或者會逐漸消亡?
如果你不清楚這個問題的答案也很正常。數據倉庫在一方面目前仍處於熱門階段。筆者作為一個長期的行業觀察者,看到了在不斷創新和創業活動浪潮下行業的快速發展。
這種趨勢基本上始於十年前標准設備進入數據倉庫主流,然後隨著市場向新一代雲數倉轉移逐漸獲得了新動力。在過去幾年中,一個雲數倉供應商(Snowflake) 在市場上獲得了非常多的支持。
但在另一方面,數據倉庫也不斷被行業中的新事物所沖擊,例如大數據、機器學習和人工智慧。這種趨勢造成了數據倉庫在企業IT優先順序下降的印象,但事實上大多數組織至少有一個或者多個數據倉庫服務於各種下游應用程序。
數據倉庫一直作為企業核心工作服務,是幾年前我覺得數據倉庫遠未消亡的原因,這也可能解釋了為什麼其他觀察者認為他們必須重新定義數據倉庫的概念,以使其在數據湖和雲計算時代保持相關性。
許多人認為「數據湖」正在迅速發展成為下一代數據倉庫。對於那些不熟悉這個概念的人來說,數據湖是多結構數據的系統或存儲庫,它們以原始格式和模式存儲,通常作為對象「blob」或文件存儲。
數據湖通常用作所有企業數據的單個存儲,包括源系統數據的原始副本和用於生成報告,可視化,數據分析和機器學習等任務的轉換數據。它們包含分布式文件或對象存儲,機器學習模型庫以及高度並行化的處理和存儲資源集群。並且,資料庫通常在讀取時使用模式,並使用統計模型從中提取有意義的相關性和模式,而不是對它們存儲的對象強制執行通用模式和語義。
這些都與Inmon和Kimball核心概念不一致,這些概念為大多數專業人員的數據倉庫方法提供了信息。從根本上說,一個數據倉庫主要用來聚合,保留和管理官方認可的「單一版本的真實」數據記錄。此概念與所管理數據的特定應用程序域以及使用它的特定用例無關。
如果你懷疑我在那個分數上說的話,請看看Bill Inmon對數據倉庫的定義以及Inmon和Ralph Kimball框架的比較。數據倉庫通常都是關於數據驅動的決策支持,這使得它可以很好地擴展到AI驅動的推理的新世界。
在過去的一年中,一些備受矚目的行業公告標志著數據倉庫角色的轉變。盡管決策支持(也稱為商業智能,報告和在線分析處理)仍然是大多數數據倉庫的核心用例,但我們看到了其向決策自動化的穩步轉變。換句話說,數據倉庫現在正支持著數據科學管道,為數據驅動的推理構建了機器學習應用程序。
新一代數據倉庫實際上是數據湖,對那些用於構建和訓練機器學習模型的清洗,整合和驗證的數據進行管理。例如,去年秋天在Amazon re:Invent 大會上,亞馬遜網路服務公布了AWS Lake Formation。這種新的託管服務的明確目的是簡化和加速安全數據湖的設置。然而,AWS Lake Formation 擁有雲數據倉庫的所有特點,盡管AWS並沒有這樣稱呼它,實際上已經提供了一個面向決策支持應用程序的經典數據倉庫。
AWS Lake Formation的架構和功能類似於數據倉庫。實際上,AWS以這種方式來描述它:「數據湖是一個集中的,策劃的和安全的存儲庫,它以原始形式存儲所有數據並為分析做好准備。通過數據湖,您可以分解數據孤島並組合不同類型的分析,以獲商業洞察力並指導更好的業務決策。「
另一個例子是 Databricks 最近宣布的 Delta Lake開源項目。 Delta Lake的明確目的(現在可以在Apache 2.0許可下使用)類似於AWS Lake格式:通過對數據湖中維護的數據集的聚合,清洗,管理和治理,以支持機器學習。
Delta Lake 位於現有的內部部署或雲數據存儲平台之上,可以從Apache Spark訪問,例如HDFS,Amazon S3或Microsoft Azure blob存儲。 Delta Lake將數據存儲在Parquet中,以提供Databricks所稱的「事務存儲層」.Parquet是一種開源的列式存儲格式,無論數據處理框架的選擇如何,都可用於Hadoop生態系統中的任何項目。它通過樂觀並發可串列化,快照隔離,數據版本控制,回滾和模式實施來支持ACID事務。
Delta Lake和AWS Lake Formation之間的一個關鍵區別是 Delta Lake 處理該管道中的批量和流數據。另一個是Delta Lake支持所有數據的ACID事務,允許數百個應用程序同時進行多次寫入和讀取。此外,開發人員可以訪問每個Delta Lake的早期版本,以進行審計,回滾或重現其MLFlow機器學習實驗的結果。
在最廣泛的層面上,Delta Lake似乎與使用最廣泛的開源數據倉庫項目 Apache Hive 競爭,盡管 Hive 完全依賴基於 HDFS 的存儲,並且直到最近才解決對ACID交易的支持。Hive 3一年前被宣布終於為基於Hadoop的數據倉庫提供ACID支持。 Hive 3使用delta文件為事務CRUD(創建讀取更新刪除)表提供操作的原子性和快照隔離。
這些最近的行業公告 - AWS Lake Formation,Delta Lake和Hive 3預測是數據湖成為所有決策支持和決策自動化應用以及所有交易數據應用的治理中心的日子。為了加速這些趨勢,Hive 3和Delta Lake等開源項目需要在供應商和用戶之間獲得更廣泛的吸引力。
「數據倉庫」這一術語可能主要指的是商業智能結構化數據的受管理的多域存儲。但是,底層數據平台將繼續發展,為基於雲的人工智慧管道提供核心數據治理基礎。
AI而非BI正在推動企業數據倉庫的發展。
作者:EMR
❼ 資料庫未來的發展前景怎麼樣
在信息化時代,資料庫成為企業經營管理必不可少的工具。經過了一個世紀的發展,目前資料庫行業已經進入到快速發展階段,非關系型的資料庫盛行,「數據上雲」新模式誕生,市場規模達到665億美元。未來,隨著海量數據的爆發,全球資料庫行業市場規模有望突破2000億美元。
資料庫成為企業經營管理必不可少的工具
在全球信息化的時代,資料庫已經逐漸成為了眾多企業經營管理必不可少的工具。資料庫指的是一種用於存儲和管理擁有固定格式和結構數據的倉庫型數據管理系統。
資料庫這一行業技術發源並興起於美國,如今已經廣泛應用於全世界各企業之中。資料庫一般可分為關系型資料庫和非關系型資料庫。
關系型資料庫的基層單位是由二維的行列分部組成的表格,一個關系型資料庫往往可以涵蓋多個行列分部表格。表格中每一行分布代表了一條獨特的數據記錄,而各列則代表了同一數據記錄的不同特性。通過多種來源獲取的數據最後會通過抽取、轉化、載入後整合進一個數據倉庫之中。關系型資料庫根據其數據處理技術的不同又可以分為聯機事務型資料庫與聯機分析型資料庫。
非關系型資料庫是一個用於概括一切可供替代傳統關系型資料庫的開放式術語。非關系型資料庫同樣也可以通過嵌套類的方式將互有關系的數據存儲在同一結構當中。非關系型資料庫採用了更為靈活的數據結構,並且可以橫向到達多個處理器。以功能劃分,非關系型資料庫可以分為文檔型資料庫、鍵值型資料庫、列存儲資料庫、圖形資料庫四種。
—— 更多數據及分析請參考前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》。
❽ 數據倉庫的發展前期
計算機發展的早期,人們已經提出了建立數據倉庫的構想。「數據倉庫」一詞最早是在1990年,由Bill Inmon先生提出的,其描述如下:數據倉庫是為支持企業決策而特別設計和建立的數據集合。
企業建立數據倉庫是為了填補現有數據存儲形式已經不能滿足信息分析的需要。數據倉庫理論中的一個核心理念就是:事務型數據和決策支持型數據的處理性能不同。
企業在它們的事務操作收集數據。在企業運作過程中:隨著定貨、銷售記錄的進行,這些事務型數據也連續的產生。為了引入數據,我們必須優化事務型資料庫。
處理決策支持型數據時,一些問題經常會被提出:哪類客戶會購買哪類產品?促銷後銷售額會變化多少?價格變化後或者商店地址變化後銷售額又會變化多少呢?在某一段時間內,相對其他產品來說哪類產品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢?
事務型資料庫可以為這些問題作出解答,但是它所給出的答案往往並不能讓人十分滿意。在運用有限的計算機資源時常常存在著競爭。在增加新信息的時候我們需要事務型資料庫是空閑的。而在解答一系列具體的有關信息分析的問題的時候,系統處理新數據的有效性又會被大大降低。另一個問題就在於事務型數據總是在動態的變化之中的。決策支持型處理需要相對穩定的數據,從而問題都能得到一致連續的解答。
數據倉庫的解決方法包括:將決策支持型數據處理從事務型數據處理中分離出來。數據按照一定的周期(通常在每晚或者每周末),從事務型資料庫中導入決策支持型資料庫——既「數據倉庫」。數據倉庫是按回答企業某方面的問題來分「主題」組織數據的,這是最有效的數據組織方式。
❾ 教你輕松掌握數據倉庫的規劃和構建策略
教你輕松掌握數據倉庫的規劃和構建策略
數據倉庫作為決策支持系統(DSS)的基礎,具有面向主題的、集成的、不可更新的、隨時間不斷變化的特性。這些特點說明了數據倉庫從數據組織到數據處理,都與原來的資料庫有很大的區別,這也就需要在數據倉庫系統設計時尋求一個適合於數據倉庫設計的方法。在一般的系統開發規劃中,首先需要確定系統的功能,這些系統的功能一般是通過對用戶的需求分析得到的。從數據倉庫的應用角度來看,DSS分析員一般是企業中的中高層管理人員,他們對決策支持的需求不能預先做出規范的說明,只能給設計人員一個抽象地描述。
這就需要設計人員在與用戶不斷的交流溝通中,將系統的需求逐步明確,並加以完善。因此數據倉庫的開發規劃過程實際上是一個用戶和設計人員對其不斷了解、熟悉和完善的過程。 數據倉庫的開發應用規劃是開發數據倉庫的首要任務。只有制定了正確的數據倉庫規劃,才能使組織主要力量有序地實現數據倉庫的開發應用。在數據倉庫規劃中一般需要經歷這樣幾個過程:選擇實現策略、確定數據倉庫的開發目標和實現范圍、選擇數據倉庫體系結構、建立商業和項目規劃預算。 當數據倉庫規劃完成後,需要編制相應的數據倉庫規劃說明書,說明數據倉庫與企業戰略的關系,以及與企業急需處理的、范圍相對有限的開發機會,重點支持的職能部門和今後數據倉庫開發工作的建議,實際使用方案和開發預算,作為數據倉庫實際開發的依據。
1、選擇數據倉庫實現策略
數據倉庫的開發策略主要有自頂向下、自底向上和這兩種策略的聯合使用。自頂向下策略在實際應用中比較困難,因為數據倉庫的功能是一種決策支持功能。這種功能在企業戰略的應用范圍中常常是很難確定的,因為數據倉庫的應用機會往往超出企業當前的實際業務范圍,而且在開發前就確定目標,會在實現預定目標後就不再追求新的應用,是數據倉庫喪失更有戰略意義的應用。由於該策略在開發前就可以給出數據倉庫的實現范圍,能夠清楚地向決策者和企業描述系統的收益情況和實現目標,因此是一種有效的數據倉庫開發策略。該方法使用時需要開發人員具有豐富的自頂向下開發系統的經驗,企業決策層和管理人員完全知道數據倉庫的預定目標並且了解數據倉庫能夠在那些決策中發揮作用。
自底向上策略一般從某個數據倉庫原型開始,選擇一些特定的為企業管理人員所熟知的管理問題作為數據倉庫開發的對象,在此基礎上進行數據倉庫的開發。因此,該策略常常用於一個數據集市、一個經理系統或一個部門的數據倉庫開發。該策略的優點在於企業能夠以較小的投入,獲得較高的數據倉庫應用收益。在開發過程中,人員投入較少,也容易獲得成效。當然,如果某個項目的開發失敗可能造成企業整個數據倉庫系統開發的延遲。該策略一般用於企業洗碗對數據倉庫的技術進行評價,以確定該技術的應用方式、地點和時間,或希望了解實現和運行數據倉庫所需要的各種費用,或在數據倉庫的應用目標並不是很明確時,數據倉庫對決策過程影響不是很明確時使用。
在自頂向下的開發策略中可以採用結構化或面向對象的方法,按照數據倉庫的規劃、需求確定、系統分析、系統設計、系統集成、系統測試和系統試運行的階段完成數據倉庫的開發。而在自底向上的開發中,則可以採用螺旋式的原型開發方法,使用戶可以根據新的需求對試運行的系統進行修改。螺旋式的原型開發方法要求在較短的時間內快速的生成可以不斷增加功能的數據倉庫系統,這種開發方法主要適合於這樣一些場合:在企業的市場動向和需求無法預測,市場的時機是實現產品的重要組成部分,不斷地改進對與企業的市場調節是必需的;持久的競爭優勢來自連續不斷地改進,系統地改進是基於用戶在使用中的不斷發現。 自頂向下和自底向上策略的聯合使用具有兩種策略的優點,既能快速的完成數據倉庫的開發與應用,還可建立具有長遠價值的數據倉庫方案。但在實踐中往往難以操作,通常需要能夠建立、應用和維護企業模型、數據模型和技術結構的、具有豐富經驗的開發人員,能夠熟練的從具體(如業務系統中的元數據)轉移到抽象(只基於業務性質而不是基於實現系統技術的邏輯模型);企業需要擁有由最終用戶和信息系統人員組成的有經驗的開發小組,能夠清楚地指出數據倉庫在企業戰略決策支持中的應用。
2、確定數據倉庫的開發目標和實現范圍
為確定數據倉庫的開發目標和實現范圍,首先需要對企業管理者等數據倉庫用戶解釋數據倉庫在企業管理中的應用和發展趨勢,說明企業組織和使用數據來支持跨功能系統的重要性,對企業經營戰略的支持,以確定開發目標。在該階段確認與使用數據倉庫有關的業務要求,這些要求應該只支持最主要的業務職能部門,將使用精力集中在收益明顯的業務上,使數據倉庫的應用立即產生效果,不應該消耗太多的精力在各個業務上同時鋪開數據倉庫的應用。
在確定開發目標和范圍以後,應該編制需求文檔,作為今後開發數據倉庫的依據。 數據倉庫開發的首要目標是確定所需要信息的范圍,確定用戶提供決策幫助時,在主題和指標域需要哪些數據源。這就需要定義:用戶需要什麼數據?面向主題的數據倉庫需要什麼樣的支持數據?為成功地向用戶提交數據,開發人員需要哪些商業知識?哪些背景知識?這就需要定義整體需求,以文件的形式整理現存的記錄系統和系統環境,對使用數據倉庫中數據的候選應用系統進行標識、排序,構造一個傳遞模型,確定尺度、事實及時間標記演算法,以便從系統中抽取信息且將他們放入數據倉庫。通過信息范圍確定可為開發人員提供一個良好的分析平台,和用戶一起分析哪些信息是數據倉庫需要的,進行商業活動需要什麼數據。開發人員可以和用戶進一步定義需要,例如數據分級層次、聚合的層次、載入的頻率以及需要保持的時間表等。 數據倉庫開發的另一個重要目標是確定利用哪些方法和工具訪問和導航數據?雖然用戶都需要存取並且檢索數據倉庫的內容,但是所存取的粒度有所不同,有的可能是詳細的記錄,有的可能是比較概括的記錄或十分概括的記錄。用戶要求的數據概括程度不同,將導致數據倉庫的聚集和概括工具的需求不同。
數據倉庫還有具有一定功能來訪問和檢索圖表、預定義的報表、多維數據、概括性數據和詳細記錄。用戶從數據倉庫中獲得信息,應該有電子表格、統計分析器和支持多維分析的分析處理器等工具的支持,以解釋和分析數據倉庫中的內容,產生並且驗證不同的市場假設、建議和決策方案。為將決策建議和各種決策方案向用戶清楚地表達出來,需要利用報表、圖表和圖像等強有力的信息表達工具。 數據倉庫開發的其他目標,是確定數據倉庫內部數據的規模。在數據倉庫中不僅包含當前數據,而且包含多年的歷史數據。數據的概括程度決定了這些數據壓縮和概括的最大限度。如果要讓數據倉庫提供對歷史記錄進行決策查詢的功能,就必須支持對大量數據的管理。數據的規模不僅直接影響決策查詢的時間,而且還將直接影響企業決策的質量。
在數據倉庫的開發目標中,還有:根據用戶對數據倉庫的基本需求,確定數據倉庫中數據的含義;確定數據倉庫內容的質量,以確定使用、分析和建議的可信級別;哪種類型的數據倉庫可以滿足最終用戶的需求,這些數據倉庫應該具有怎樣的功能;需要哪些元數據,如何使用數據源中的數據等。 數據倉庫的開發目標多種多樣,十分復雜,需要開發人員和用戶在開發與使用的過程中不斷交互完善。因此,在規劃中需要確定數據倉庫的開發范圍。使開發人員能夠根據需求和目標的重要性逐步進行,並且在開發中吸取經驗教訓,為數據倉庫在企業中的全部實現提供技術准備。因此,在為數據倉庫確定總體開發方向和目標以後,就必須確定一個有限的能夠很快體現數據倉庫效益的使用范圍。在考慮數據倉庫苦的應用范圍時,主要從使用部門的數量和類型、數據源的數量、企業模型的子集、預算分配以及開發項目所需的時間等角度分析。
在分析這些因素時,可從用戶的角度和技術的角度兩方面進行。 從用戶的角度應該分析哪些部門最先使用數據倉庫?是哪些人員為了什麼目的使用數據倉庫?以及數據倉庫首先要滿足哪些決策查詢?因為這些決策查詢往往確定了關於數據維數、報表的種類,這些因素都將確定數據倉庫定義時所需要的數量關系。查詢的格式越具體,越容易提供數據倉庫的維數、聚集和概括的規劃說明。 從技術角度分析,應該確定數據倉庫中元資料庫的規模,數據倉庫的元資料庫是存儲數據倉庫中數據定義的模型。數據定義存儲在倉庫管理器的目錄中,可以作為所有查詢和報表工具構造和查詢數據倉庫的依據。元資料庫的規模直接表示了數據倉庫中必須管理的數據規模。通過對元資料庫規模的管理,實際上就確定了數據倉庫中所需要管理的數據規模。
3、數據倉庫的結構選擇
數據倉庫的結構可以進行靈活的選擇,可將組織所使用的各種平台進行恰當的分割,把數據源、數據倉庫和最終用戶使用的工作站分割開來進行恰當的設計。
(1)數據倉庫的應用結構
基於業務處理系統的數據倉庫 在這種結構中,將運作的數據用於無需修改數據的只讀應用程序中。具有這種結構的數據倉庫元資料庫是一種虛庫,而不是數據倉庫自身的元數據。在數據倉庫元資料庫的直接指導下,對數據倉庫的查詢就是簡單的從資料庫中抽取數據。
單純數據倉庫
利用在數據倉庫中的數據源凈化、集成、概括和集成等操作,將數據源從業務處理系統中傳輸進集中的數據倉庫,各部門的數據倉庫應用只在數據倉庫中進行。這種結構經常發生在多部門、少用戶使用數據倉庫的情況下。這里的集中僅僅是邏輯上的,物理上可能是分散的。
單純數據集市
數據集市是指在部門中使用的數據倉庫,因為企業中的各個職能部門都有自己的特殊需要,而統一的數據倉庫可能不能滿足這些部門的特殊要求。這種體系結構經常發生在個別部門對數據倉庫的應用感興趣,而組織中其他部門卻對數據倉庫的應用十分冷漠之時,由熱心的部門單獨開發式所採用。
數據倉庫和數據集市
企業各部門擁有滿足自己需要的數據集市,其數據從企業數據倉庫中獲取,而數據倉庫從企業各種數據源中收集和分配。這種體系結構是一種較為完善的數據倉庫體系結構,往往發生在組織整體對數據倉庫應用感興趣之時所採用的體系結構。
(2)數據倉庫的技術平台結構 單層結構
單層結構主要是在數據源和數據倉庫之間共享平台,或者讓數據源、數據倉庫、數據集市與最終用戶工作站使用同一個平台。共享一個平台可以降低數據抽取和數據轉換的復雜性,但是共享平台在應用中可能遇到性能和管理方面的問題,這種體系結構一般在數據倉庫規模較小,而組織的業務系統平台具有較大潛力之時所採用。
客戶/伺服器兩層結構
一層為客戶機,一層為伺服器,最終用戶訪問工具在客戶層上運行,而數據源、數據倉庫和數據集市位於伺服器上,該技術機構一般用於普通規模的數據倉庫。
三層客戶/伺服器結構
基於工作站的客戶層、基於伺服器的中間層和基於主機的第三層。主機層負責管理數據源和可選的源數據轉換;伺服器運行數據倉庫和數據集市軟體,並且存儲倉庫的數據;客戶工作站運行查詢和報表運用程序,且還可以存儲從數據集市或數據倉庫卸載的局部數據。在數據倉庫稍具規模,兩層數據倉庫結構已經不能滿足客戶的需求,要講數據倉庫的數據存儲管理、數據倉庫的應用處理和客戶端應用分開之時,可以採用這種結構。
多層式結構
這是在三層機構基礎上發展起來的數據倉庫結構,在該結構中從最內數據層到最外層的客戶層依次是:單獨的數據倉庫存儲層、對數據倉庫和數據集市進行管理的數據倉庫服務層、進行數據倉庫查詢處理的查詢服務層、完成數據倉庫應用處理的應用服務層和面向最終用戶的客戶層。體系層次可能多達五層,這種體系結構一般用於超規模數據倉庫系統。
4、數據倉庫使用方案和項目規劃預算
數據倉庫的實際使用方案與開發預算,是數據倉庫規劃中最後需要確定的問題。因為數據倉庫主要用於對企業管理人員的決策支持,確保其實用性是十分重要的,因此需要讓最終用戶參與數據倉庫的功能設計。這種參與是通過用戶的實際使用方案進行的,使用方案是一個非常重要的需求模型。實際使用方案必須有助於闡明最終用戶對數據倉庫的要求,這些要求有的只使用適當的數據源就可以得到基本滿足,而有的卻需要來自企業外部的數據源,這就需要通過使用方案將這些不同的要求聯系起來。 實際使用方案還可以將最終用戶的決策支持要求與數據倉庫的技術要求聯系起來。因為當用戶確定最終要求後,為元資料庫的范圍確定一個界限。還可以確定所需要的歷史信息的數量,當根據特定的用戶進行數據倉庫的規劃時,就可確定最終用戶所關心的維度(時間、方位、商業單位和生產企業),因為維度與所需要的概括操作有明顯的關系,必須選擇對最終用戶有實際意義的維度,如:「月」、「季度」、「年」等。最後,還可以確定數據集市/數據倉庫的結構需要,使設計人員確定採用單純數據倉庫結構,還是單純的數據集市結構或者是兩者相結合的結構。
在實際使用開發方案確定後,還需要對開發方案的預算進行估計,確定項目的投資數額。投資方案的確定可以依據以往的軟體開發成本,但是這種預算的評估比較粗糙。另一種方法是參照結構進行成本評估,也就是說,將數據倉庫實際使用方案所確定的構件進行分解,根據各個構件的成本進行預算估算。數據倉庫的構件包含在數據源、數據倉庫、數據集市、最終用戶存取、數據管理、元數據管理、傳輸基礎等部分中,這些構件有的在企業原有信息系統中已經具備,有的可以選擇商品化構件,有的則需要自我開發。根據這些構件的不同來源,可以確定比較准確的預算。 在完成數據倉庫規劃後,就需要編制數據倉庫開發說明書,說明系統與企業戰略目標的關系,以及系統與企業急需處理的范圍相對有限的開發機會,所設想的業務機會的說明以及目標任務概況說明、重點支持的職能部門和今後工作的建議。數據倉庫項目應有明確的業務價值計劃開始,在計劃中需要闡明期望取得的有形和無形的利益。無形利益包含利用數據倉庫使決策完成得更快更好等利益。
業務價值計劃最好由目標業務主管來完成,因為數據倉庫是用戶驅動的,應該讓用戶積極參與數據倉庫的建設,在規劃書中要確定數據倉庫開發目標的實現范圍、體系結構和使用方案及開發預算。
❿ 什麼是實時數據倉庫它有哪些不可替代之處
簡單來說,數據已經成為企業最重要的資產,有效的數據管理是企業提升產品質量、增強數字化競爭力的有效手段。通過結構化數據的合並和多個數據源的整合,藉助數據分析工具和一定的方法論,企業可以通過歷史數據快速做出戰略決策。數據倉庫出現後,從數據管理和數據分析中「嘗到甜頭」的企業開始越來越依賴這種方式來提高運營能力。隨著數據倉庫的廣泛使用,企業開始要求實時數據分析。這時候傳統的離線數據倉庫就有了明顯的局限性,最終推動了實時數據倉庫的發展。藍海大腦液液冷伺服器具有高性能,高密度、擴展性強等特點。液冷GPU伺服器產品支持1~20塊 GPU卡,適用於深度學習訓練及推理、生命科學、醫葯研發、虛擬模擬等場景,覆蓋伺服器、靜音工作站、數據中心等多種產品形態,量身定製,為實時資料庫的研究起到保駕護航的作用。