『壹』 大數據工程師進行數據平台建設 有哪些方案
【導語】數據平台其實在企業發展的進程中都是存在的,在進入到數據爆發式增加的大數據時代,傳統的企業級資料庫,在數據管理應用上,並不能完全滿意各項需求。就企業自身而言,需求更加契合需求的數據平台建設方案,那麼大數據工程師進行數據平台建設,有哪些方案呢?下面就來細細了解一下吧。
1、敏捷型數據集市
數據集市也是常見的一種方案,底層的數據產品與分析層綁定,使得應用層可以直接對底層數據產品中的數據進行拖拽式分析。數據集市,主要的優勢在於對業務數據進行簡單的、快速的整合,實現敏捷建模,並且大幅提升數據的處理速度。
2、常規數據倉庫
數據倉庫的重點,是對數據進行整合,同時也是對業務邏輯的一個梳理。數據倉庫雖然也可以打包成SAAS那種Cube一類的東西來提升數據的讀取性能,但是數據倉庫的作用,更多的是為了解決公司的業務問題。
3、Hadoop分布式系統架構
當然,大規模分布式系統架構,Hadoop依然站在不可代替的關鍵位置上。雅虎、Facebook、網路、淘寶等國內外大企,最初都是基於Hadoop來展開的。
Hadoop生態體系龐大,企業基於Hadoop所能實現的需求,也不僅限於數據分析,也包括機器學習、數據挖掘、實時系統等。企業搭建大數據系統平台,Hadoop的大數據處理能力、高可靠性、高容錯性、開源性以及低成本,都使得它成為首選。
4、MPP(大規模並行處理)架構
進入大數據時代以來,傳統的主機計算模式已經不能滿足需求了,分布式存儲和分布式計算才是王道。大家所熟悉的Hadoop
MapRece框架以及MPP計算框架,都是基於這一背景產生。
MPP架構的代表產品,就是Greenplum。Greenplum的資料庫引擎是基於Postgresql的,並且通過Interconnnect神器實現了對同一個集群中多個Postgresql實例的高效協同和並行計算。
關於大數據工程師進行數據平台建設方案的有關內容,就給大家介紹到這里了,中國社會發展至今,大數據的應用正在逐漸普及,所以未來前景不可估量,希望想從事此行業的人員能夠合理選擇。
『貳』 請問數據倉庫都用什麼建立
1、首先你得搞清楚建設數倉的目的是什麼
是偏向於整合各系統數據,為數據分析決策服務,還是偏向於快速的完成分析決策需求?
如果是前者,那麼在數據倉庫建模的時候一般會選擇ER建模方法;
如果是後者,一般會選擇維度建模方法。
ER建模:即實體關系建模,由數據倉庫之父BIll Inmon提出,核心思想是從全企業的高度去設計三範式模型,用實體關系描述企業服務。主張的是自上而下的架構,將不同的OLTP數據集中到面向主題的數據倉庫中。
維度建模:由Kimball提出,核心思想是從分析決策的需求出發構建模型。這種模型由事實表和維表組成,即星型模型和雪花模型。Kimball倡導自下而上的架構,可以針對獨立部門建立數據集市,再遞增的構建,匯總成數據倉庫。
2、其次你得進行深入的業務調研和數據調研
業務調研:深入的業務調研能使你更加明確數倉建設的目的;同時也利於後續的建模設計,隨著調研的開展,如何將實體業務抽象為數倉模型會更加明朗。
數據調研:各部門或各科室的數據現狀了解,包括數據分類、數據存儲方式、數據量、具體的數據內容等等。這對後續的主數據串聯或者維度一致性處理等等都是必須的基礎。
3、然後是數據倉庫工具選型
傳統型數據倉庫:一般會選擇第三方廠家的資料庫和配套ETL工具。因為有第三方支持,相對有保障;但缺點也很明顯,受約束以及成本較高。
NoSQL型數據倉庫:一般是基於hadoop生態的數據倉庫。hadoop生態已經非常強大,可以找到各種開源組件去支持數據倉庫。缺點是需要招聘專門人士去摸索,並且相對會存在一些未知隱患。
4、最後是設計與實施
設計:包括數據架構中的數據層次劃分以及具體的模型設計;也包括程序架構中的數據質量管理、元數據管理、調度管理等;
實施:規范化的項目管理實施,但同時也需記住一點,數據倉庫不是一個項目,它是一個過程。
『叄』 如何設計、創建一個面向CRM的數據倉庫
1 CRM系統
1.1 CRM簡介
一個完整的CRM主要可分成3個部分:操作型CRM、協作型CRM和分析型CRM。操作型CRM是CRM中最基本的功能系統,它提供整個CRM的流程管理功能,主要是提供以客戶為中心的市場、銷售,服務與支持等業務流程的自動化。協作型CRM是以客戶服務中心為主要表現形式,以計算機電話集成技術為核心,使客戶可以通過電話、傳真、E-mail、Web站點等方式更快捷、更有效地與企業進行交互。
分析型CRM是通過對操作型CRM、協作型CRM、其它企業應用系統和外部數據源中保存的與客戶相關的數據的集成,建立以客戶為中心的數據倉庫,獲得企業范圍內客戶數據的一致視圖,並以集成後的客戶數據為基礎,通過查詢與報表分析、OLAP分析和數據挖掘等手段獲取關於客戶的知識,為客戶提供個性化的產品和服務,提高客戶的滿意度和忠誠度,實現客戶終身價值的最大化。本文主要針對的是分析型CRM。
1.2在CRM中應用數據倉庫的必然性
數據倉庫是CRM的中心環節甚至是CRM的靈魂所在,它存儲了企業內部和外部的各種數據,並將這些源數據整理成一致的、隨時間變化的以及最大限度優化分析的客戶信息庫,通過OLAF分析和數據挖掘來發現大量客戶信息中所隱藏的規律,為企業進行經營決策提供支持。另一方面,它將CRM的業務平台與分析平台進行了有效地分離,使得業務型資料庫可以專注於事務處理,既提高了事務處理的效率又優化了分析處理的能力。
傳統的企業事務處理系統部是各個部門根據自身事務處理的需要保留部分數據,而且各個模塊之間的聯系並不緊密,雖然客戶的部分信息也能從這些系統中獲取,但遠遠不能滿足需要。例如,對於一個典型的以客戶行為為目標的分析,通常需要更多的日常積累的、反映歷史變化的數據才有可能進行有效地分析,然而在這一點上傳統的教據庫系統是很難做到的(不論是從數據的存儲量還是從數據的整合來考慮)。因此,數據倉庫的引入是必然的。
1.3分析型CRM的體系結構
將數據倉庫技術引入到對客戶信息的管理與組織上來,即建立一個面向CRM應用系統的客戶信息數掘倉庫,它實現了來自企業內部及外部的多種分割應用的客戶信息的集成和統一,這正是分析型CRM的基本任務。如圖1所示為分析型CRM的體系結構。其中,客戶信息數據倉庫是分析型CRM的核心,它的任務主要是從OLTP系統中抽取數據、把抽取出的數據進行統一的格式轉換,將數據載入到數據倉庫環境中(以上3步稱為ETL,即extract,transform,load,抽取,轉換,裝載),管理和維護數據倉庫中的數據。最後,通過對這些數據的OLAP分析和數據挖掘,企業管理者可以得到許多有價值的信息,從而更好地為客戶服務。
建立數據倉庫時,這里採用的是一種可擴展的數據倉庫體系結構,即中間層包括兩種類型的資料庫:一種是基本的包含多個主題的數據倉庫;另一種足從屬的針對某一主題的數據集市。如圖1所示,這里根據數據倉庫中的4個主題分別設計了4千數據集市。採用可擴展的體系結構,可以縮短數據倉庫的建設周期,降低費用支出,並且避免了直接建立數據集市而不建立數據倉庫所存在的擴展性較差、多個教據集市間難以保持同步的鋏點。
2客戶信息數據倉庫的設計
設計客戶信息數據倉庫的第一步就是要確立主題。主題是一個抽象的概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的對象。設計數據倉庫首先要從操作型環境中的數據入手,結合決策支持的實際需要,確定數據倉庫的主題。根據所涉及的分析型CRM的功能,該客戶信息數據倉庫包含了客戶發展、客戶購買、產品和市場營銷4個主題。其中,客戶購買主題主要是從不同的角度對客戶的購買行為進行分析,如客戶的購買行為同客戶的背景信息之間的關聯,其中背景信息主要包括客戶的教育程度、收入水平、年齡、性別、是否已婚等。在客戶信息數據倉庫模型中,分3步來進行設計,分劇是概念模型、邏輯模型和物理模型設計。本文針對某網上書店,以客戶購買主題為例,給出該客戶信息數據倉庫模型的完整的設計方案。
2.1概念模型設計
數據倉庫設計中概念模型設計的目的是確定面向主題的信息包圍。信息包圖作為一種公共的、一致的和緊湊的概念模型設計工具,能夠明確反映用戶的需求以及實現該需求所需的各種要素及其之間的關系。信息包圖由名稱、維度、類別和度量組成,其中類別表述的是維的層次性。
該網上書店的客戶信息數據倉庫中客戶購買主題信息包圖如圖2所示。其中,對於圖書有3種分類方法,前兩種較常見,還有一種是按圖書存在形式分類,可分為普通圖書、Vbook和Ebook。普通圖書即傳統紙制圖書,Ebook指以計算機和網路為載體的電子圖書,Vbook是一種新的多媒體演示、培訓、商業交流的載體,具備音頻和視頻的功能,如各領域專家的講座,教學考試類培訓課程等。隨著計算機的普及和網路的發展,Ebook和Vbook越來越受到讀者的青睞。
2.2邏輯模型設計
數據倉庫的邏輯模型一般有星型模型和雪花模型兩種。星型模型是基於關系型資料庫的、面向OLAP的一種多維數據模型的數據組織形式,它由事實表和多個維度表組成,通過使用一個包括主題的事實表和多個包含事實的非正規化描述的維度表來執行決策支持查詢,從而獲得比高度規范化設計結構更高的查詢性能。
雪花模型雖然較星型模型更符合規范化的設計結構,但它增加了查詢的復雜度,降低了查詢的性能,因此,這里採用星型模型。
星型模型的建立要以概念模型中的信息包圈為基礎,將信息包圖轉換為星型模型,具體方法為:將信息包圖中的度量實體放入星型模型的中心位置上,信息包圖中的維度實體放入度量實體的周邊。該客戶信息數據倉庫中客戶購買主題的邏輯模型。
2.3物理模型設計
物理模型是指教據在數據倉庫中的存放形式和組織形式。設計物理模型,要在星型模型或雪花模型的基礎上,確定事實表和維表的結構;明確二者的數據欄位、數據類型、關聯欄位、索引結構;確定數據倉庫中多維數據集的存儲結構,如物理存取方式、數據存儲結構、數據存放位置以廈存儲分配是否分區等。進行物理模型設計時,應重點考慮的因素有I/O存取時間、空間利用率和維護代價。
目前大多數數據倉庫都是建立在關系型資料庫的基礎上,基終數據的存儲是由資料庫系統進行管理的。在該數據倉庫的設計中,選用MSSQLServer2000及其組件分析伺服器來作為資料庫和數據倉庫的管理系統。數據倉庫在邏輯上是多維的,但在物理存儲上其多維數據集的存儲方式可以有關系型聯機分析處理(,ROLAP),多維聯機分析處理(,MOLAP)和混台聯機分析處理(,HOLAP)3種方式。
在該數據倉庫中,多維數據集的存儲選擇HOLAP方式,即基本數據保留在原有的關系資料庫中,而聚合體則存儲在分析伺服器上的多維結構中,這樣不僅可以避免數據重復,還能夠提高查詢性能(因為聚合體存儲在多維數據集中),僅在頻繁訪問詳細數據時對性能影響較大。
3 實 現
針對該網上書店,此數據倉庫的實施是以MSSQLServer2000平台為基礎。通過SQLServer中的DTS服務,並輔以VBScript來實現將源數據導入數據倉庫的ETL過程;通過AnalysisServices來建立多維數據集,實現OLAP操作,支持多維查詢袁達式(multidimensionalexpression,MDX)查詢,並通過自動構造MDX語句,實現上卷、下鑽、切片、切塊、旋轉等OLAP運算。
該客戶信息數據倉庫共包含了客戶發展、客戶購買、產品和市場營銷4個主題,對客戶購買主題的OLAP分析示例。其中,用戶可以從客戶所在地區、年齡層、性別、婚姻狀況,職業、年收入層、會員星級、圖書一按內容分類、圖書按出版社分類、圖書一按存在形式分類及時間共11個維度,來分析客戶購買數量、金額、成本、利潤及平均單價這5個度量。
此外,利用AnalysisServices所提供的數據透視表服務,用戶可以用VB或其它語言開發自己想要的前端數據展現程序,也可以直接利用現有工具,如MSOffice套件中的Excel、Access,來實現對多維數據集的數據展現功能,從而可以方便地得到各種統計報表和分析圖形。利用Excel展現了對2005年不同年齡層的客戶對不同種類圖書的購買情況的利潤分析。
『肆』 搭建大數據平台的具體步驟是什麼
1、操作體系的挑選
操作體系一般使用開源版的RedHat、Centos或許Debian作為底層的構建渠道,要根據大數據渠道所要建立的數據剖析東西能夠支撐的體系,正確的挑選操作體系的版本。
2、建立Hadoop集群
Hadoop作為一個開發和運行處理大規模數據的軟體渠道,實現了在大量的廉價計算機組成的集群中對海量數據進行分布式計算。Hadoop結構中最核心的規劃是HDFS和MapRece,HDFS是一個高度容錯性的體系,合適布置在廉價的機器上,能夠供給高吞吐量的數據訪問,適用於那些有著超大數據集的應用程序;MapRece是一套能夠從海量的數據中提取數據最終回來成果集的編程模型。在生產實踐應用中,Hadoop非常合適應用於大數據存儲和大數據的剖析應用,合適服務於幾千台到幾萬台大的伺服器的集群運行,支撐PB級別的存儲容量。
3、挑選數據接入和預處理東西
面臨各種來源的數據,數據接入便是將這些零散的數據整合在一起,歸納起來進行剖析。數據接入首要包括文件日誌的接入、資料庫日誌的接入、關系型資料庫的接入和應用程序等的接入,數據接入常用的東西有Flume,Logstash,NDC(網易數據運河體系),sqoop等。
4、數據存儲
除了Hadoop中已廣泛應用於數據存儲的HDFS,常用的還有分布式、面向列的開源資料庫Hbase,HBase是一種key/value體系,布置在HDFS上,與Hadoop一樣,HBase的目標首要是依靠橫向擴展,通過不斷的添加廉價的商用伺服器,添加計算和存儲才能。同時hadoop的資源管理器Yarn,能夠為上層應用供給統一的資源管理和調度,為集群在利用率、資源統一等方面帶來巨大的優點。
5、挑選數據挖掘東西
Hive能夠將結構化的數據映射為一張資料庫表,並供給HQL的查詢功能,它是建立在Hadoop之上的數據倉庫根底架構,是為了削減MapRece編寫工作的批處理體系,它的出現能夠讓那些通曉SQL技術、可是不熟悉MapRece、編程才能較弱和不擅長Java的用戶能夠在HDFS大規模數據集上很好的利用SQL言語查詢、匯總、剖析數據。
6、數據的可視化以及輸出API
關於處理得到的數據能夠對接主流的BI體系,比如國外的Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可免費試用)等,將成果進行可視化,用於決策剖析;或許迴流到線上,支撐線上業務的開展。
『伍』 企業如何更好的搭建數據倉庫
0 引 言
隨著計算機應用的深入,大量數據存儲在計算機中,信息的存儲、管理、使用和維護顯得越來越重要,而傳統的資料庫管理系統很難滿足其要求。為了解決大數據量、異構數據集成以及訪問數據的響應速度問題,採用數據倉庫技術,為最終用戶處理所需的決策信息提供有效方法。
1 數據倉庫
數據倉庫是為管理人員進行決策提供支持的一種面向主題的、集成的、非易失的並隨時間而變化的數據集合。數據倉庫是一種作為決策支持系統和聯機分析應用數據源的結構化數據環境。
從目前數據倉庫的發展來講,數據可以存放於不同類型的資料庫中,數據倉庫是將異種數據源在單個站點以統一的模型組織的存儲,以支持管理決策。數據倉庫技術包括數據清理、數據集成、聯機分析處理(OLAP)和數據挖掘(DM)。OLAP是多維查詢和分析工具,支持決策者圍繞決策主題對數據進行多角度、多層次的分析。OLAP側重於交互性、快速的響應速度及提供數據的多維視圖,而DM則注重自動發現隱藏在數據中的模式和有用信息。OLAP的分析結果可以給DM提供分析信息,作為挖掘的依據;DM可以拓展OLAP分析的深度,可以發現OLAP所不能發現的更為復雜、細致的信息。OLAP是聯機分析處理,DM是通過對資料庫、數據倉庫中的數據進行分析而獲得知識的方法和技術,即通過建立模型來發現隱藏在組織機構資料庫中的模式和關系。這兩者結合起來可滿足企業對數據整理和信息提取的要求,幫助企業高層做出決策。在歐美發達國家,以數據倉庫為基礎的在線分析處理和數據挖掘應用,首先在金融、保險、證券、電信等傳統數據密集型行業取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有實力的公司相繼推出了數據倉庫解決方案。
近幾年開始流行「分布式數據倉庫」,是在多個物理位置應用全局邏輯模型。數據被邏輯地分成多個域,但不同位置不會有重復的數據。這種分布式方法可以為不同的物理數據創建安全區域,或為全球不同時區的用戶提供全天候的服務。此外,有由Kognitio發起數據倉庫託管服務,即DBMS廠商為客戶開發和運行數據倉庫。這種最初出現在業務部門,業務部門購買託管服務,而不是使用企業內IT部門提供的數據倉庫。
2 數據挖掘技術
數據挖掘(DataMining),又稱資料庫中的知識發現(KnoWledge Discoveryin Database,KDD),是指從大型資料庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值並最終可為用戶理解的模式過程。它是資料庫研究中的很有應用價值的新領域,是人工智慧、機器學習、數理統計學和神經元網路等技術在特定的數據倉庫領域中的應用。數據挖掘的核心模塊技術歷經數十年的發展,其中包括數理統計、人工智慧、機器學習。從技術角度看,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的實際數據中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。從商業應用角度看,數據挖掘是嶄新的商業信息處理技術,其主要特點是對商業資料庫中的大量業務數據進行抽取、轉化、分析和模式化處理,從中提取輔助商業決策的關鍵知識。
從技術角度講,數據挖掘可應用於以下方面:
(1)關聯規則發現是在給定的事物集合中發現滿足一定條件的關聯規則,簡單來講,就是挖掘出隱藏在數據間的相互關系,為業務主題提供指導。
(2)序列模式分析和關聯規則發現相似,但其側重點在於分析數據間的前後關系。模式是按時間有序的。序列模式發現是在與時間有關的事物資料庫中發現滿足用戶給定的最小支持度域值的所有有序序列。
(3)分類分析與聚類分析,分類規則的挖掘實際上是根據分類模型從數據對象中發現共性,並把它們分成不同的類的過程。聚類時間是將d維空間的n個數據對象,劃分到k個類中,使得一個類內的數據對象間的相似度高於其他類中數據對象。聚類分析可以發現沒有類別標記的一組數據對象的特性,總結出一個類別的特徵。
(4)自動趨勢預測,數據挖掘能自動在大型資料庫裡面尋找潛在的預測信息。一個典型的利用數據挖掘進行預測的例子就是目標營銷。數據挖掘工具可以根據過去郵件推銷中的大量數據找出其中最有可能對將來的郵件推銷作出反應的客戶。
3 聯機分析(OLAP)處理技術
聯機分析(OLAP)是數據倉庫實現為決策提供支持的重要工具,是共享多維信息,針對特定問題的聯機數據訪問和分析的快速軟體技術。是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來,能夠真正為用戶所理解,並真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟體技術(OLAP委員會的定義)。OLAP的特性包括:①快速性:系統應能在5s內對用戶的大部分分析要求做出反應;②可分析性:能處理與應用有關的任何邏輯分析和統計分析;⑨多維性:多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持;④信息性:系統應能及時獲得信息,並能管理大容量信息。
OLAP的數據結構是多維,目前存在方式:①超立方結構(Hypercube),指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各部分都有相同的維屬性(收縮超立方結構。這種結構的數據密度更大,數據的維數更少,並可加入額外的分析維);②多立方結構(Multicube),即將超立方結構變為子立方結構。面向某特定應用對維分割,它具有強靈活性,提高了數據(特別是稀疏數據)的分析效率。分析方法包括:切片、切塊、旋轉、鑽取等。
OLAP也被稱為共享的多維數據的快速分析FASMI,應用在數據密集型行業,如市場和銷售分析、電子商務的分析、基於歷史數據的營銷、預算、財務報告與整合、管理報告、利益率、質量分析等。
4 小 結
採用數據倉庫的數據挖掘及聯機分析技術實現的決策支持系統,是彌補傳統輔助決策系統能力不足的有效途徑,具有重要的現實意義。