❶ 數據倉庫數據建模的幾種思路
數據倉庫接典型的兩種數據倉庫建模的理論是維度建模和基於主題域的實體關系建模,這兩種方式分別以Kimball和Immon兩位大師為代表。維度建模以數據分析需求為驅動,倡導匯流排架構:一致的事實和一致的維度,這種數據模型易於用戶理解和數據分析操作。基於主題域的實體關系建模以源系統數據為驅動,整合企業的所有數據,站在企業級的高度對數據進行抽象,整合,採用3NF的實體關系理論建模,這種數據建模方式以更為抽象的方式嘗試建立一個相對穩定的數據模型,並能描述企業級的數據關系。在工業界往往把兩種方式結合起來運用數據倉庫的不同數據層次結構中。 我們上周主要是針對採用基於主題域的實體關系建模中數據整合的方式進行較為深入的討論,討論了以下三種思路: 以屬性聚集的方式同一主題域中不同實體的屬性。比如對於會員、公司、客戶等等實體對象我們都有地址屬性信息、名稱標識屬性信息等等,這種思路就是把屬性內聚性高的欄位整合在一起,並把不同的屬性打上類型標識以樹表的形式存放。它的優點是:第一,模型穩定性好,外圍系統變化了欄位,只需要添加不同的類型,不需要進行表結構的變更;第二,減少大量冗餘記歷史數據。它的缺點是:第一,丟失了很多實體的屬性標識信息,我們從模型上將看不到一個會員究竟有哪些地址屬性,只能通過查詢類型代碼才能獲取這些信息;第二,它極度的膨脹數據表的記錄數,因為它採用豎表的形式存放;第三,應用起來很難,效率是一個大問題,因為我們往往要使用一個實體的多個欄位,就會有很多join操作和豎轉橫的操作。第四:屬性聚集也是一件比較難操作的過程,應為這是一個抽象的過程,對建模人員的業務背景知識和抽象能力都提出了很高的要求;第五:雖然減少了冗餘的記歷史數據,但是記歷史的操作也較為復雜。 採用面向對象建模的方式,抽象不同實體的共同屬性,然後再一步步採用繼承、組合等面向對象的思想具體化實體。他的優點是模型模型概念比較清晰,缺點也是模型相對不是很穩定,整合後的數據的後續應該也面臨重新組合的問題。 貼源的建模方式: 採用基本保持源系統的方式進行建模,重點放在數據的標准化,一致化,和數據業務意義的梳理。這種做法和我們目前數據倉庫的做法比較類似。它具有實施比較容易,快速實現,前台可以直接使用數據;缺點是整合度不高,模型不穩定。 模型終究是為數據分析應用服務的,具體採用什麼方式建模需要根據實際業務特點和源系統的特點決定。阿里巴巴的源系統具有變化快,數據分析應該變化快的特點,響應速度也要快的特點,而且我們要求不同系統之間整合的需求並不是很大,往往深度的數據整合帶來的是應用上的不方便。因此,我個人覺得採用貼源的方式是當前更優的方案。
❷ 創建有效的大數據模型的6個技巧
創建有效的大數據模型的6個技巧
數據建模是一門復雜的科學,涉及組織企業的數據以適應業務流程的需求。它需要設計邏輯關系,以便數據可以相互關聯,並支持業務。然後將邏輯設計轉換成物理模型,該物理模型由存儲數據的存儲設備、資料庫和文件組成。
歷史上,企業已經使用像SQL這樣的關系資料庫技術來開發數據模型,因為它非常適合將數據集密鑰和數據類型靈活地鏈接在一起,以支持業務流程的信息需求。
不幸的是,大數據現在包含了很大比例的管理數據,並不能在關系資料庫上運行。它運行在像NoSQL這樣的非關系資料庫上。這導致人們認為可能不需要大數據模型。
問題是,企業確實需要對大數據進行數據建模。
以下是大數據建模的六個提示:
1.不要試圖將傳統的建模技術強加於大數據
傳統的固定記錄數據在其增長中穩定且可預測的,這使得建模相對容易。相比之下,大數據的指數增長是不可預測的,其無數形式和來源也是如此。當網站考慮建模大數據時,建模工作應該集中在構建開放和彈性數據介面上,因為人們永遠不知道何時會出現新的數據源或數據形式。這在傳統的固定記錄數據世界中並不是一個優先事項。
2.設計一個系統,而不是一個模式
在傳統的數據領域中,關系資料庫模式可以涵蓋業務對其信息支持所需的數據之間的大多數關系和鏈接。大數據並非如此,它可能沒有資料庫,或者可能使用像NoSQL這樣的資料庫,它不需要資料庫模式。
正因為如此,大數據模型應該建立在系統上,而不是資料庫上。大數據模型應包含的系統組件包括業務信息需求、企業治理和安全、用於數據的物理存儲、所有類型數據的集成、開放介面,以及處理各種不同數據類型的能力。
3.尋找大數據建模工具
有商業數據建模工具可以支持Hadoop以及像Tableau這樣的大數據報告軟體。在考慮大數據工具和方法時,IT決策者應該包括為大數據構建數據模型的能力,這是要求之一。
4.關注對企業的業務至關重要的數據
企業每天都會輸入大量的數據,而這些大數據大部分是無關緊要的。創建包含所有數據的模型是沒有意義的。更好的方法是確定對企業來說至關重要的大數據,並對這些數據進行建模。
5.提供高質量的數據
如果組織專注於開發數據的正確定義和完整的元數據來描述數據來自何處、其目的是什麼等等,那麼可以對大數據模型產生更好的數據模型和關系。可以更好地支持支持業務的數據模型。
6.尋找數據的關鍵切入點
當今最常用的大數據載體之一就是地理位置,這取決於企業的業務和行業,還
有其他用戶需要的大數據常用密鑰。企業越能夠識別數據中的這些常用入口點,就越能夠設計出支持企業關鍵信息訪問路徑的數據模型。
❸ 工業數據建模博士就業前景
數據建模師。工業數據建模指的是對現實世界各類數據的抽象組織,確定資料庫需管轄的范圍、數據的組織形式等直至轉化成現實的資料庫,將經過系統分析後抽象出來的概念模型轉化為物理模型後,在visio或erwin等工具建立資料庫實體以及各實體之間關系的過程,其博士就業前景師數據建模師,工資高,待遇好。
❹ 大數據資料庫有哪些
問題一:大數據技術有哪些 非常多的,問答不能發link,不然我給你link了。有譬如Hadoop等開源大數據項目的,編程語言的,以下就大數據底層技術說下。
簡單以永洪科技的技術說下,有四方面,其實也代表了部分通用大數據底層技術:
Z-Suite具有高性能的大數據分析能力,她完全摒棄了向上升級(Scale-Up),全面支持橫向擴展(Scale-Out)。Z-Suite主要通過以下核心技術來支撐PB級的大數據:
跨粒度計算(In-Databaseputing)
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業統計函數。得益於跨粒度計算技術,Z-Suite數據分析引擎將找尋出最優化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算,我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動,降低了通訊負擔,保證了高性能數據分析。
並行計算(MPP puting)
Z-Suite是基於MPP架構的商業智能平台,她能夠把計算分布到多個計算節點,再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源,不管是伺服器還是普通的PC,她對網路條件也沒有嚴苛的要求。作為橫向擴展的大數據平台,Z-Suite能夠充分發揮各個節點的計算能力,輕松實現針對TB/PB級數據分析的秒級響應。
列存儲 (Column-Based)
Z-Suite是列存儲的。基於列存儲的數據集市,不讀取無關數據,能降低讀寫開銷,同時提高I/O 的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數據,一般壓縮比在5 -10倍之間,這樣一來,數據佔有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術,節省了存儲設備和內存的開銷,卻大大了提升計算性能。
內存計算
得益於列存儲技術和並行計算技術,Z-Suite能夠大大壓縮數據,並同時利用多個節點的計算能力和內存容量。一般地,內存訪問速度比磁碟訪問速度要快幾百倍甚至上千倍。通過內存計算,CPU直接從內存而非磁碟上讀取數據並對數據進行計算。內存計算是對傳統數據處理方式的一種加速,是實現大數據分析的關鍵應用技術。
問題二:大數據使用的資料庫是什麼資料庫 ORACLE、DB2、SQL SERVER都可以,關鍵不是選什麼資料庫,而是資料庫如何優化! 需要看你日常如何操作,以查詢為主或是以存儲為主或2者,還要看你的數據結構,都要因地制宜的去優化!所以不是一句話說的清的!
問題三:什麼是大數據和大數據平台 大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
大數據平台是為了計算,現今社會所產生的越來越大的數據量。以存儲、運算、展現作為目的的平台。
問題四:常用大型資料庫有哪些 FOXBASE
MYSQL
這倆可算不上大型資料庫管理系統
PB 是資料庫應用程序開發用的ide,根本就不是資料庫管理系統
Foxbase是dos時代的產品了,進入windows時代改叫foxpro,屬於桌面單機級別的小型資料庫系統,mysql是個中輕量級的,但是開源,大量使用於小型網站,真正重量級的是Oracle和DB2,銀行之類的關鍵行業用的多是這兩個,微軟的MS SQLServer相對DB2和Oracle規模小一些,多見於中小型企業單位使用,Sybase可以說是日薄西山,不行了
問題五:幾大資料庫的區別 最商業的是ORACLE,做的最專業,然後是微軟的SQL server,做的也很好,當然還有DB2等做得也不錯,這些都是大型的資料庫,,,如果掌握的全面的話,可以保證數據的安全. 然後就是些小的資料庫access,mysql等,適合於中小企業的資料庫100萬數據一下的數據.如有幫助請採納,謝!
問題六:全球最大的資料庫是什麼 應該是Oracle,第一,Oracle為商業界所廣泛採用。因為它規范、嚴謹而且服務到位,且安全性非常高。第二,如果你學習使用Oracle不是商用,也可以免費使用。這就為它的廣泛傳播奠定了在技術人員中的基礎。第三,Linux/Unix系統常常作為伺服器,伺服器對Oracle的使用簡直可以說極其多啊。建議樓梗多學習下這個強大的資料庫
問題七:什麼是大數據? 大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托・邁爾-舍恩伯格及肯尼斯・庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法[2])大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
說起大數據,就要說到商業智能:
商業智能(Business Intelligence,簡稱:BI),又稱商業智慧或商務智能,指用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數據分析以實現商業價值。
商業智能作為一個工具,是用來處理企業中現有數據,並將其轉換成知識、分析和結論,輔助業務或者決策者做出正確且明智的決定。是幫助企業更好地利用數據提高決策質量的技術,包含了從數據倉庫到分析型系統等。
商務智能的產生發展
商業智能的概念經由Howard Dresner(1989年)的通俗化而被人們廣泛了解。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。
商務智能是20世紀90年代末首先在國外企業界出現的一個術語,其代表為提高企業運營性能而採用的一系列方法、技術和軟體。它把先進的信息技術應用到整個企業,不僅為企業提供信息獲取能力,而且通過對信息的開發,將其轉變為企業的競爭優勢,也有人稱之為混沌世界中的智能。因此,越來越多的企業提出他們對BI的需求,把BI作為一種幫助企業達到經營目標的一種有效手段。
目前,商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。這里所談的數據包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料及來自企業所處行業和競爭對手的數據,以及來自企業所處的其他外部環境中的各種數據。而商業智能能夠輔助的業務經營決策既可以是作業層的,也可以是管理層和策略層的決策。
為了將數據轉化為知識,需要利用數據倉庫、線上分析處理(OLAP)工具和數據挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是ETL、數據倉庫、OLAP、數據挖掘、數據展現等技術的綜合運用。
把商業智能看成是一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合並到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供支持。
企業導入BI的優點
1.隨機查詢動態報表
2.掌握指標管理
3.隨時線上分析處理
4.視覺化之企業儀表版
5.協助預測規劃
導入BI的目的
1.促進企業決策流程(Facilitate the Business Decision-Making Process):BIS增進企業的資訊整合與資訊分析的能力,匯總公司內、外部的資料,整合成有效的決策資訊,讓企業經理人大幅增進決策效率與改善決策品質。
......>>
問題八:資料庫有哪幾種? 常用的資料庫:oracle、sqlserver、mysql、access、sybase 2、特點。 -oracle: 1.資料庫安全性很高,很適合做大型資料庫。支持多種系統平台(HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2)。 2.支持客戶機/伺服器體系結構及混合的體系結構(集中式、分布式、 客戶機/伺服器)。 -sqlserver: 1.真正的客戶機/伺服器體系結構。 2.圖形化用戶界面,使系統管理和資料庫管理更加直觀、簡單。 3.具有很好的伸縮性,可跨越從運行Windows 95/98的膝上型電腦到運行Windows 2000的大型多處理器等多種平台使用。 -mysql: MySQL是一個開放源碼的小型關系型資料庫管理系統,開發者為瑞典MySQL AB公司,92HeZu網免費贈送MySQL。目前MySQL被廣泛地應用在Internet上的中小型網站中。提供由於其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,許多中小型網站為了降低網站總體擁有成本而選擇了MySQL作為網站資料庫。 -access Access是一種桌面資料庫,只適合數據量少的應用,在處理少量數據和單機訪問的資料庫時是很好的,效率也很高。 但是它的同時訪問客戶端不能多於4個。 -
問題九:什麼是大數據 大數據是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 大數據首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關系資料庫、NOSQL、SQL等。
基礎架構:雲存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機理解自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(putational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模模擬。
結果呈現:雲計算、標簽雲、關系圖等。
要理解大數據這一概念,首先要從大入手,大是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最後這一點也是和傳統的......>>
問題十:國內真正的大數據分析產品有哪些 國內的大數據公司還是做前端可視化展現的偏多,BAT算是真正做了大數據的,行業有硬性需求,別的行業跟不上也沒辦法,需求決定市場。
說說更通用的數據分析吧。
大數據分析也屬於數據分析的一塊,在實際應用中可以把數據分析工具分成兩個維度:
第一維度:數據存儲層――數據報表層――數據分析層――數據展現層
第二維度:用戶級――部門級――企業級――BI級
1、數據存儲層
數據存儲設計到資料庫的概念和資料庫語言,這方面不一定要深鑽研,但至少要理解數據的存儲方式,數據的基本結構和數據類型。SQL查詢語言必不可少,精通最好。可從常用的selece查詢,update修改,delete刪除,insert插入的基本結構和讀取入手。
Access2003、Access07等,這是最基本的個人資料庫,經常用於個人或部分基本的數據存儲;MySQL資料庫,這個對於部門級或者互聯網的資料庫應用是必要的,這個時候關鍵掌握資料庫的庫結構和SQL語言的數據查詢能力。
SQL Server2005或更高版本,對中小企業,一些大型企業也可以採用SQL Server資料庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
DB2,Oracle資料庫都是大型資料庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,一般大型資料庫公司都提供非常好的數據整合應用平台。
BI級別,實際上這個不是資料庫,而是建立在前面資料庫基礎上的,企業級應用的數據倉庫。Data Warehouse,建立在DW機上的數據存儲基本上都是商業智能平台,整合了各種數據分析,報表、分析和展現!BI級別的數據倉庫結合BI產品也是近幾年的大趨勢。
2、報表層
企業存儲了數據需要讀取,需要展現,報表工具是最普遍應用的工具,尤其是在國內。傳統報表解決的是展現問題,目前國內的帆軟報表FineReport已經算在業內做到頂尖,是帶著數據分析思想的報表,因其優異的介面開放功能、填報、表單功能,能夠做到打通數據的進出,涵蓋了早期商業智能的功能。
Tableau、FineBI之類,可分在報表層也可分為數據展現層。FineBI和Tableau同屬於近年來非常棒的軟體,可作為可視化數據分析軟體,我常用FineBI從資料庫中取數進行報表和可視化分析。相對而言,可視化Tableau更優,但FineBI又有另一種身份――商業智能,所以在大數據處理方面的能力更勝一籌。
3、數據分析層
這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
Excel軟體,首先版本越高越好用這是肯定的;當然對excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體;
SAS軟體:SAS相對SPSS其實功能更強大,SAS是平台化的,EM挖掘模塊平台整合,相對來講,SAS比較難學些,但如果掌握了SAS會更有價值,比如離散選擇模型,抽樣問題,正交實驗設計等還是SAS比較好用,另外,SAS的學習材料比較多,也公開,會有收獲的!
JMP分析:SAS的一個分析分支
XLstat:Excel的插件,可以完......>>
❺ 怎樣建立一個大型資料庫
建立一個資料庫當你想建立一個表時,你必須按照以下的步驟先建立一個資料庫:在SQL Enterprise Manager中,選擇你的資料庫的名字。從Manage菜單中選擇Databases選項。管理資料庫的窗口就出現了。在工具條上點擊新建資料庫的按鈕,就會出現新建資料庫的對話框(如圖3.5所示)。注意</B>現在版本的SQL Server(version 6.5)最多能有32,767個資料庫。每個資料庫的最小容量是1MB,最大容量是ITB。在SQL Enterprise Manager對話框中的新建資料庫對話框。 填寫你的資料庫所要使用的名字(不能有空格)。 然後,填寫你要建立的資料庫所在的資料庫設備(例如,他就是你在前面一步建立的資料庫設備)。 這個新建資料庫的對話框會以圖形的方式顯示所有資料庫設備的已經使用和沒有使用的空間。 當你建立一個資料庫時,你可以選擇去建立事務日誌。為了建立事務日誌,你需要指定一個log device(日誌資料庫設備)。在新建資料庫對話框中,打開標有LogDevice的下拉式框,然後選擇一個資料庫設備和用於日誌的空間大小。注意</B>每個資料庫都有它自己的事務處理日誌,它記錄了對資料庫每一個請求(modify,insert,delete)。日誌文件是對資料庫的內部處理過程的一種監視。它允許你對資料庫執行updates, inserts, deletes等操作。所以在需要的時候,你也可以取消這些操作的結果。在系統沒有正確地關閉,而只是停機或重新啟動時,這些事務處理的日誌是很有用的-在重新啟動時,SQL Server會根據事務處理日誌來恢復數據。注意</B>當你把事務處理日誌向一個mp 資料庫傾倒時,你的事務處理日誌會被截短。你也可以強制地使你的事務日誌縮短。如果你想知道有關事務日誌的更多的信息,請查詢SQL 在線幫助文件,用關鍵字transaction log查找。6當你完成在新建資料庫的對話框中的這些問題的回答,點擊Create Now 按鈕。你的資料庫就會在Databases文件夾下顯示出來。
❻ 7.阿里大數據——大數據建模
數據模型就是數據組織和存儲方法,它強調從業務、數據存取和使用角度合理存儲數據。
適合業務和基礎數據存儲環境的模型,大數據能獲得以下好處:
大數據系統需要數據模型方法來幫助更好的組織和存儲數據,以便在性能、成本、效率和質量之間取得最佳平衡。
不管是Hadoop、Spark還是阿里巴巴集團的MaxCompute系統,仍然在大規模使用SQL進行數據的加工和處理,仍然在用Table存儲數據,仍然在使用關系理論描述數據之間的關系,只是在大數據領域,基於其數據存取的特點在關系數據模型的範式上有了不同的選擇而已。
從全企業的高度設計一個3NF模型,用實體關系(Entity Relationship,ER)模型描述企業業務,在範式理論上符合3NF。數據倉庫中的3NF與OLTP中不同過,有以下特點:
ER模型建設數據倉庫的出發點是整合數據,為數據分析決策服務。建模步驟分為三個階段:
維度建模從分析決策的需求出發構建模型,為分析需求服務,因此它重點關注用戶如何更快速地完成需求分析,同時具有較好的大規模復雜查詢的響應性能。其典型代表事星形模型,以及在一些特殊場景下使用的雪花模型。其設計步驟如下:
它是ER模型的衍生,其設計的出發點也是為了實現數據的整合,但不能直接用於數據分析決策。它強調建立一個可審計的基礎數據層,也就是強調數據的歷史性、可追溯性和原子性,而不要求對數據進行過度的一致性處理和整合。該模型由一下幾部分組成:
Anchor對Data Vault模型做了進一步規范化處理,設計的初衷是一個高度可擴展的模型,其核心思想是所有的擴展只是添加而不是修改,因此將模型規范到6NF,基本變成了k-v結構化模型。組成如下:
經歷了多個階段:
❼ 模擬軟體的模擬平台軟體介紹
SimuWorks是為大型科學計算、復雜系統動態特性建模研究、過程模擬培訓、系統優化設計與調試、故障診斷與專家系統等,提供通用的、一體化的、全過程支撐的,基於微機環境的開發與運行支撐平台。軟體採用了動態內存機器碼生成技術、分布式實時資料庫技術和面向對象的圖形化建模方法,在模擬領域處於國內領先水平。它主要用於能源、電力、化工、航空航天、國防軍事、經濟等研究領域,既可用於科研院所的科學研究,也可用於實際工程項目。
一、SimuWorks 的組成
SimuWorks平台產品主要包括
1、 模擬支撐平台SimuEngine(早期版本為Vcs3、SE2000)
2、 圖形化建模工具SimuBuilder(早期版本THAms、FigAms)、包括模塊資源管理器SimuManager
3、 模塊資源庫SimuLib(包括:控制,電氣,熱力,流網,電網)
4、 嵌入式實時操作系統模擬平台SimuERT
5、 模擬實時圖形系統SimuMMI
二、SimuWorks的主要特點
1、使用動態內存機器碼生成技術,結合分布式實時資料庫,為微機環境下分布式計算和復雜系統實時模擬,提供了高效的底層支撐平台;
2、採用面向對象的圖形化建模方法,為不同領域模擬科學研究與工程實踐,提供了通用的模型開發環境。
3、 SimuWorks將系統模擬所需要的各種功能進行了整合,形成了從開發、調試、驗證、到運行、分析等全過程的整套流水線,創立了「系統模擬流水線開發工廠」的新理念,大大提高了模擬工程項目的開發效率;
4、大型實時模擬系統中,普通的商業資料庫達不到實時性要求,SimuWorks中的SimuEngine模擬引擎提供了一個高速的網路實時資料庫,可以實現多個模型的分布式計算、動態數據顯示與在線數據修改,可以滿足大型實時模擬系統的開發和運行的需要;
三、SimuWorks 的工作流程
● 使用SimuWorks進行模擬開發的工作流程為:
● 對於系統未提供的專業模塊和部分通用模塊,用戶可以使用SimuManager進行擴充;
● 在SimuBuilder環境中,利用系統提供的模塊和用戶自己開發的模塊,根據模擬對象的組成,用圖形的方式進行模塊組合,構建模擬系統;
● 配合SimuEngine的模擬支撐,利用SimuBuilder對所構建的模擬系統進行調試,直至形成穩定的最終產品;
VR-Platform(英文全拼為Virtual Reality Platform,簡稱VR-Platform或VRP)即虛擬現實模擬平台。該模擬軟體適用性強、操作簡單、功能強大、高度可視化、所見即所得。
VR-Platform虛擬現實模擬平台所有的操作都是以美工可以理解的方式進行,不需要程序員參與。如果需操作者有良好的3DMAX建模和渲染基礎,只要對VR-PLATFORM平台稍加學習和研究就可以很快製作出自己的虛擬現實場景。
VRP虛擬現實模擬平台,經歷了多年的研發與探索,已經在VRP引擎為核心的基礎上,衍生出了九個相關三維產品的軟體平台。其中VRP-BUILDER虛擬現實編輯器和VRPIE3D互聯網平台軟體已經成為目前國內應用最為廣泛的VR和WEB3D製作工具,連續三年占據國內同行業的領導地位,用戶數量始終位於第一。
VR-Platform虛擬現實模擬平台的產品體系包含九大產品:VRP-BUILDER虛擬現實編輯器、VRPIE3D互聯網平台、VRP-DIGICITY數字城市平台、VRP-PHYSICS物理模擬系統、VRP-INDUSIM工業模擬平台、VRP-TRAVEL虛擬旅遊平台、VRP-MUSEUM虛擬展館、VRP-SDK系統開發包、VRP-MYSTORY故事編輯器。
VR-Platform虛擬現實模擬平台可廣泛的應用於城市規劃、室內設計、工業模擬、古跡復原、橋梁道路設計、房地產銷售、旅遊教學、水利電力、地質災害等眾多領域,為其提供切實可行的解決方案。 Infolytica公司於1978年由Peter Silvester博士,Ernest M. Freeman博士,David A. Lowther博士(現任總裁)創立,是世界上第一個商業電磁場分析軟體公司,總部設在加拿大的蒙特利爾市。海基科技是Infolytica軟體在中國的獨家代理商。 Infolytica公司作為眾多電磁軟體新技術的創始人和領導者,一直致力於電磁場有限元分析領域的技術研究和開發,致力於為電磁設計工程師提供完整解決方案。Infolytica軟體成為全世界設計者進行低頻電磁分析的首選軟體,不斷為航空、航天、汽車、耐用電器、電力、醫療設備、電子產品等行業以及科研教育等領域提供復雜的磁場、電場、熱場問題解決方案。 Infolytica產品系列主要包含MagNet, ElecNet, ThermNet, OptiNet,MotorSolve等軟體,使得二維和三維的電場、磁場以及熱場的獨立及耦合分析在同一界面下輕松進行。
❽ 如何使用PowerDesign進行資料庫建模操作方法都有什麼呢
操作方法
01首先打開PowerDesign軟體,點擊頂部的文件菜單,從下拉菜單中選擇新建選項
02接下來,在彈出的新界面中選擇概念數據模型選項,然後給模型命名
07然後雙擊關系線,在關系界面設置實體間的關系類型,包括一對多、一對一、多對多
08接下來,我們單擊頂部的Tools菜單,並在下拉菜單中選擇Generate Physical Data Model選項
09最後在彈出的界面中選擇要建模的資料庫版本,即可生成建模語言
❾ 產線建模模擬時代已經來臨——優化自動化生產線設計的必備工具
模擬建模如果加以合理利用,
可以幫助製造企業識別和消除風險,
確保正常的生產運營,
使企業價值最大化並有助於獲得成功。
仿 真可以成為整個項目的強大工具,使項目團隊在設計階段就能將生產線的諸多方面實現可視化。
要規劃新生產線或改造現有生產線必須回答許多問題,包括:
旨在使生產線可視化並在開發之前將其變為現實的技術,現在比以往更容易獲得。 可以通過電子方式查看3D PDF 或視頻,許多軟體程序已經可以直接與虛擬現實(VR)頭套眼睛集成,使相關工作人員可以進入精確的互動式生產線布局。
這種可視化幫助每個人更有效地理解設計參數,並在最終設計上達成共識。例如採用增強現實(AR)技術的智能手機應用程序和耳機,可以將3D 模型投射到現有空間中,從而提供生產線的另一種視圖。靜態或動態建模,可以顯示干涉和障礙物,並有助於在項目初始階段避免這些問題。
在設計階段,還可以以另外一種方式來利用可視化:在不同約束條件下,突出顯示產品的移動動態。模擬使用戶能夠設置生產線的運行參數——機器和傳送帶速度、傳送帶長度、設備位置、控制行為,並查看系統在不同參數下的執行情況。動畫模擬通常會發現生產線潛在的設計問題,這在查看生產線布局或電子表格時,通常難以或無法發現。
從最近的一個例子可以看出模擬的重要性,這個應用需要一次裝滿4 個紙箱,然後同時將全部4 個紙箱從機器中推出。雖然機器平均速度為100 箱/ 分鍾,但機器實際瞬時輸出為0 或200 箱/ 分鍾。在機器卸料時,如果傳送帶運行速度不是平均速度的兩倍,則紙箱在退出時會重新進入機器,從而阻止機器裝入新的空紙箱。
從表面上來看,速度看起來是正確的,但實際運行時可能發現機器卻被阻塞了。有了模擬模型,在設計階段就可以識別出該問題,因此可以在安裝前進行糾正。
如果想要理解產品在生產線上的實時交互,物理建模是一種非常有價值的工具。設計師可以看到產品在傳送帶上位移的模式,並隨之調整傳送帶設計以保持對產品的控制。
以前,這可以通過有根據的猜測和計算機輔助設計(CAD)布局來完成。然而,在一些特殊應用中,例如面團在傳送帶上滾動的動態是很難預測或准確可視化的。物理建模對計算機硬體要求很高。可以創建目標模型。從較小的模型中吸取的經驗可以應用於較大的模型。
即使是設計優良的生產線,機器停機也是不可避免的。無法確定的停機時間所帶來的影響很難預測。製造商可能對建立緩沖猶豫不決,認為他們會隱藏問題或鼓勵不積極的運營人員。根據機器設計的不同,有些緩沖區對性能的影響很小,會造成不必要的資本支出。模擬可以對場景進行建模並考慮正常運行工況,以確定緩沖區的最佳數量、位置和容量,從而改善生產線的性能並避免不必要的費用。
模擬能夠提供幫助的另一個重要方面是控制生產線。在設計過程初期,可編程邏輯控制器(PLC)還沒有就位,模擬模型允許設計團隊考慮如何控制。這樣在購買設備之前,就可以測試和優化光電以及其它感測器的放置。
使用模擬最關鍵的時刻,也許就是PLC 程序准備進行測試的時候。一些建模軟體可以連接到PLC。該模型通過模擬感測器向PLC 發出信號,並響應PLC 信號到其模擬的電機上。控制工程師可以使用逼真的、可以響應的系統來調試控制,而不是手動跟蹤代碼或嘗試使用人機界面(HMI)來可視化性能。在模型中,可以對感測器布置進行精確的微調。
HMI 程序可以使用該模型與PLC 一起進行測試,由於模型由PLC 控制,在HMI 中按下按鈕,就會模擬實時生產場景。因此,使用模擬模型可以大大減少生產線調試的啟動時間。
將模擬模型連接到PLC 的過程還有利於培訓。新的PLC 或HMI 程序員可以在現場生產之前識別錯誤、測試新想法並在低風險環境中建立信心。生產線運行人員可以在安裝之前學習如何運行生產線並學習新PLC 程序。
模擬還可以帶來其它間接好處。獲得生產線動態背景知識,建模程序員可以在設計過程初期提出問題,而以往這些問題通常是要在開發之後才會得到解決。滿足進度要求是模擬帶來的另一個好處。通常,生產線已經設計和安裝,但由於各種限制條件,導致只能在PLC 程序完成之前啟動和調試。
如果模型在進入工廠之前進行測試,則有助於更快地驗證程序。不過,模擬也有其限制。只有在輸入或假設足夠好時,模型輸出才足夠好。模擬無法預測運行人員的不良習慣、不良材料或冷凝物積聚等因素。重新審視和調整模型,以確保其反映准確的應用條件和行為,這一點非常重要。
- END -
❿ 數據倉庫數據建模的幾種思路
數據倉庫接典型的兩種數據倉庫建模的理論是維度建模和基於主題域的實體關系建模,這兩種方式分別以Kimball和Immon兩位大師為代表。維度建模以數據分析需求為驅動,倡導匯流排架構:一致的事實和一致的維度,這種數據模型易於用戶理解和數據分析操作。基於主題域的實體關系建模以源系統數據為驅動,整合企業的所有數據,站在企業級的高度對數據進行抽象,整合,採用3NF的實體關系理論建模,這種數據建模方式以更為抽象的方式嘗試建立一個相對穩定的數據模型,並能描述企業級的數據關系。在工業界往往把兩種方式結合起來運用數據倉庫的不同數據層次結構中。
我們上周主要是針對採用基於主題域的實體關系建模中數據整合的方式進行較為深入的討論,討論了以下三種思路:
以屬性聚集的方式同一主題域中不同實體的屬性。比如對於會員、公司、客戶等等實體對象我們都有地址屬性信息、名稱標識屬性信息等等,這種思路就是把屬性內聚性高的欄位整合在一起,並把不同的屬性打上類型標識以樹表的形式存放。它的優點是:第一,模型穩定性好,外圍系統變化了欄位,只需要添加不同的類型,不需要進行表結構的變更;第二,減少大量冗餘記歷史數據。它的缺點是:第一,丟失了很多實體的屬性標識信息,我們從模型上將看不到一個會員究竟有哪些地址屬性,只能通過查詢類型代碼才能獲取這些信息;第二,它極度的膨脹數據表的記錄數,因為它採用豎表的形式存放;第三,應用起來很難,效率是一個大問題,因為我們往往要使用一個實體的多個欄位,就會有很多join操作和豎轉橫的操作。第四:屬性聚集也是一件比較難操作的過程,應為這是一個抽象的過程,對建模人員的業務背景知識和抽象能力都提出了很高的要求;第五:雖然減少了冗餘的記歷史數據,但是記歷史的操作也較為復雜。
採用面向對象建模的方式,抽象不同實體的共同屬性,然後再一步步採用繼承、組合等面向對象的思想具體化實體。他的優點是模型模型概念比較清晰,缺點也是模型相對不是很穩定,整合後的數據的後續應該也面臨重新組合的問題。
貼源的建模方式:
採用基本保持源系統的方式進行建模,重點放在數據的標准化,一致化,和數據業務意義的梳理。這種做法和我們目前數據倉庫的做法比較類似。它具有實施比較容易,快速實現,前台可以直接使用數據;缺點是整合度不高,模型不穩定。
模型終究是為數據分析應用服務的,具體採用什麼方式建模需要根據實際業務特點和源系統的特點決定。阿里巴巴的源系統具有變化快,數據分析應該變化快的特點,響應速度也要快的特點,而且我們要求不同系統之間整合的需求並不是很大,往往深度的數據整合帶來的是應用上的不方便。因此,我個人覺得採用貼源的方式是當前更優的方案。