導航:首頁 > 數據分析 > 大數據的底表是什麼意思

大數據的底表是什麼意思

發布時間:2025-04-24 04:18:48

A. 商業智能bi,大數據,傳統報表,數據分析有何區別

作者:胡海
鏈接:https://www.hu.com/question/56839362/answer/151311039
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。

BI(BusinessIntelligence)即商業智能,它是一套完整的解決方案,用來將企業中現有的數據進行有效的整合,快速准確的提供報表並提出決策依據,幫助企業做出明智的業務經營決策。
標簽:ETL、數據倉庫、OLAP、可視化報表
BI工具:Tableau、Qlikview、帆軟大數據BI ——FineBI
技術發展方向:自助式BI(工具簡單易用)、移動BI、雲BI(SAAS級);數據挖掘技術、R語言等分析語言的結合,拓展專業數據分析的功能
大數據(Big Data)是指在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
標簽:Hadoop、MPP、HDFS、MapRece、流處理等。
大數據工具:Hadoop、HPCC、Cloudera 、Storm、Apache Drill等等
技術發展方向:內存技術、機器科學、預測分析、關系挖掘
傳統報表就是用於展示固定格式的報表,可以是業務報表也可以是分析報表。形式上可以用表格、圖表等格式來動態顯示數據。
標簽:表格、填報、Dashboard、行式報表、分組報表、交叉報表等。
報表工具:帆軟報表FineReport、Excel高級功能、水晶報表
技術發展方向:近年來報表有向BI方向發展的趨勢
數據分析是運用各種統計方法將數據進行剖析,最大化地發現數據價值,以發揮數據的作用。說白了就是基於數據事實找出規律的方法。

B. 大數據分析基礎——維度模型

維度模型的概念出自於數據倉庫領域,是數據倉庫建設中的一種數據建模方法。維度模型主要由事實表和維度表這兩個基本要素構成。

維度是度量的環境,用來反映業務的一類屬性 , 這類屬性的集合構成一個維度 , 也可以稱為實體對象。 維度屬於一個數據域,如地理維度(其中包括國家、地區、 省以及城市等級別的內容)、時間維度(其中包括年、季、月、周、日等級別的內容)。

維度是維度建模的基礎和靈魂。在維度建模中,將度量稱為「事實」 , 將環境描述為「維度」,維度是用於分析事實所需要的多樣環境。例如, 在分析交易過程時,可以通過買家、賣家、商品和時間等維度描述交易發生的環境。

維度所包含的表示維度的列,稱為維度屬性。維度屬性是查詢約束條件、分組和報表標簽生成的基本來源,是數據易用性的關鍵。

事實表是維度模型的基本表,每個數據倉庫都包含一個或者多個事實數據表。事實數據表可能包含業務銷售數據,如銷售商品所產生的數據,與軟體中實際表概念一樣。

事實表作為數據倉庫維度建模的核心,緊緊圍繞著業務過程來設計,通過獲取描述業務過程的度量來表達業務過程,包含了引用的維度和與業務過程有關的度量。

事實表中一條記錄所表達的業務細節程度被稱為粒度。通常粒度可以通過兩種方式來表述:一種是維度屬性組合所表示的細節程度:一種是所表示的具體業務含義。

作為度量業務過程的事實,一般為整型或浮點型的十進制數值,有可加性、半可加性和不可加性三種類型。

相對維度來說,通常事實表要細長,行的增加速度也比維度錶快的多,維度表正好相反。

事實表有三種類型 :

原子指標和度量含義相同,基於某一業務事件行為下的度量,是業務定義中不可 再拆分的指標,具有明確業務含義的名詞 ,如支付金額。

事實表和維度交叉匯聚的點,度量和維度構成OLAP的主要概念,這裡面對於在事實表或者一個多維立方體裡面存放的數值型的、連續的欄位,就是度量。

維度表是事實表不可分割的部分。維度表是進入事實表的入口。豐富的維度屬性給出了豐富的分析切割能力。維度給用戶提供了使用數據倉庫的介面。最好的屬性是文本的和離散的。屬性應該是真正的文字而不應是一些編碼簡寫符號。應該通過用更為詳細的文本屬性取代編碼,力求最大限度地減少編碼在維度表中的使用。

維度表和事實表二者的融合也就是「維度模型」,「維度模型」一般採用「星型模式」或者「雪花模式」,「雪花模式」可以看作是「星型模式」的拓展,表現為在維度表中,某個維度屬性可能還存在更細粒度的屬性描述,即維度表的層級關系。

維度屬性也可以存儲到事實表中,這種存儲到事實表中的維度列被稱為「退化維度」。與其他存儲在維表中的維度一樣 ,退化維度也可以用來進行事實表的過濾查詢、實現聚合操作等。

下表顯示的是一個維度(「城市」)和兩個指標(「會話數」和「每次會話瀏覽頁數」)。

維度中的一些描述屬性以層次方式或一對多的方式相互關聯,可以被理解為包含連續主從關系的屬性層次。比如商品類目的最低級別是葉子類目,葉子類目屬於二級類目,二級類目屬於一級類目。在屬性的層次結構中進行鑽取是數據鑽取的方法之一。

當屬性層次被實例化為一系列維度,而不是單一的維度時,被稱為雪花模式。

大多數聯機事務處理系統( OLTP)的底層數據結構在設計時採用此種規范化技術,通過規范化處理將重復屬性移至其自身所屬的表中,刪除冗餘數據。

將維度的屬性層次合並到單個維度中的操作稱為反規范化。分析系 統的主要目的是用於數據分析和統計,如何更方便用戶進行統計分析決 定了分析系統的優劣。採用雪花模式,用戶在統計分析的過程中需要 大 量的關聯操作,使用復雜度高,同時查詢性能很差;而採用反規范化處 理,則方便、易用且性能好。

數據倉庫匯流排架構的重要基石之一就是一致性維度。在針對不同數 據域進行迭代構建或並行構建時,存在很多需求是對於不同數據域的業 務過程或者同 一數據域的不同業務過程合並在 一起觀察。比如對於日誌數據域,統計了商品維度的最近一天的 PV 和 UV; 對於交易數據域, 統計了商品維度的最近一天的下單MV。現在將不同數據域的商品的 事實合並在一起進行數據探查 ,如計算轉化率等,稱為交叉探查。

我們先來看數據倉庫的定義:數據倉庫是一個面向主題的、 集成的 、 非易失的且隨時間變化的數據集合,用來支持管理人員的決策。

數據由面向應用的操作型環境進人數據倉庫後,需要進行數據 集成。將面向應用的數據轉換為面向主題的數據倉庫數據,本身就是一種集成。

具體體現在如下幾個方面:

表級別的整合,有兩種表現形式。

水平拆分
維度通常可以按照類別或類型進行細分。由於維度分類的不同而存在特殊的維度屬性,可以通過水平拆分的方式解決此問題。

在設計過程中需要重點考慮以下三個原則。

根據數據模型設計思想,在對維度進行水平拆分時,主要考慮如下兩個依據。

垂直拆分
在維度設計內容中,我們提到維度是維度建模的基礎和靈魂,維度 屬性的豐富程度直接決定了數據倉庫的能力。在進行維度設計時,依據 維度設計的原則,盡可能豐富維度屬性,同時進行反規范化處理。

某些維度屬性的來源表產出時間較早,而某些維度屬性的來 源 表產出時間較晚;或者某些維度屬性的熱度高、使用頻繁,而某些維度屬性的熱度低、較少使用 ; 或者某些維度屬性經常變化,而某些維度屬性比較穩定。在「水平拆分」中提到的模型設計的三個原則同樣適合解決此問題。

出於擴展性、產出時間、易用性等方面的考慮,設計 主從維度。主 維表存放穩定 、 產出時間早、熱度高的屬性;從維表存放變化較快、產 出時間晚、熱度低的屬性。

參考
《The Data Warehouse Toolkit-The Complete Guide to Dimensional Modeling》
《Google Analytics》
《大數據之路》

歡迎關注 高廣超的博客 與 收藏文章 !
歡迎關注 頭條號:互聯網技術棧 !

C. 什麼是大數據 大數據是什麼意思

大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。

從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。


(3)大數據的底表是什麼意思擴展閱讀

大數據的價值體現在以三方面:

1、對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;

2、做小而美模式的中小微企業可以利用大數據做服務轉型;

3、面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。

D. 什麼是大數據,通俗的講

有人說大數據技術是第四次技術革命,這個說法其實不為過。
很多人只是聽過大數據這個詞或者是簡單知道它是什麼,那麼它是什麼呢,在這里就通俗點來說一下個人對大數據的理解。
大數據,很明顯從字面上理解就是大量的數據,海量的數據。大,意思就是數據的量級很大,不上TB都不好意思說是大數據。數據,狹義上理解就是12345那麼些數據,畢竟計算機底層是二進制來存的,那麼在大數據領域,數據就不僅僅包括數字這些,它可以是所有格式的東西,比如日誌,音頻視頻,文件等等。
所以,大數據從字面上理解就是海量的數據,技術上它包括這些海量數據的採集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數據的相關技術框架來支持。
舉個例子,淘寶雙十一的總交易額的顯示,後面就是大數據技術的支持,全國那麼多淘寶用戶的交易記錄匯聚到一起,數據量很大,而且要做到實時的展現,就需要強有力的大數據技術來處理了。
數據量一大,那麼得找地方來存,一個伺服器硬碟可以掛多少,肯定滿足不了這么大的數據量存儲啊,所以,分布式的存儲系統應運而生,那就是HDFS分布式文件系統。簡單的說,就是把這么大的數據分開存在甚至幾百甚至幾千台伺服器上,那麼管理他們的系統就是HDFS文件系統,也是大數據技術的最基本的組件。
有地方存了,需要一些分布式的資料庫來管理查詢啊,那就有了Hbase等,還需要一些組件來計算分析這些數據啊,maprece是最基本的計算框架,其他的計算框架Spark和Storm可以完成實時的處理,其中HDFS和MapRece組成了Hadoop1.
總之,一切都是數據。我們的歷史,是不是都是大量的數據保存下來的,現在我們也是大數據的生活,天天有沒有接到騷擾電話還知道你姓什麼,你查話費什麼的從幾億人的數據中查到你的信息,大數據生活。未來,大數據將更深刻的滲透到生活中。

閱讀全文

與大數據的底表是什麼意思相關的資料

熱點內容
獲得文件夾路徑的對話框 瀏覽:179
弟子規哪個版本的好 瀏覽:423
二手蘋果6p的價格 瀏覽:111
微信公眾號版頭設計 瀏覽:917
jdk18讀取配置文件 瀏覽:72
優化關鍵字挖掘工具 瀏覽:672
markdown代碼塊語法 瀏覽:249
arcgis面文件屬性 瀏覽:43
當數據都帶有標准差如何計算 瀏覽:936
聲音挑選程序掃描本地 瀏覽:57
編程語言中如何拼接兩個字串符 瀏覽:482
工地數據中心包括哪些 瀏覽:972
人工成本分析工具 瀏覽:565
蘋果qq群文件在哪裡 瀏覽:724
產品和單位成本分析後有哪些數據 瀏覽:144
日語教程軟體 瀏覽:99
有哪些事業編制的app 瀏覽:89
天籟app是什麼來的 瀏覽:605
app上手機通話記錄如何刪除 瀏覽:798
win7建立超級隱藏文件夾 瀏覽:416

友情鏈接