1. 數據處理經歷了哪幾個階段
數據治理流程是從數據規劃、數據採集、數據儲存管理到數據應用整個流程的無序到有序的過程,也是標准化流程的構建過程。
根據每一個過程的特點,我們可以將數據治理流程總結為四個字,即「理」、「采」、「存」、「用」。
1.理:梳理業務流程,規劃數據資源
對於企業來說,每天的實時數據都會超過TB級別,需要採集用戶的哪些數據,這么多的數據放在哪裡,如何放,以什麼樣的方式放?
這些問題都是需要事先進行規劃的,需要有一套從無序變為有序的流程,這個過程需要跨部門的協作,包括了前端、後端、數據工程師、數據分析師、項目經理等角色的參與。
2.采:ETL採集、去重、脫敏、轉換、關聯、去除異常值
前後端將採集到的數據給到數據部門,數據部門通過ETL工具將數據從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
3.存:大數據高性能存儲及管理
這么多的業務數據存在哪裡?這需要有一高性能的大數據存儲系統,在這套系統裡面將數據進行分門別類放到其對應的庫裡面,為後續的管理及使用提供最大的便利。
4.用:即時查詢、報表監控、智能分析、模型預測
數據的最終目的就是輔助業務進行決策,前面的幾個流程都是為最終的查詢、分析、監控做鋪墊。
這個階段就是數據分析師的主場,分析師們運用這些標准化的數據可以進行即時的查詢、指標體系和報表體系的建立、業務問題的分析,甚至是模型的預測。
2. 什麼是數據ETL
ETL,是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。ETL一詞較常用在數據倉庫,但其對象並不限於數據倉庫。
數據倉庫是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
ETL是將業務系統的數據經過抽取、清洗轉換之後載入到數據倉庫的過程,目的是將企業中的分散、零亂、標准不統一的數據整合到一起,為企業的決策提供分析依據, ETL是BI(商業智能)項目重要的一個環節。
(2)數據抽取是哪個階段擴展閱讀:
ETL與ELT:
ETL所描述的過程,一般常見的作法包含ETL或是ELT(Extract-Load-Transform),並且混合使用。通常愈大量的數據、復雜的轉換邏輯、目的端為較強運算能力的資料庫,愈偏向使用ELT,以便運用目的端資料庫的平行處理能力。
ETL(orELT)的流程可以用任何的編程語言去開發完成,由於ETL是極為復雜的過程,而手寫程序不易管理,有愈來愈多的企業採用工具協助ETL的開發,並運用其內置的metadata功能來存儲來源與目的的對應(mapping)以及轉換規則。
工具可以提供較強大的連接功能(connectivity)來連接來源端及目的端,開發人員不用去熟悉各種相異的平台及數據的結構,亦能進行開發。當然,為了這些好處,付出的代價便是金錢。
參考資料來源:網路-ETL
3. 大數據可視化分析步驟有哪些
1、需求分析
需求分析是大數據可視化項目開展的前提,要描述項目背景與目的、業務目標、業務范圍、業務需求和功能需求等內容,明確實施單位對可視化的期望和需求。包括需要分析的主題、各主題可能查看的角度、需要發泄企業各方面的規律、用戶的需求等內容。
2、建設數據倉庫/數據集市的模型
數據倉庫/數據集市的模型是在需求分析的基礎上建立起來的。數據倉庫/數據集市建模除了資料庫的ER建模和關系建模,還包括專門針對數據倉庫的維度建模技術。
3、數據抽取、清洗、轉換、載入(ETL)
數據抽取是指將數據倉庫/集市需要的數據從各個業務系統中抽離出來,因為每個業務系統的數據質量不同,所以要對每個數據源建立不同的抽取程序,每個數據抽取流程都需要使用介面將元數據傳送到清洗和轉換階段。
數據清洗的目的是保證抽取的原數據的質量符合數據倉庫/集市的要求並保持數據的一致性。數據轉換是整個ETL過程的核心部分,主要是對原數據進行計算和放大。數據載入是按照數據倉庫/集市模型中各個實體之間的關系將數據載入到目標表中。
4、建立可視化場景
建立可視化場景是對數據倉庫/集市中的數據進行分析處理的成果,用戶能夠藉此從多個角度查看企業/單位的運營狀況,按照不同的主題和方式探查企業/單位業務內容的核心數據,從而作出更精準的預測和判斷。