① ETL是什麼意思
ETL是指獲取原始大數據流,然後對其進行解析,並產生可用輸出數據集的過程。內
從數據源中提取(E)數據,然後經過容各種聚合、函數、組合等轉換(T),使其變為可用數據。最終,數據會被載入(L)到對它進行具體分析的環境中,這就是ETL流程。
全寫是Extract-Transform-Load。
1、E:Extract數據抽取
2、T:Transform轉換
3、L:Load裝載
作用
ETL是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據載入到數據倉庫中去。
以電信為例,A系統按照統計代碼管理數據,B系統按照賬目數字管理,C系統按照語音ID管理,當ETL需要對這三個系統進行集成以獲得對客戶的全面視角時,這一過程需要復雜的匹配規則、名稱/地址正常化與標准化,而ETL在處理過程中會定義一個關鍵數據標准,並在此基礎上,制定相應的數據介面標准。