⑴ 如何實現大數據價值最大化
1. 數據融合
成功的大數據分析可以使用戶應對工作中的困難,例如發現業務計劃和工作中的缺陷和失誤。它甚至可以將新的細分市場進行拆分,企業可以提供新的產品和服務。要想做到這些,就需要從各種資源得來的數據中抓住重點從而做出重要決策。
在數據分析中,時間至關重要。很多企業領導者和決策制定者需要實時的信息來快速做出決定。但是據估算,大約80%的時間都花在了准備和整理數據上。這樣一來真正的分析工作只佔20%。
因此高效的處理工作非常重要,例如數據分析的提取、轉換和載入過程(ETL)。
一個好的ETL工具可以將從多個來源獲取的數據融合在一起,也包括公共數據。它讓用戶的注意力集中到一個源頭,獲得相關性更高的信息,提高工作效率。同時可以確保用戶的信息來源是唯一的,降低錯誤溝通的風險。
企業如何通過各種技術手段,並把數據轉換為信息、知識,已經成了提高其核心競爭力的主要瓶頸。而ETL則是主要的一個技術手段。目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle……
2. 溝通無障礙
就像之前說過的,大數據分析工具可以幫助企業解決商業難題。從業人員也許能很好的理解這些問題,但IT人員卻不能完全理解,這樣就不能提供和專業需求相匹配的分析報告。再加上溝通不順暢,領導層就無法及時得到有用信息,也就無法快速做出決策。
如果技術人員能夠使用這種自助服務分析工具,就能夠找到問題所在並做出可以彌補漏洞的決定。此外,他們還可以將數據同其他開放信息結合在一起,挖掘細分市場。企業還可以共享IT資源來發掘更多的數據信息。
⑵ 大數據etl工具有哪些
ETL是數據倉庫中的非常重要的一環,是承前啟後的必要的一步。ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
下面給大家介紹一下什麼是ETL以及ETL常用的三種工具——Datastage,Informatica,Kettle。
一、什麼是ETL?
ETL,Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。
數據倉庫結構
通俗的說法就是從數據源抽取數據出來,進行清洗加工轉換,然後載入到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標准不統一的數據整合到一起,為企業的決策提供分析依據。
ETL是BI項目重要的一個環節,其設計的好壞影響生成數據的質量,直接關繫到BI項目的成敗。
二、為什麼要用ETL工具?
在數據處理的時候,我們有時會遇到這些問題:
▶ 當數據來自不同的物理主機,這時候如使用SQL語句去處理的話,就顯得比較吃力且開銷也更大。
▶ 數據來源可以是各種不同的資料庫或者文件,這時候需要先把他們整理成統一的格式後才可以進行數據的處理,這一過程用代碼實現顯然有些麻煩。
▶ 在資料庫中我們當然可以使用存儲過程去處理數據,但是處理海量數據的時候存儲過程顯然比較吃力,而且會佔用較多資料庫的資源,這可能會導致數據資源不足,進而影響資料庫的性能。
而上述遇到的問題,我們用ETL工具就可以解決。ETL工具具有以下幾點優勢:
1、支持多種異構數據源的連接。(部分)
2、圖形化的界面操作十分方便。
3、處理海量數據速度快、流程更清晰等。
三、ETL工具介紹
1、Datastage
IBM公司的商業軟體,最專業的ETL工具,但同時價格不菲,適合大規模的ETL應用。
使用難度:★★★★
2、Informatica
商業軟體,相當專業的ETL工具。價格上比Datastage便宜一點,也適合大規模的ETL應用。
使用難度:★★
3、Kettle
免費,最著名的開源產品,是用純java編寫的ETL工具,只需要JVM環境即可部署,可跨平台,擴展性好。
使用難度:★★
四、三種ETL工具的對比
Datastage、Informatica、Kettle三個ETL工具的特點和差異介紹:
1、操作
這三種ETL工具都是屬於比較簡單易用的,主要看開發人員對於工具的熟練程度。
Informatica有四個開發管理組件,開發的時候我們需要打開其中三個進行開發,Informatica沒有ctrl+z的功能,如果對job作了改變之後,想要撤銷,返回到改變前是不可能的。相比Kettle跟Datastage在測試調試的時候不太方便。Datastage全部的操作在同一個界面中,不用切換界面,能夠看到數據的來源,整個job的情況,在找bug的時候會比Informatica方便。
Kettle介於兩者之間。
2、部署
Kettle只需要JVM環境,Informatica需要伺服器和客戶端安裝,而Datastage的部署比較耗費時間,有一點難度。
3、數據處理的速度
大數據量下Informatica與Datastage的處理速度是比較快的,比較穩定。Kettle的處理速度相比之下稍慢。
4、服務
Informatica與Datastage有很好的商業化的技術支持,而Kettle則沒有。商業軟體的售後服務上會比免費的開源軟體好很多。
5、風險
風險與成本成反比,也與技術能力成正比。
6、擴展
Kettle的擴展性無疑是最好,因為是開源代碼,可以自己開發拓展它的功能,而Informatica和Datastage由於是商業軟體,基本上沒有。
7、Job的監控
三者都有監控和日誌工具。
在數據的監控上,個人覺得Datastage的實時監控做的更加好,可以直觀看到數據抽取的情況,運行到哪一個控制項上。這對於調優來說,我們可以更快的定位到處理速度太慢的控制項並進行處理,而informatica也有相應的功能,但是並不直觀,需要通過兩個界面的對比才可以定位到處理速度緩慢的控制項。有時候還需要通過一些方法去查找。
8、網上的技術文檔
Datastage < Informatica < kettle,相對來說,Datastage跟Informatica在遇到問題去網上找到解決方法的概率比較低,kettle則比較多。
五、項目經驗分享
在項目中,很多時候我們都需要同步生產庫的表到數據倉庫中。一百多張表同步、重復的操作,對開發人員來說是細心和耐心的考驗。在這種情況下,開發人員最喜歡的工具無疑是kettle,多個表的同步都可以用同一個程序運行,不必每一張表的同步都建一個程序,而informatica雖然有提供工具去批量設計,但還是需要生成多個程序進行一一配置,而datastage在這方面就顯得比較笨拙。
在做增量表的時候,每次運行後都需要把將最新的一條數據操作時間存到資料庫中,下次運行我們就取大於這個時間的數據。Kettle有控制項可以直接讀取資料庫中的這個時間置為變數;對於沒有類似功能控制項的informatica,我們的做法是先讀取的資料庫中的這個時間存到文件,然後主程序運行的時候指定這個文件為參數文件,也可以得到同樣的效果
⑶ etl工程師有前景嗎
在大數據背景下,越來越多的企業開始涉足大數據,ETL作為企業搞大數據的重要技術平台,確實是需要重視的,也需要技術實力足夠的ETL工程師來支持企業大數據平台的建設和運營。所以,只要大數據的前景一直向好,那麼ETL工程師的發展前景也是不必擔心的。
至於說ETL工程師做什麼,從傳統的ETL到大數據背景下的ETL,作為技術人員,確實需要不斷提升自己的技術實力。傳統時期的ETL工程師,主要負責數據採集環節,且數據流動往往是單向性的,而在大數據時代,ETL工程師面臨的應用場景更多,ETL需要採取和處理的對象也在升級,需要解決的問題也更多。
從業務角度講,隨著數據應用的日益豐富,不同平台、系統的相互大批量數據交互成常態,僅僅滿足於採集數據已經不適應業務需要,還需要能夠為數據的目的端落地提供支撐,ETL工程師需要一個端到端的更適應業務需要的數據交換系統。
從技術角度講,ETL做一定的擴展可以升級為兼具交換能力,兩者有傳承,可以實現平滑過渡,但交換卻要考慮用另一個工具實現,同時未來大數據平台組件將異常豐富,相互之間的數據交換將是常態,必要要有更高級別的交換工具滿足這些需求。
大數據時代的ETL工程師,除了從事傳統的系統編程、資料庫編程與設計,還需要熟悉主流資料庫技術,如oracle、Sql server、PostgeSQL等,並且得會數據etl開發工具,如Datastage,Congos,Kettle等。
關於ETL工程師發展前景好嗎,ETL工程師做什麼,以上就是詳細的介紹了。在ETL工程師的未來職業發展上,除了要掌握足夠的資料庫開發技術,相關的大數據技術也要掌握,這樣才能更好地解決大數據時代的ETL數據採集與處理。
⑷ ETL會不會淘汰
摘要 你好,目前來說是不會的,ETL任然是大數據時代下數據遷移不可缺少的
⑸ 人怎麼看數據方向
在網上搜索,看圖表或者柱狀圖。
1、在大數據採集與預處理方向,這方向最常見的問題是數據的多源和多樣性,導致數據的質量存在差異,嚴重影響到數據的可用性。針對這些問題,目前很多公司已經推出了多種數據清洗和質量控制工具(如IBM的DataStage)。
2、在大數據存儲與管理方向
這方向最常見的挑戰是存儲規模大,存儲管理復雜,需要兼顧結構化、非結構化和半結構化的數據。分布式文件系統和分布式資料庫相關技術的發展正在有效的解決這些方面的問題。在大數據存儲和管理方向,尤其值得我們關注的是大數據索引和查詢技術、實時及流式大數據存儲與處理的發展。
3、大數據計算模式方向
由於大數據處理多樣性的需求,目前出現了多種典型的計算模式,包括大數據查詢分析計算(如Hive)、批處理計算(如HadoopMapRece)、流式計算(如Storm)、迭代計算(如HaLoop)、圖計算(如Pregel)和內存計算(如Hana),而這些計算模式的混合計算模式將成為滿足多樣性大數據處理和應用需求的有效手段。
4、大數據分析與挖掘方向
在數據量迅速膨脹的同時,還要進行深度的數據深度分析和挖掘,並且對自動化分析要求越來越高,越來越多的大數據數據分析工具和產品應運而生,如用於大數據挖掘的RHadoop版、基於MapRece開發的數據挖掘演算法等。
⑹ 大數據分析技術生態圈一覽
大數據分析技術生態圈一覽
大數據領域讓人暈頭轉向。為了幫助你,我們決定製作這份廠商圖標和目錄。它並不是全面列出了這個領域的每家廠商,而是深入探討大數據分析技術領域。我們希望這份資料新穎、實用。
這是一款面向Hadoop的自助服務式、無資料庫模式的大數據分析應用軟體。
Platfora
這是一款大數據發現和分析平台。
Qlikview
這是一款引導分析平台。
Sisense
這是一款商業智能軟體,專門處理復雜數據的商業智能解決方案。
Sqream
這是一款快速、可擴展的大數據分析SQL資料庫。
Splunk
這是一款運維智能平台。
Sumologic
這是一項安全的、專門定製的、基於雲的機器數據分析服務。
Actian
這是一款大數據分析平台。
亞馬遜Redshift
這是一項PB級雲端數據倉庫服務。
CitusData
可擴展PostgreSQL。
Exasol
這是一種用於分析數據的大規模並行處理(MPP)內存資料庫。
惠普Vertica
這是一款SQL on Hadoop大數據分析平台。
Mammothdb
這是一款與SQL兼容的MPP分析資料庫。
微軟SQL Server
這是一款關系資料庫管理系統。
甲骨文Exadata
這是一款計算和存儲綜合系統,針對甲骨文資料庫軟體進行了優化。
SAP HANA
這是一款內存計算平台。
Snowflake
這是一款雲數據倉庫。
Teradata
這是企業級大數據分析和服務。
數據探查
Apache Drill
這是一款無資料庫模式的SQL查詢引擎,面向Hadoop、NoSQL和雲存儲。
Cloudera Impala
這是一款開源大規模並行處理SQL查詢引擎。
谷歌BigQuery
這是一項全面託管的NoOps數據分析服務。
Presto
這是一款面向大數據的分布式SQL查詢引擎。
Spark
這是一款用於處理大數據的快速通用引擎。
平台/基礎設施
亞馬遜網路服務(AWS)
提供雲計算服務
思科雲
提供基礎設施即服務
Heroku
為雲端應用程序提供平台即服務
Infochimps
提供雲服務的大數據解決方案
微軟Azure
這是一款企業級雲計算平台。
Rackspace
託管專業服務和雲計算服務
Softlayer(IBM)
提供雲基礎設施即服務
數據基礎設施
Cask
這是一款面向Hadoop解決方案的開源應用程序平台。
Cloudera
提供基於Hadoop的軟體、支持和服務。
Hortonworks
管理HDP――這是一款開源企業Apache Hadoop數據平台。
MAPR
這是面向大數據部署環境的Apache Hadoop技術。
垂直領域應用/數據挖掘
Alpine Data Labs
這是一種高級分析平台,可處理Apache Hadoop和大數據。
R
這是一種免費軟體環境,可處理統計計算和圖形。
Rapidminer
這是一款開源預測分析平台
SAS
這是一款軟體套件,可以挖掘、改動、管理和檢索來自眾多數據源的數據。
提取、轉換和載入(ETL)
IBM Datastage
使用一種高性能並行框架,整合多個系統上的數據。
Informatica
這是一款企業數據整合和管理軟體。
Kettle-Pentaho Data Integration
提供了強大的提取、轉換和載入(ETL)功能。
微軟SSIS
這是一款用於構建企業級數據整合和數據轉換解決方案的平台。
甲骨文Data Integrator
這是一款全面的數據整合平台。
SAP
NetWeaver為整合來自各個數據源的數據提供了靈活方式。
Talend
提供了開源整合軟體產品
Cassandra
這是鍵值資料庫和列式資料庫的混合解決方案。
CouchBase
這是一款開源分布式NoSQL文檔型資料庫。
Databricks
這是使用Spark的基於雲的大數據處理解決方案。
Datastax
為企業版的Cassandra資料庫提供商業支持。
IBM DB2
這是一款可擴展的企業資料庫伺服器軟體。
MemSQL
這是一款分布式內存資料庫。
MongoDB
這是一款跨平台的文檔型資料庫。
MySQL
這是一款流行的開源資料庫。
甲骨文
這是一款企業資料庫軟體套件。
PostgresSQL
這是一款對象關系資料庫管理系統。
Riak
這是一款分布式NoSQL資料庫。
Splice Machine
這是一款Hadoop關系資料庫管理系統。
VoltDB
這是一款內存NewSQL資料庫。
Actuate
這是一款嵌入式分析和報表解決方案。
BiBoard
這是一款互動式商業智能儀錶板和可視化工具。
Chart.IO
這是面向資料庫的企業級分析工具。
IBM Cognos
這是一款商業智能和績效管理軟體。
D3.JS
這是一種使用HTML、SVG和CSS可視化顯示數據的JavaScript庫。
Highcharts
這是面向互聯網的互動式JavaScirpt圖表。
Logi Analytics
這是自助服務式、基於Web的商業智能和分析應用軟體。
微軟Power BI
這是互動式數據探查、可視化和演示工具。
Microstrategy
這是一款企業商業智能和分析軟體。
甲骨文Hyperion
這是企業績效管理和商業智能系統。
Pentaho
這是大數據整合和分析解決方案。
SAP Business Objects
這是商業智能解決方案。
Tableau
這是專注於商業智能的互動式數據可視化產品系列。
Tibco Jaspersoft
這是商業智能套件。