導航:首頁 > 網路數據 > kettle大數據效率

kettle大數據效率

發布時間:2024-04-27 18:31:37

A. 開源ETL工具與商業ETL工具對比

「世上沒有來免費的午餐」:用源開源ETL 需要徹底熟悉此工具的源代碼和開發人員的思路 ,優勢是前期不需要拿出鈔票。此類產品的商業模式是後期收取高額技術支持費與培訓費用 。甚至於開源代碼里某些功能刻意設計bug ,也是取之有道的費用。

商業ETL工具:前期投入鈔票,後期維護與軟體bug 全部由商業公司承擔。風險轉嫁於ETL 工具源廠商。

前者隱形費用,後者明碼標價。總體一樣盈利。就看客戶願意何種付費方式而已。

開源: Kettle
商業: Informatica 、 DS 、Beeload、 BeeDI

B. 開源ETL工具比較,Kettle和Talend,都有什麼優勢和劣勢

Pentaho Data Integration (Kettle)是Pentaho生態系統中默認的ETL工具。通過非常直觀的圖形化編輯器(Spoon),您可以定義以XML格式儲存的流程。在Kettle運行過程中,這些流程會以不同的方法編譯。用到的工具包括命令行工具(Pan),小型伺服器(Carte),資料庫存儲庫(repository)(Kitchen)或者直接使用IDE(Spoon)。

Talend Open Studio是 Talend 開發的ETL工具——Talend 是一家主營數據集成和數據管理解決方案的企業。Talend 採用用戶友好型,綜合性很強的IDE(類似於Pentaho Kettle 的 Spoon)來設計不同的流程。這些流程可以在IDE內部測試並編譯成java 代碼。您可以隨時查看並編輯生成的Java代碼,同時實現強大的控制力和靈活性。

兩者都非常優秀,都屬於用戶友好型的交叉平台(基於Java的)工具。它們的主要差異在於Kettle 將 ELT 流程編譯為 XML 格式,然而Talend Open Studio 則生成 Java 代碼。

易用性:
Talend:有 GUI 圖形界面但是以 Eclipse 的插件方式提供。
Kettle:有非常容易使用的 GUI,出現問題可以到社區咨詢。

技術支持:
Talend:主要在美國
Kettle:在美國,歐洲(比利時,德國,法國,英國),亞洲(中國,日本,韓國)都可以找到相關技術支持人員。

部署:
Talend:創建 java 或perl 文件,並通過操作系統調度工具來運行
Kettle:可以使用 job 作業方式或操作系統調度,來執行一個轉換文件或作業文件,也可以通過集群的方式在多台機器上部署。

速度:
Talend:需要手工調整,對特定數據源有優化知識。
Kettle:比 Talend 快,不過也需要手工調整,對 Oracle 和 PostGre 等數據源做了優化,同時也取決於轉換任務的設計。

數據質量:
Talend:在 GUI 里有數據質量特性,可以手工寫 SQL 語句。
Kettle:在 GUI 里有數據質量特性,可以手工寫 SQL 語句、java腳本、正則表達式來完成數據清洗。

監控:
Talend:有監控和日誌工具
Kettle:有監控和日誌工具

連接性:
Talend:各種常用資料庫,文件,web service。
Kettle:非常廣泛的資料庫,文件,另外可以通過插件擴展

C. 大數據etl工具有哪些

ETL是數據倉庫中的非常重要的一環,是承前啟後的必要的一步。ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。

下面給大家介紹一下什麼是ETL以及ETL常用的三種工具——Datastage,Informatica,Kettle。

一、什麼是ETL?
ETL,Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。

數據倉庫結構
通俗的說法就是從數據源抽取數據出來,進行清洗加工轉換,然後載入到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標准不統一的數據整合到一起,為企業的決策提供分析依據。

ETL是BI項目重要的一個環節,其設計的好壞影響生成數據的質量,直接關繫到BI項目的成敗。

二、為什麼要用ETL工具?
在數據處理的時候,我們有時會遇到這些問題:

▶ 當數據來自不同的物理主機,這時候如使用SQL語句去處理的話,就顯得比較吃力且開銷也更大。

▶ 數據來源可以是各種不同的資料庫或者文件,這時候需要先把他們整理成統一的格式後才可以進行數據的處理,這一過程用代碼實現顯然有些麻煩。

▶ 在資料庫中我們當然可以使用存儲過程去處理數據,但是處理海量數據的時候存儲過程顯然比較吃力,而且會佔用較多資料庫的資源,這可能會導致數據資源不足,進而影響資料庫的性能。

而上述遇到的問題,我們用ETL工具就可以解決。ETL工具具有以下幾點優勢:

1、支持多種異構數據源的連接。(部分)

2、圖形化的界面操作十分方便。

3、處理海量數據速度快、流程更清晰等。

三、ETL工具介紹
1、Datastage

IBM公司的商業軟體,最專業的ETL工具,但同時價格不菲,適合大規模的ETL應用。

使用難度:★★★★

2、Informatica

商業軟體,相當專業的ETL工具。價格上比Datastage便宜一點,也適合大規模的ETL應用。

使用難度:★★

3、Kettle

免費,最著名的開源產品,是用純java編寫的ETL工具,只需要JVM環境即可部署,可跨平台,擴展性好。

使用難度:★★

四、三種ETL工具的對比
Datastage、Informatica、Kettle三個ETL工具的特點和差異介紹:

1、操作

這三種ETL工具都是屬於比較簡單易用的,主要看開發人員對於工具的熟練程度。

Informatica有四個開發管理組件,開發的時候我們需要打開其中三個進行開發,Informatica沒有ctrl+z的功能,如果對job作了改變之後,想要撤銷,返回到改變前是不可能的。相比Kettle跟Datastage在測試調試的時候不太方便。Datastage全部的操作在同一個界面中,不用切換界面,能夠看到數據的來源,整個job的情況,在找bug的時候會比Informatica方便。

Kettle介於兩者之間。

2、部署

Kettle只需要JVM環境,Informatica需要伺服器和客戶端安裝,而Datastage的部署比較耗費時間,有一點難度。

3、數據處理的速度

大數據量下Informatica與Datastage的處理速度是比較快的,比較穩定。Kettle的處理速度相比之下稍慢。

4、服務

Informatica與Datastage有很好的商業化的技術支持,而Kettle則沒有。商業軟體的售後服務上會比免費的開源軟體好很多。

5、風險

風險與成本成反比,也與技術能力成正比。

6、擴展

Kettle的擴展性無疑是最好,因為是開源代碼,可以自己開發拓展它的功能,而Informatica和Datastage由於是商業軟體,基本上沒有。

7、Job的監控

三者都有監控和日誌工具。

在數據的監控上,個人覺得Datastage的實時監控做的更加好,可以直觀看到數據抽取的情況,運行到哪一個控制項上。這對於調優來說,我們可以更快的定位到處理速度太慢的控制項並進行處理,而informatica也有相應的功能,但是並不直觀,需要通過兩個界面的對比才可以定位到處理速度緩慢的控制項。有時候還需要通過一些方法去查找。

8、網上的技術文檔

Datastage < Informatica < kettle,相對來說,Datastage跟Informatica在遇到問題去網上找到解決方法的概率比較低,kettle則比較多。

五、項目經驗分享
在項目中,很多時候我們都需要同步生產庫的表到數據倉庫中。一百多張表同步、重復的操作,對開發人員來說是細心和耐心的考驗。在這種情況下,開發人員最喜歡的工具無疑是kettle,多個表的同步都可以用同一個程序運行,不必每一張表的同步都建一個程序,而informatica雖然有提供工具去批量設計,但還是需要生成多個程序進行一一配置,而datastage在這方面就顯得比較笨拙。

在做增量表的時候,每次運行後都需要把將最新的一條數據操作時間存到資料庫中,下次運行我們就取大於這個時間的數據。Kettle有控制項可以直接讀取資料庫中的這個時間置為變數;對於沒有類似功能控制項的informatica,我們的做法是先讀取的資料庫中的這個時間存到文件,然後主程序運行的時候指定這個文件為參數文件,也可以得到同樣的效果

閱讀全文

與kettle大數據效率相關的資料

熱點內容
ps入門必備文件 瀏覽:348
以前的相親網站怎麼沒有了 瀏覽:15
蘋果6耳機聽歌有滋滋聲 瀏覽:768
怎麼徹底刪除linux文件 瀏覽:379
編程中字體的顏色是什麼意思 瀏覽:534
網站關鍵詞多少個字元 瀏覽:917
匯川am系列用什麼編程 瀏覽:41
筆記本win10我的電腦在哪裡打開攝像頭 瀏覽:827
醫院單位基本工資去哪個app查詢 瀏覽:18
css源碼應該用什麼文件 瀏覽:915
編程ts是什麼意思呢 瀏覽:509
c盤cad佔用空間的文件 瀏覽:89
不銹鋼大小頭模具如何編程 瀏覽:972
什麼格式的配置文件比較主流 瀏覽:984
增加目錄word 瀏覽:5
提取不相鄰兩列數據如何做圖表 瀏覽:45
r9s支持的網路制式 瀏覽:633
什麼是提交事務的編程 瀏覽:237
win10打字卡住 瀏覽:774
linux普通用戶關機 瀏覽:114

友情鏈接