導航:首頁 > 網路數據 > 大數據發行版

大數據發行版

發布時間:2024-06-26 04:37:49

① 綆榪癶adoop澶ф暟鎹騫沖彴鎼寤虹殑涓昏佹ラ

鎼寤篐adoop澶ф暟鎹騫沖彴鐨勪富瑕佹ラゅ寘鎷錛氱幆澧冨噯澶囥丠adoop瀹夎呬笌閰嶇疆銆侀泦緹よ劇疆銆佹祴璇曚笌楠岃瘉銆

鐜澧冨噯澶

鍦ㄦ惌寤篐adoop澶ф暟鎹騫沖彴涔嬪墠錛岄栧厛闇瑕佸噯澶囩浉搴旂殑紜浠跺拰杞浠剁幆澧冦傜‖浠剁幆澧冮氬父鍖呮嫭澶氬彴鏈嶅姟鍣ㄦ垨鑰呰櫄鎷熸満錛岀敤浜庢瀯寤篐adoop鐨勫垎甯冨紡闆嗙兢銆傝蔣浠剁幆澧冨垯鍖呮嫭鎿嶄綔緋葷粺銆丣ava榪愯岀幆澧冪瓑銆備緥濡傦紝鍙浠ラ夋嫨CentOS鎴朥buntu絳塋inux鍙戣岀増浣滀負鎿嶄綔緋葷粺錛屽畨瑁匤DK錛圝ava Development Kit錛変互鎻愪緵Java榪愯岀幆澧冦

Hadoop瀹夎呬笌閰嶇疆

鎺ヤ笅鏉ワ紝闇瑕佸湪鍚勪釜鑺傜偣涓婂畨瑁匟adoop銆傝繖閫氬父娑夊強鍒頒笅杞紿adoop鐨勪簩榪涘埗鍙戣岀増錛岃В鍘嬪埌閫傚綋鐨勭洰褰曪紝騫墮厤緗鐩稿叧鐨勭幆澧冨彉閲忋傚湪瀹夎呰繃紼嬩腑錛岃繕闇瑕佹牴鎹瀹為檯闇奼備慨鏀笻adoop鐨勯厤緗鏂囦歡錛屽俙hadoop-env.sh`銆乣core-site.xml`銆乣hdfs-site.xml`絳夛紝浠ュ畾涔塇adoop闆嗙兢鐨勫熀鏈灞炴у拰琛屼負銆

闆嗙兢璁劇疆

鍦ㄥ畨瑁呭拰閰嶇疆濂紿adoop涔嬪悗錛岄渶瑕佽劇疆闆嗙兢銆傝繖鍖呮嫭瀹氫箟闆嗙兢涓鐨勫悇涓瑙掕壊錛屽侼ameNode銆丏ataNode銆丷esourceManager銆丯odeManager絳夛紝騫墮厤緗瀹冧滑涔嬮棿鐨勯氫俊鍜屽崗浣滄柟寮忋備緥濡傦紝鍦℉DFS錛圚adoop Distributed File System錛変腑錛孨ameNode璐熻矗綆$悊鏂囦歡緋葷粺鐨勫厓鏁版嵁錛岃孌ataNode璐熻矗瀛樺偍瀹為檯鐨勬暟鎹鍧椼傚湪YARN錛圷et Another Resource Negotiator錛変腑錛孯esourceManager璐熻矗璧勬簮鐨勫叏灞綆$悊鍜岃皟搴︼紝鑰孨odeManager鍒欒礋璐e悇涓鑺傜偣涓婄殑璧勬簮綆$悊銆

嫻嬭瘯涓庨獙璇

鏈鍚庯紝闇瑕佸規惌寤哄ソ鐨凥adoop澶ф暟鎹騫沖彴榪涜屾祴璇曞拰楠岃瘉銆傝繖鍙浠ラ氳繃榪愯屼竴浜涚畝鍗曠殑浠誨姟鎴栦綔涓氭潵瀹屾垚錛屼緥濡備嬌鐢℉adoop鐨勫懡浠よ屽伐鍏瘋繘琛屾枃浠剁殑涓婁紶銆佷笅杞藉拰嫻忚堬紝鎴栬呮彁浜や竴涓狹apRece浣滀笟鏉ヨ傚療鍏惰繍琛屾儏鍐點傛祴璇曞拰楠岃瘉鐨勭洰鐨勬槸紜淇滺adoop闆嗙兢鑳藉熸e父宸ヤ綔錛屽苟婊¤凍瀹為檯鐨勫簲鐢ㄩ渶奼傘

緇間笂鎵榪幫紝鎼寤篐adoop澶ф暟鎹騫沖彴鏄涓涓娑夊強澶氫釜姝ラょ殑榪囩▼錛岄渶瑕佺患鍚堣冭檻紜浠躲佽蔣浠躲侀厤緗鍜屾祴璇曠瓑澶氫釜鏂歸潰銆傞氳繃鍚堢悊鐨勮勫垝鍜屽疄鏂斤紝鍙浠ユ瀯寤轟竴涓楂樻晥銆佺ǔ瀹氬拰鍙闈犵殑Hadoop澶ф暟鎹騫沖彴錛屼互鏀鎸佸悇縐嶅ぇ鏁版嵁搴旂敤鍜屽垎鏋愪換鍔°

② 為什麼說Python是大數據全棧式開發語言

就像只要會JavaScript就可以寫出完整的Web應用,只要會Python,就可以實現一個完整的大數據處理平台。

雲基礎設施

這年頭,不支持雲平台,不支持海量數據,不支持動態伸縮,根本不敢說自己是做大數據的,頂多也就敢跟人說是做商業智能(BI)。

雲平台分為私有雲和公有雲。私有雲平台如日中天的 OpenStack

,就是Python寫的。曾經的追趕者CloudStack,在剛推出時大肆強調自己是Java寫的,比Python有優勢。結果,搬石砸腳,2015年
初,CloudStack的發起人Citrix宣布加入OpenStack基金會,CloudStack眼看著就要壽終正寢。

如果嫌麻煩不想自己搭建私有雲,用公有雲,不論是AWS,GCE,Azure,還是阿里雲,青雲,在都提供了Python SDK,其中GCE只提供Python和JavaScript的SDK,而青雲只提供Python SDK。可見各家雲平台對Python的重視。

提到基礎設施搭建,不得不提Hadoop,在今天,Hadoop因為其MapRece數據處理速度不夠快,已經不再作為大數據處理的首選,但
是HDFS和Yarn——Hadoop的兩個組件——倒是越來越受歡迎。Hadoop的開發語言是Java,沒有官方提供Python支持,不過有很多第
三方庫封裝了Hadoop的API介面(pydoop,hadoopy等等)。

Hadoop MapRece的替代者,是號稱快上100倍的 Spark ,其開發語言是Scala,但是提供了Scala,Java,Python的開發介面,想要討好那麼多用Python開發的數據科學家,不支持Python,真是說不過去。HDFS的替代品,比如GlusterFS, Ceph 等,都是直接提供Python支持。Yarn的替代者, Mesos 是C++實現,除C++外,提供了Java和Python的支持包。

DevOps

DevOps有個中文名字,叫做 開發自運維 。互聯網時代,只有能夠快速試驗新想法,並在第一時間,安全、可靠的交付業務價值,才能保持競爭力。DevOps推崇的自動化構建/測試/部署,以及系統度量等技術實踐,是互聯網時代必不可少的。

自動化構建是因應用而易的,如果是Python應用,因為有setuptools, pip, virtualenv, tox,
flake8等工具的存在,自動化構建非常簡單。而且,因為幾乎所有linux系統都內置Python解釋器,所以用Python做自動化,不需要系統預
安裝什麼軟體。

自動化測試方面,基於Python的 Robot Framework 企業級應用最喜歡的自動化測試框架,而且和語言無關。Cucumber也有很多支持者,Python對應的Lettuce可以做到完全一樣的事情。 Locust 在自動化性能測試方面也開始受到越來越多的關注。

自動化配置管理工具,老牌的如Chef和Puppet,是Ruby開發,目前仍保持著強勁的勢頭。不過,新生代 Ansible 和 SaltStack ——均為Python開發——因為較前兩者設計更為輕量化,受到越來越多開發這的歡迎,已經開始給前輩們製造了不少的壓力。

在系統監控與度量方面,傳統的Nagios逐漸沒落,新貴如 Sensu 大受好評,雲服務形式的New Relic已經成為創業公司的標配,這些都不是直接通過Python實現的,不過Python要接入這些工具,並不困難。

除了上述這些工具,基於Python,提供完整DevOps功能的PaaS平台,如 Cloudify 和 Deis ,雖未成氣候,但已經得到大量關注。

網路爬蟲

大數據的數據從哪裡來?除了部分企業有能力自己產生大量的數據,大部分時候,是需要靠爬蟲來抓取互聯網數據來做分析。

網路爬蟲是Python的傳統強勢領域,最流行的爬蟲框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能夠獨當一面的類庫。

不過,網路爬蟲並不僅僅是打開網頁,解析HTML這么簡單。高效的爬蟲要能夠支持大量靈活的並發操作,常常要能夠同時幾千甚至上萬個網頁同時抓取,傳統的
線程池方式資源浪費比較大,線程數上千之後系統資源基本上就全浪費在線程調度上了。Python由於能夠很好的支持協程( Coroutine )操作,基於此發展起來很多並發庫,如Gevent,Eventlet,還有Celery之類的分布式任務框架。被認為是比AMQP更高效的ZeroMQ也是最早就提供了Python版本。有了對高並發的支持,網路爬蟲才真正可以達到大數據規模。

抓取下來的數據,需要做分詞處理,Python在這方面也不遜色,著名的自然語言處理程序包NLTK,還有專門做中文分詞的Jieba,都是做分詞的利器。

數據處理

萬事俱備,只欠東風。這東風,就是數據處理演算法。從統計理論,到數據挖掘,機器學習,再到最近幾年提出來的深度學習理論,數據科學正處於百花齊放的時代。數據科學家們都用什麼編程?

如果是在理論研究領域,R語言也許是最受數據科學家歡迎的,但是R語言的問題也很明顯,因為是統計學家們創建了R語言,所以其語法略顯怪異。而且
R語言要想實現大規模分布式系統,還需要很長一段時間的工程之路要走。所以很多公司使用R語言做原型試驗,演算法確定之後,再翻譯成工程語言。

Python也是數據科學家最喜歡的語言之一。和R語言不同,Python本身就是一門工程性語言,數據科學家用Python實現的演算法,可以直
接用在產品中,這對於大數據初創公司節省成本是非常有幫助的。正式因為數據科學家對Python和R的熱愛,Spark為了討好數據科學家,對這兩種語言
提供了非常好的支持。

Python的數據處理相關類庫非常多。高性能的科學計算類庫NumPy和SciPy,給其他高級演算法打了非常好的基礎,matploglib讓
Python畫圖變得像Matlab一樣簡單。Scikit-learn和Milk實現了很多機器學習演算法,基於這兩個庫實現的 Pylearn2 ,是深度學習領域的重要成員。 Theano 利用GPU加速,實現了高性能數學符號計算和多維矩陣計算。當然,還有 Pandas ,一個在工程領域已經廣泛使用的大數據處理類庫,其DataFrame的設計借鑒自R語言,後來又啟發了Spark項目實現了類似機制。

對了,還有 iPython ,這個工具如此有用,以至於我差點把他當成標准庫而忘了介紹。iPython是一個互動式Python運行環境,能夠實時看到每一段Python代碼的結果。默認情況下,iPython運行在命令行,可以執行 ipython notebook 在網頁中運行。用matplotlib繪制的圖可以直接嵌入式的顯示在iPython Notebook中。

iPython Notebook的筆記本文件可以共享給其他人,這樣其他人就可以在自己的環境中重現你的工作成果;如果對方沒有運行環境,還可以直接轉換成HTML或者PDF。

為什麼是Python

正是因為應用開發工程師、運維工程師、數據科學家都喜歡Python,才使得Python成為大數據系統的全棧式開發語言。

對於開發工程師而言,Python的優雅和簡潔無疑是最大的吸引力,在Python互動式環境中,執行 import this

,讀一讀Python之禪,你就明白Python為什麼如此吸引人。Python社區一直非常有活力,和NodeJS社區軟體包爆炸式增長不
同,Python的軟體包增長速度一直比較穩定,同時軟體包的質量也相對較高。有很多人詬病Python對於空格的要求過於苛刻,但正是因為這個要求,才
使得Python在做大型項目時比其他語言有優勢。OpenStack項目總共超過200萬行代碼,證明了這一點。

對於運維工程師而言,Python的最大優勢在於,幾乎所有Linux發行版都內置了Python解釋器。Shell雖然功能強大,但畢竟語法不夠優雅,寫比較復雜的任務會很痛苦。用Python替代Shell,做一些復雜的任務,對運維人員來說,是一次解放。

對於數據科學家而言,Python簡單又不失強大。和C/C++相比,不用做很多的底層工作,可以快速進行模型驗證;和Java相比,Python語法簡
潔,表達能力強,同樣的工作只需要1/3代碼;和Matlab,Octave相比,Python的工程成熟度更高。不止一個編程大牛表達過,Python
是最適合作為大學計算機科學編程課程使用的語言——MIT的計算機入門課程就是使用的Python——因為Python能夠讓人學到編程最重要的東西——
如何解決問題。

③ Linux主流發行版有哪些

中標普華
中標軟體從2003年10月注冊成立到現在已經有將近三年的時間,在這三年中,中標軟體公司從最初的60多人到現在的170多人,中標普華產品從1.0版本 升級到3.0版本,中標軟體從一個新成立的公司到媒體眼中的系統軟體旗艦企業,中標軟體經歷了快速發展壯大的歷程。2005年底,中標軟體正式宣告盈利。
珠穆朗瑪
Linux人社區是由一群致力於推動國內Linux技術發展和應用的開發者創建的綜合性技術社區,其目的是建立一個涵蓋Linux基礎技術和高端技術的交流平台,加強Linux開發者和使用者與開源社區的交流,提高國內的Linux開發和企業級應用的技術水平;通過社區匯聚國內的Linux人才,衍生更多本土化創新開源項目,為國際開源社區作出更大的貢獻。
依託Linux人社區,創建了社區Linux版本項目Everest(珠穆朗瑪)。作為社區研發的基礎平台,Everest項目已經隨社區同時啟動並正式發布第一個版本。
Red Hat(以及fedora社區和centos社區)
國內乃至是全世界的Linux用戶所最熟悉、最耳聞能詳的發行版想必就是Red Hat了。 Red Hat最早由Bob Young和Marc Ewing在1995年創建。而公司在最近才開始真正步入盈利時代,歸功於收費的Red Hat Enterprise Linux(RHEL,Red Hat的企業版)。正統的Red Hat版本早已停止技術支持,最後一版是Red Hat 9.0。於是,目前Red Hat分為兩個系列:由Red Hat公司提供收費技術支持和更新的Red Hat Enterprise Linux,以及由社區開發的免費的Fedora Core。Fedora Core 1發布於2003年年末,而FC的定位便是桌面用戶。FC提供了最新的軟體包,同時,它的版本更新周期也非常短,僅六個月。這也是為什麼伺服器上一般不推薦採用Fedora Core。Fedora Core是Red Hat新技術的試驗場。筆者一直比較喜歡這個版本,筆者電腦使用的就是這個版本。
紅旗linux
國內的Linux廠商以做伺服器為主.
最有名的應該是紅旗Linux,他們也單獨發行了免費下載的桌面版。紅旗Linux在桌面領域主要致力於模仿Windows 的界面和使用方法,以吸引更多的Windows用戶轉入其中。雖然也是使用rpm的包管理體系,但安裝軟體可以使用類似Windows的向導方式。此外還 系統安裝的界面和Windows XP幾乎一樣,KDE桌面也做成盡力模仿Windows的主題和文件瀏覽方式,甚至包括了對windows鍵的支持,用於打開K菜單,就跟打開 windows的開始菜單一樣。這種傾向於windows的做法見仁見智。

閱讀全文

與大數據發行版相關的資料

熱點內容
表格批量更名找不到指定文件 瀏覽:869
js的elseif 瀏覽:584
3dmaxvray視頻教程 瀏覽:905
imgtool工具中文版 瀏覽:539
java幫助文件在哪裡 瀏覽:965
win10切換輸入語言 瀏覽:696
haier電視網路用不了怎麼辦 瀏覽:361
蘋果6手機id怎麼更改 瀏覽:179
米家掃地機器人下載什麼app 瀏覽:82
如何在編程貓代碼島20種樹 瀏覽:915
手機基礎信息存儲在哪個文件 瀏覽:726
如何查找手機備份文件 瀏覽:792
內存清理工具formac 瀏覽:323
iphone過濾騷擾電話 瀏覽:981
wap網路如何使用微信 瀏覽:699
手機迅雷應用盒子在哪個文件夾 瀏覽:351
windows8網路連接 瀏覽:442
怎麼快速增加qq群人數 瀏覽:919
錘子視頻播放器文件不存在 瀏覽:707
蘋果手機怎麼清理app緩存 瀏覽:682

友情鏈接