导航:首页 > 网络数据 > 大数据发行版

大数据发行版

发布时间:2024-06-26 04:37:49

① 绠杩癶adoop澶ф暟鎹骞冲彴鎼寤虹殑涓昏佹ラ

鎼寤篐adoop澶ф暟鎹骞冲彴鐨勪富瑕佹ラゅ寘鎷锛氱幆澧冨噯澶囥丠adoop瀹夎呬笌閰嶇疆銆侀泦缇よ剧疆銆佹祴璇曚笌楠岃瘉銆

鐜澧冨噯澶

鍦ㄦ惌寤篐adoop澶ф暟鎹骞冲彴涔嬪墠锛岄栧厛闇瑕佸噯澶囩浉搴旂殑纭浠跺拰杞浠剁幆澧冦傜‖浠剁幆澧冮氬父鍖呮嫭澶氬彴鏈嶅姟鍣ㄦ垨鑰呰櫄鎷熸満锛岀敤浜庢瀯寤篐adoop鐨勫垎甯冨紡闆嗙兢銆傝蒋浠剁幆澧冨垯鍖呮嫭鎿嶄綔绯荤粺銆丣ava杩愯岀幆澧冪瓑銆備緥濡傦紝鍙浠ラ夋嫨CentOS鎴朥buntu绛塋inux鍙戣岀増浣滀负鎿嶄綔绯荤粺锛屽畨瑁匤DK锛圝ava Development Kit锛変互鎻愪緵Java杩愯岀幆澧冦

Hadoop瀹夎呬笌閰嶇疆

鎺ヤ笅鏉ワ紝闇瑕佸湪鍚勪釜鑺傜偣涓婂畨瑁匟adoop銆傝繖閫氬父娑夊強鍒颁笅杞紿adoop鐨勪簩杩涘埗鍙戣岀増锛岃В鍘嬪埌閫傚綋鐨勭洰褰曪紝骞堕厤缃鐩稿叧鐨勭幆澧冨彉閲忋傚湪瀹夎呰繃绋嬩腑锛岃繕闇瑕佹牴鎹瀹為檯闇姹備慨鏀笻adoop鐨勯厤缃鏂囦欢锛屽俙hadoop-env.sh`銆乣core-site.xml`銆乣hdfs-site.xml`绛夛紝浠ュ畾涔塇adoop闆嗙兢鐨勫熀鏈灞炴у拰琛屼负銆

闆嗙兢璁剧疆

鍦ㄥ畨瑁呭拰閰嶇疆濂紿adoop涔嬪悗锛岄渶瑕佽剧疆闆嗙兢銆傝繖鍖呮嫭瀹氫箟闆嗙兢涓鐨勫悇涓瑙掕壊锛屽侼ameNode銆丏ataNode銆丷esourceManager銆丯odeManager绛夛紝骞堕厤缃瀹冧滑涔嬮棿鐨勯氫俊鍜屽崗浣滄柟寮忋備緥濡傦紝鍦℉DFS锛圚adoop Distributed File System锛変腑锛孨ameNode璐熻矗绠$悊鏂囦欢绯荤粺鐨勫厓鏁版嵁锛岃孌ataNode璐熻矗瀛樺偍瀹為檯鐨勬暟鎹鍧椼傚湪YARN锛圷et Another Resource Negotiator锛変腑锛孯esourceManager璐熻矗璧勬簮鐨勫叏灞绠$悊鍜岃皟搴︼紝鑰孨odeManager鍒欒礋璐e悇涓鑺傜偣涓婄殑璧勬簮绠$悊銆

娴嬭瘯涓庨獙璇

鏈鍚庯紝闇瑕佸规惌寤哄ソ鐨凥adoop澶ф暟鎹骞冲彴杩涜屾祴璇曞拰楠岃瘉銆傝繖鍙浠ラ氳繃杩愯屼竴浜涚畝鍗曠殑浠诲姟鎴栦綔涓氭潵瀹屾垚锛屼緥濡備娇鐢℉adoop鐨勫懡浠よ屽伐鍏疯繘琛屾枃浠剁殑涓婁紶銆佷笅杞藉拰娴忚堬紝鎴栬呮彁浜や竴涓狹apRece浣滀笟鏉ヨ傚療鍏惰繍琛屾儏鍐点傛祴璇曞拰楠岃瘉鐨勭洰鐨勬槸纭淇滺adoop闆嗙兢鑳藉熸e父宸ヤ綔锛屽苟婊¤冻瀹為檯鐨勫簲鐢ㄩ渶姹傘

缁间笂鎵杩帮紝鎼寤篐adoop澶ф暟鎹骞冲彴鏄涓涓娑夊強澶氫釜姝ラょ殑杩囩▼锛岄渶瑕佺患鍚堣冭檻纭浠躲佽蒋浠躲侀厤缃鍜屾祴璇曠瓑澶氫釜鏂归潰銆傞氳繃鍚堢悊鐨勮勫垝鍜屽疄鏂斤紝鍙浠ユ瀯寤轰竴涓楂樻晥銆佺ǔ瀹氬拰鍙闈犵殑Hadoop澶ф暟鎹骞冲彴锛屼互鏀鎸佸悇绉嶅ぇ鏁版嵁搴旂敤鍜屽垎鏋愪换鍔°

② 为什么说Python是大数据全栈式开发语言

就像只要会JavaScript就可以写出完整的Web应用,只要会Python,就可以实现一个完整的大数据处理平台。

云基础设施

这年头,不支持云平台,不支持海量数据,不支持动态伸缩,根本不敢说自己是做大数据的,顶多也就敢跟人说是做商业智能(BI)。

云平台分为私有云和公有云。私有云平台如日中天的 OpenStack

,就是Python写的。曾经的追赶者CloudStack,在刚推出时大肆强调自己是Java写的,比Python有优势。结果,搬石砸脚,2015年
初,CloudStack的发起人Citrix宣布加入OpenStack基金会,CloudStack眼看着就要寿终正寝。

如果嫌麻烦不想自己搭建私有云,用公有云,不论是AWS,GCE,Azure,还是阿里云,青云,在都提供了Python SDK,其中GCE只提供Python和JavaScript的SDK,而青云只提供Python SDK。可见各家云平台对Python的重视。

提到基础设施搭建,不得不提Hadoop,在今天,Hadoop因为其MapRece数据处理速度不够快,已经不再作为大数据处理的首选,但
是HDFS和Yarn——Hadoop的两个组件——倒是越来越受欢迎。Hadoop的开发语言是Java,没有官方提供Python支持,不过有很多第
三方库封装了Hadoop的API接口(pydoop,hadoopy等等)。

Hadoop MapRece的替代者,是号称快上100倍的 Spark ,其开发语言是Scala,但是提供了Scala,Java,Python的开发接口,想要讨好那么多用Python开发的数据科学家,不支持Python,真是说不过去。HDFS的替代品,比如GlusterFS, Ceph 等,都是直接提供Python支持。Yarn的替代者, Mesos 是C++实现,除C++外,提供了Java和Python的支持包。

DevOps

DevOps有个中文名字,叫做 开发自运维 。互联网时代,只有能够快速试验新想法,并在第一时间,安全、可靠的交付业务价值,才能保持竞争力。DevOps推崇的自动化构建/测试/部署,以及系统度量等技术实践,是互联网时代必不可少的。

自动化构建是因应用而易的,如果是Python应用,因为有setuptools, pip, virtualenv, tox,
flake8等工具的存在,自动化构建非常简单。而且,因为几乎所有linux系统都内置Python解释器,所以用Python做自动化,不需要系统预
安装什么软件。

自动化测试方面,基于Python的 Robot Framework 企业级应用最喜欢的自动化测试框架,而且和语言无关。Cucumber也有很多支持者,Python对应的Lettuce可以做到完全一样的事情。 Locust 在自动化性能测试方面也开始受到越来越多的关注。

自动化配置管理工具,老牌的如Chef和Puppet,是Ruby开发,目前仍保持着强劲的势头。不过,新生代 Ansible 和 SaltStack ——均为Python开发——因为较前两者设计更为轻量化,受到越来越多开发这的欢迎,已经开始给前辈们制造了不少的压力。

在系统监控与度量方面,传统的Nagios逐渐没落,新贵如 Sensu 大受好评,云服务形式的New Relic已经成为创业公司的标配,这些都不是直接通过Python实现的,不过Python要接入这些工具,并不困难。

除了上述这些工具,基于Python,提供完整DevOps功能的PaaS平台,如 Cloudify 和 Deis ,虽未成气候,但已经得到大量关注。

网络爬虫

大数据的数据从哪里来?除了部分企业有能力自己产生大量的数据,大部分时候,是需要靠爬虫来抓取互联网数据来做分析。

网络爬虫是Python的传统强势领域,最流行的爬虫框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能够独当一面的类库。

不过,网络爬虫并不仅仅是打开网页,解析HTML这么简单。高效的爬虫要能够支持大量灵活的并发操作,常常要能够同时几千甚至上万个网页同时抓取,传统的
线程池方式资源浪费比较大,线程数上千之后系统资源基本上就全浪费在线程调度上了。Python由于能够很好的支持协程( Coroutine )操作,基于此发展起来很多并发库,如Gevent,Eventlet,还有Celery之类的分布式任务框架。被认为是比AMQP更高效的ZeroMQ也是最早就提供了Python版本。有了对高并发的支持,网络爬虫才真正可以达到大数据规模。

抓取下来的数据,需要做分词处理,Python在这方面也不逊色,著名的自然语言处理程序包NLTK,还有专门做中文分词的Jieba,都是做分词的利器。

数据处理

万事俱备,只欠东风。这东风,就是数据处理算法。从统计理论,到数据挖掘,机器学习,再到最近几年提出来的深度学习理论,数据科学正处于百花齐放的时代。数据科学家们都用什么编程?

如果是在理论研究领域,R语言也许是最受数据科学家欢迎的,但是R语言的问题也很明显,因为是统计学家们创建了R语言,所以其语法略显怪异。而且
R语言要想实现大规模分布式系统,还需要很长一段时间的工程之路要走。所以很多公司使用R语言做原型试验,算法确定之后,再翻译成工程语言。

Python也是数据科学家最喜欢的语言之一。和R语言不同,Python本身就是一门工程性语言,数据科学家用Python实现的算法,可以直
接用在产品中,这对于大数据初创公司节省成本是非常有帮助的。正式因为数据科学家对Python和R的热爱,Spark为了讨好数据科学家,对这两种语言
提供了非常好的支持。

Python的数据处理相关类库非常多。高性能的科学计算类库NumPy和SciPy,给其他高级算法打了非常好的基础,matploglib让
Python画图变得像Matlab一样简单。Scikit-learn和Milk实现了很多机器学习算法,基于这两个库实现的 Pylearn2 ,是深度学习领域的重要成员。 Theano 利用GPU加速,实现了高性能数学符号计算和多维矩阵计算。当然,还有 Pandas ,一个在工程领域已经广泛使用的大数据处理类库,其DataFrame的设计借鉴自R语言,后来又启发了Spark项目实现了类似机制。

对了,还有 iPython ,这个工具如此有用,以至于我差点把他当成标准库而忘了介绍。iPython是一个交互式Python运行环境,能够实时看到每一段Python代码的结果。默认情况下,iPython运行在命令行,可以执行 ipython notebook 在网页中运行。用matplotlib绘制的图可以直接嵌入式的显示在iPython Notebook中。

iPython Notebook的笔记本文件可以共享给其他人,这样其他人就可以在自己的环境中重现你的工作成果;如果对方没有运行环境,还可以直接转换成HTML或者PDF。

为什么是Python

正是因为应用开发工程师、运维工程师、数据科学家都喜欢Python,才使得Python成为大数据系统的全栈式开发语言。

对于开发工程师而言,Python的优雅和简洁无疑是最大的吸引力,在Python交互式环境中,执行 import this

,读一读Python之禅,你就明白Python为什么如此吸引人。Python社区一直非常有活力,和NodeJS社区软件包爆炸式增长不
同,Python的软件包增长速度一直比较稳定,同时软件包的质量也相对较高。有很多人诟病Python对于空格的要求过于苛刻,但正是因为这个要求,才
使得Python在做大型项目时比其他语言有优势。OpenStack项目总共超过200万行代码,证明了这一点。

对于运维工程师而言,Python的最大优势在于,几乎所有Linux发行版都内置了Python解释器。Shell虽然功能强大,但毕竟语法不够优雅,写比较复杂的任务会很痛苦。用Python替代Shell,做一些复杂的任务,对运维人员来说,是一次解放。

对于数据科学家而言,Python简单又不失强大。和C/C++相比,不用做很多的底层工作,可以快速进行模型验证;和Java相比,Python语法简
洁,表达能力强,同样的工作只需要1/3代码;和Matlab,Octave相比,Python的工程成熟度更高。不止一个编程大牛表达过,Python
是最适合作为大学计算机科学编程课程使用的语言——MIT的计算机入门课程就是使用的Python——因为Python能够让人学到编程最重要的东西——
如何解决问题。

③ Linux主流发行版有哪些

中标普华
中标软件从2003年10月注册成立到现在已经有将近三年的时间,在这三年中,中标软件公司从最初的60多人到现在的170多人,中标普华产品从1.0版本 升级到3.0版本,中标软件从一个新成立的公司到媒体眼中的系统软件旗舰企业,中标软件经历了快速发展壮大的历程。2005年底,中标软件正式宣告盈利。
珠穆朗玛
Linux人社区是由一群致力于推动国内Linux技术发展和应用的开发者创建的综合性技术社区,其目的是建立一个涵盖Linux基础技术和高端技术的交流平台,加强Linux开发者和使用者与开源社区的交流,提高国内的Linux开发和企业级应用的技术水平;通过社区汇聚国内的Linux人才,衍生更多本土化创新开源项目,为国际开源社区作出更大的贡献。
依托Linux人社区,创建了社区Linux版本项目Everest(珠穆朗玛)。作为社区研发的基础平台,Everest项目已经随社区同时启动并正式发布第一个版本。
Red Hat(以及fedora社区和centos社区)
国内乃至是全世界的Linux用户所最熟悉、最耳闻能详的发行版想必就是Red Hat了。 Red Hat最早由Bob Young和Marc Ewing在1995年创建。而公司在最近才开始真正步入盈利时代,归功于收费的Red Hat Enterprise Linux(RHEL,Red Hat的企业版)。正统的Red Hat版本早已停止技术支持,最后一版是Red Hat 9.0。于是,目前Red Hat分为两个系列:由Red Hat公司提供收费技术支持和更新的Red Hat Enterprise Linux,以及由社区开发的免费的Fedora Core。Fedora Core 1发布于2003年年末,而FC的定位便是桌面用户。FC提供了最新的软件包,同时,它的版本更新周期也非常短,仅六个月。这也是为什么服务器上一般不推荐采用Fedora Core。Fedora Core是Red Hat新技术的试验场。笔者一直比较喜欢这个版本,笔者电脑使用的就是这个版本。
红旗linux
国内的Linux厂商以做服务器为主.
最有名的应该是红旗Linux,他们也单独发行了免费下载的桌面版。红旗Linux在桌面领域主要致力于模仿Windows 的界面和使用方法,以吸引更多的Windows用户转入其中。虽然也是使用rpm的包管理体系,但安装软件可以使用类似Windows的向导方式。此外还 系统安装的界面和Windows XP几乎一样,KDE桌面也做成尽力模仿Windows的主题和文件浏览方式,甚至包括了对windows键的支持,用于打开K菜单,就跟打开 windows的开始菜单一样。这种倾向于windows的做法见仁见智。

阅读全文

与大数据发行版相关的资料

热点内容
java将数字转换成字母 浏览:854
c盘中的哪些是系统文件夹 浏览:668
分布式服务如何跨库统计数据 浏览:829
力控转发数据客户端模式如何建立 浏览:200
怎么样让自己的网站不被别人看到 浏览:711
编程扩展效果如何 浏览:335
荣耀畅玩手环同步qq 浏览:475
怎么向sql中添加数据库 浏览:596
录歌失败重启app什么意思 浏览:522
压缩文件包怎么在微信发送 浏览:432
mysql数据库怎么插入时间值 浏览:191
微信视频不能转发朋友圈 浏览:596
影视后期的app有哪些 浏览:956
电子保单数据出错什么意思 浏览:368
如何以文件下载音乐 浏览:438
计算机网络章节练习 浏览:999
单片机的外部中断程序 浏览:48
表格批量更名找不到指定文件 浏览:869
js的elseif 浏览:584
3dmaxvray视频教程 浏览:905

友情链接