⑴ 大数据学什么语言
1、Python语言
十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。
还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一,不过这年头,这个概念证明大有用途,以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上,包括Scala和R。
Python往往在大数据处理框架中得到支持,但与此同时,它往往又不是“一等公民”。比如说,Spark中的新功能几乎总是出现在Scala/java绑定的首位,可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。
与R相反,Python是一种传统的面向对象语言,所以大多数开发人员用起来会相当得心应手,而初次接触R或Scala会让人心生畏惧。一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营,一派觉得“这非常有助于确保可读性”,另一派则认为,我们应该不需要就因为一行代码有个字符不在适当的位置,就要迫使解释器让程序运行起来。
2、R语言
在过去的几年时间中,R语言已经成为了数据科学的宠儿——数据科学现在不仅仅在书呆子一样的统计学家中人尽皆知,而且也为华尔街交易员,生物学家,和硅谷开发者所家喻户晓。各种行业的公司,例如Google,Facebook,美国银行,以及纽约时报都使用R语言,R语言正在商业用途上持续蔓延和扩散。
R语言有着简单而明显的吸引力。使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字。它被比喻为是Excel的一个极度活跃版本。
R语言最伟大的资本是已围绕它开发的充满活力的生态系统:R语言社区总是在不断地添加新的软件包和功能到它已经相当丰富的功能集中。据估计,超过200万的人使用R语言,并且最近的一次投票表明,R语言是迄今为止在科学数据中最流行的语言,被61%的受访者使用(其次是Python,39%)。
3、JAVA
Java,以及基于Java的框架,被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你会发现,Java是它们所有数据工程基础设施的基础语言,”Driscoll说。
Java不能提供R和Python同样质量的可视化,并且它并非统计建模的最佳选择。但是,如果你移动到过去的原型制作并需要建立大型系统,那么Java往往是你的最佳选择。
⑵ 澶ф暟鎹鍏蜂綋瀛︿粈涔堬紵
澶ф暟鎹鏃朵唬鐨勬潵涓达紝寮曠垎浜嗕汉浠瀵瑰ぇ鏁版嵁鐨勮ㄨ猴紝浜轰滑瀵瑰ぇ鏁版嵁鏈夊緢澶氬ソ濂囩殑鍦版柟锛岃秺鏄娣卞叆鐨勪簡瑙eぇ鏁版嵁锛岃秺鏄瀵瑰ぇ鏁版嵁鐫杩凤紝寰堝氭湅鍙嬮兘鎯崇煡閬擄紝澶ф暟鎹瀛︿粈涔?澶ф暟鎹鎬庝箞瀛?鍏充簬杩欎袱涓闂棰橈紝鍖椾含鍖楀ぇ闈掗笩灏嗗湪涓嬫枃涓涓浣滅瓟锛屽笇鏈涘逛綘鏈夋墍甯鍔┿
涓銆佸ぇ鏁版嵁瀛︿粈涔?
澶ф暟鎹瑕佸︾殑涓滆タ寰堝氾紝閭d箞灏辫窡鍖楀ぇ闈掗笩灏忕紪澶ц嚧鍦版潵鐞嗙悊姣忎釜闃舵靛ぇ鏁版嵁璇ュ︿粈涔?闃舵典竴Java缂栫▼銆侀樁娈典簩鏁版嵁搴撳紑鍙戙侀樁娈典笁web鍓嶇寮鍙戙侀樁娈靛洓Javaee鍩虹寮鍙戙侀樁娈典簲JavaEE楂樼骇妗嗘灦寮鍙戙侀樁娈靛叚Linux绯荤粺鍜宻hell鑴氭湰寮鍙戙侀樁娈典竷python寮鍙戙侀樁娈靛叓hadoop缁撴瀯涓庡ぇ鏁版嵁寮鍙戙
褰撶劧杩欎釜瀛﹀ぇ鏁版嵁鐨勯樁娈甸『搴忎篃涓嶄竴瀹氳佽繖鏍锋帓搴忥紝浣犲綋鐒跺彲浠ヨ嚜琛岀殑閫夋嫨锛屽競鍦虹殑澶ф暟鎹鍩硅鏈烘瀯鐨勮剧▼瀹夋帓涔熷彲鑳戒笉涓鏍枫傝繖鍙鏄澶ф柟鍚戯紝杩樺湴缁嗗垎灏忔柟鍚戯紝姣斿傛暟鎹搴撳紑鍙戠殑瀛︿範锛屼綘闇瑕佹帉鎻℃暟鎹搴撳熀纭锛屾暟鎹搴撹捐★紝寮鍙戝拰绠$悊绛夋柟闈㈠熀纭鐭ヨ瘑锛岀啛缁冩帉鎻SQL鐨勪娇鐢;娣卞叆鎺屾彙ORM鐨勬濇兂锛岀啛缁冭繍鐢↗DBC瑙e喅鏁版嵁鎸佷箙鍖栫殑鏂规硶绛夌瓑銆
浜屻佸ぇ鏁版嵁鎬庝箞瀛?
浠庡ぇ鏁版嵁鐨勯樁娈靛垝鍒嗘潵鐪嬶紝澶ф暟鎹瑕佹帉鎻$殑鐭ヨ瘑杩樻尯鏉傜殑锛屽ぇ鏁版嵁鎬庝箞瀛?闆跺熀纭鎯冲嚟涓宸变箣鍔涜嚜瀛﹀ソ澶ф暟鎹锛屾棤鐤戞槸鐗瑰埆鐨勯毦锛岃嚜瀛﹀ぇ鏁版嵁涔熶笉鏄瀛﹀ぇ鏁版嵁鏈浣崇殑鏂规堛傚﹀ぇ鏁版嵁鏈浣充篃鏄鏈娴佽岀殑灏辨槸鍙傚姞澶ф暟鎹鍩硅銆
⑶ 大数据时代需要学习什么技术
大数据时代需要学习数据的存储和处理技术。
大数据的存储主要是一些专分属布式文件系统,现在有好些分布式文件系统。比较火的就是GFS,HDFS前者是谷歌的内部使用的,后者是根据谷歌的相关论文用java开发的来源框架。hdfs可以学习。
然后就是数据处理是学maprece,这是大数据出的不错的实现,可以基于hdfs实现大数据处理和优化存储。
还有一个比较好的列式存储的数据库hbase,也是为了大数据儿生的非关系型数据库。
然后就是一些辅助工具框架,比如:hive,pig,zookeeper,sqoop,flum。
⑷ 大数据主要学习什么
现在是大数据的时代,很多人都想从事大数据的职业.大数据主要学习什么?
基础阶段:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis.hadoopmaprecehdfs:hadoop:hadoop概念、版本、历史、HDFS工作原理、YARN介绍和组件介绍.
大数据存储阶段:hbase、hive、sqoop.
大数据结构设计阶段:Flume分布式、Zookeeper、Kafka.
大数据侍败带实时计算阶段:Mahout、Spark、storm.
大数据收集阶段:Python,Scala.
大数据商业实战阶段:实践企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用.
大数据枯返(bigdata、mega、data)或大量资料,是指需要新的处理模式,具有更强的决策力、洞察力和过程优化能力的大容量、高增长率和多样化的信息资产.在维克托·迈尔·舍恩伯格和肯尼斯·库克耶写的《大数据时代》中,大数据不是随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理.大数据的5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实老芦性).
大数据的5个v或特征为
第一,数据体量巨大