❶ 大数据学什么语言
1、Python语言
十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。
还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一,不过这年头,这个概念证明大有用途,以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上,包括Scala和R。
Python往往在大数据处理框架中得到支持,但与此同时,它往往又不是“一等公民”。比如说,Spark中的新功能几乎总是出现在Scala/Java绑定的首位,可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。
与R相反,Python是一种传统的面向对象语言,所以大多数开发人员用起来会相当得心应手,而初次接触R或Scala会让人心生畏惧。一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营,一派觉得“这非常有助于确保可读性”,另一派则认为,我们应该不需要就因为一行代码有个字符不在适当的位置,就要迫使解释器让程序运行起来。
2、R语言
在过去的几年时间中,R语言已经成为了数据科学的宠儿——数据科学现在不仅仅在书呆子一样的统计学家中人尽皆知,而且也为华尔街交易员,生物学家,和硅谷开发者所家喻户晓。各种行业的公司,例如Google,Facebook,美国银行,以及纽约时报都使用R语言,R语言正在商业用途上持续蔓延和扩散。
R语言有着简单而明显的吸引力。使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字。它被比喻为是Excel的一个极度活跃版本。
R语言最伟大的资本是已围绕它开发的充满活力的生态系统:R语言社区总是在不断地添加新的软件包和功能到它已经相当丰富的功能集中。据估计,超过200万的人使用R语言,并且最近的一次投票表明,R语言是迄今为止在科学数据中最流行的语言,被61%的受访者使用(其次是Python,39%)。
3、JAVA
Java,以及基于Java的框架,被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你会发现,Java是它们所有数据工程基础设施的基础语言,”Driscoll说。
Java不能提供R和Python同样质量的可视化,并且它并非统计建模的最佳选择。但是,如果你移动到过去的原型制作并需要建立大型系统,那么Java往往是你的最佳选择。
❷ 如何构建一个语言学研究的大数据实验,谈谈你的想法
大数据、云计算、智能化等新技术的不断涌现,为语言学研究注入了新的活力,语言学在社会科学中的地位越发凸显。4月22日,以“大数据视野下的语言学研究新趋势”为主题的第六届中国语言学研究方法与方法论问题学术讨论会在京召开。此次会议由会议的常设主办单位中国社会科学杂志社和合作单位北京语言大学联合主办。国内十多所高校、科研单位的30余名专家学者围绕大会主题展开研讨和交流。
语言学研究方法的新思考
“语言之学有两个关注,一是关注对语言本身的研究,一是关注对语言研究的研究。”北京语言大学党委书记李宇明教授表示。语言的研究就是方法和方法论的体现,语言研究不能不注重方法。中国社会科学院语言研究所沈家煊研究员认为,语言研究应遵循“能简则简”和“分清主次”两个原则,“能简则简”是为了防止过度生成,“分清主次”是为了防止以偏概全。他指出,一个理论的解释力是由它能排除多少可能性来衡量的,不断增加复杂性和微调程度的理论能排除的可能性变得越来越小,甚至不能排除任何例外,最终变得没有解释力。中国社会科学院语言研究所张振兴研究员则提出大胆的理论假设——动物有语言,但是否有方言?他认为,迄今为止的“语言观”都是从人类语言角度出发的,语言研究也是建立在相对狭隘的观念基础上的。从动物的语言问题出发,将有助于解开人类语言的起源之谜。
具体到微观的语言研究方法,李宇明教授另辟蹊径,打破以往从谱系、结构的角度,从功能角度对语言进行新的分类。他表示,这种分类可以加深对世界语言格局的认识,对外语选择、语言政策和国际组织语种选择有很大的帮助。盛世修典,围绕新时代的韵书编纂,江苏师范大学杨亦鸣教授表示韵书编写最主要的原则是以实际语音为基础,有音韵学理的根据,并能用于创作实践。
新技术成为语言研究的重要手段
大数据在语言学研究中的应用是此次会议的亮点。中国社会科学院语言研究所李蓝研究员表示,利用大数据及计算机技术,传统的汉语方言调查效率得到大大提升。首都师范大学周建设教授关注人脑意象的机器语篇自动表达。他认为,大数据的特性使语言表达智能化逐渐成为可能,汉语表达智能模型的实现必须依赖于大数据资源库建设。
语言数据库建设是落实《国家语言文字事业“十三五”发展规划》关于推进语言文字信息化建设的具体要求。北京语言大学荀恩东教授的设想是建立语块分析库,利用大数据存储技术,以语块为分析单位,使计算机对汉语句法语义进行自动切分。北京师范大学王立军教授则致力于汉字数据库建设,旨在运用数据库技术,描述与现代通用规范汉字及古籍印刷通用汉字有关的汉字属性,构建一个科学系统的通用汉字全息属性库,以有效满足不同领域汉字应用的多元化需求。
新兴学科和交叉学科研究方兴未艾
当今社会的复杂性越来越高,面对这样的一个系统,任何单一学科都不可能解决复杂的社会问题。跨学科研究不仅是社会发展的需要,也是学科本身发展的必然要求。语言学在自身不断发展的同时,与相关学科不断交叉,出现新的研究领域。北京大学袁毓林教授利用认知转喻理论对汉语句法中的省略部分进行重新解释。他认为,认知转喻理论有助于解释语法形式与语法意义之间错综复杂的对应关系,以及词语的词类属性与有关句法表现之间的扭曲关系。同样,广东外语外贸大学魏在江教授也利用转喻机制探讨了汉语量词的超常规构式。
语言资源、语言规划、语言管理等新兴学科不断发展,逐渐成为显学。语言资源作为国家的战略性资源,在文化保护、文化建设、文化输入等方面扮演着重要的角色。武汉大学赵世举教授指出,网络空间语言资源在文化传承、国家安全、科技创新等方面具有重要的战略价值。语言规划、语言管理是一种社会治理活动。随着社会生活的新发展,语言冲突多发,语言规划与管理显得越来越重要。教育部语言文字应用研究所魏晖研究员提出要构建有中国特色的语言管理方案。上海外国语大学赵蓉晖教授从语言政策与语言规划角度重新审视人们对外语考试的批判。此外,与会代表还在全球华语、祖语传承、语言生态等方面展开了热烈的讨论。
此次会议历时两天,与会者普遍认为这次会议汇聚了一批语言和语言学研究新成果,为今后的研究提出了新的思路和方向。