㈠ 大数据处理需要用到的编程语言有哪些
R语言:为统计人员开来发的一种语言,可自以用R语言构建深奥的统计模型、数据探索以及统计分析等
Python语言:Python是数据分析利器,使用Python进行科学计算可以提高效率,Python可以替代Excel进行更高效的数据处理
java语言:Java是一门很适合大数据项目的编程语言,Hadoop、Spark、Storm、Flink、Flume、Kafka、Sqoop等大数据框架和工具都是用Java编写的,因此,大数据会不可避免的使用到Java。
Scala语言:Scala是一门轻松的语言,在JVM上运行,成功地结合了函数范式和面向对象范式
㈡ 财经大学金融科技专业学习哪些课程就业方法有哪些
财经大学金融科技专业需要学习金融科技概论、区块链金融、金融大数据处理等专业。还需学习金融智能、金融科技合规实践、金融科技营销、金融科技征信与实践、金融科技平台运维、金融机器学习入门和实践课程。金融科技应用专业以“金融科技”为核心,针对新趋势、新工作、新需求,着力培养具有扎实金融专业基础和数字化、智能化专业技能的复合型、创新型、高素质金融科技人才。在金融行业。
要知道的是金融与传统金融的区别不仅在于金融业务使用的媒介不同,更重要的是金融参与者深谙互联网“开放、平等、协作、共享”的精髓。业务具有透明度更高、参与度更高、协同性更好、中间成本更低、操作更便捷等一系列特点。理论上,任何涉及广义金融的互联网应用都应该是互联网金融,包括但不限于第三方支付、网上理财产品销售、信用评估与审查、金融中介、金融电子商务等模式。
㈢ 如何解决r语言对大数据的运算问题
比较可以处理较大数据的扩展包有:
Rdatatable/data.table ·回 GitHub
CRAN - Package bigmemory
之后就是用答Hadoop等等了:
RevolutionAnalytics/rhdfs · GitHub
RevolutionAnalytics/rhbase · GitHub
RevolutionAnalytics/rmr2 · GitHub
RevolutionAnalytics/plyrmr · GitHub
=。
㈣ r语言和sas哪个更适合制造行业的数据分析
你好,是这样的:
[注]:这里仅仅讨论楼主所问的R和SAS两种软件
简介:R与SAS都属于统计/数据分析软件,R与SAS相比,R具有免费开源、应用广泛、可扩展度高等优点;SAS则属于模块化、集成化的软件,成本很高,但是能满足现有统计/数据分析的需求,并且与SQL数据库能进行很好的对接,一般为大企业,金融、销售行业所使用。而据个人经验,R在处理一些很大的行业数据的时候,就会有一些不如SAS(当然有部分原因是你软件载体的配置)。
这两个软件都可以进行制造业的数据分析,如何选择这两个软件呢。
答:
(1).首要取决于你的数据分析所服务单位/团体的要求,个别有能力的企业,出于节约时间,会要求使用SAS,毕竟如果使用R,那么为了确保你的分析的正确性,可能会要求审查分析过程,而这个过程SAS会比R节约很大的时间,若对这两个软件没有要求,那么请看下一条。
(2).在没有必定要求的前提下,选择软件取决于你对这两个软件的熟练程度,选择自己熟练的软件进行工作,将会使工作成本,时间大大减小。
(3).若既没有软件的必定要求,数据又不太大,而R与SAS的掌握程度差不多的前提下,可以根据下面的方法选择:
1)R的扩展性好,在制图方面靠着各种程序包遥遥领先,如果自己编程能力强,可以编写自己需要的程序包,这一点也是R的一大亮点,但是若数学、统计、英语功底不强,R学习起来可能有一些障碍。
2)SAS管理/处理大数据的能力非常好,并且方便,就如网络里说的“只用告诉它做什么,不用告诉它怎么做”,这一点与R刚好相反(虽然R在使用现有程序包时也较便捷),同时SAS使用也只需要基础的英语和基础的统计就能使用。
根据以上的描述,楼主可以根据自己的情况“对号入座”,选择自己需要的软件。不对的地方还望指出,最后祝您身体健康,工作顺利,谢谢。
㈤ R语言可以处理大的数据吗
看怎样定义大数据。很多人提到的data.table包处理几百万条数据还是挺快的,回fread读进来只要十几秒答,用dplyr包进行数据处理也很方便。可以去Kaggle上看看别人的scripts,这个网站上很多是census数据,数据量都不小,而且里面的script也很多都是用R或Python写的,适合初学者照猫画虎地学习模仿并加以运用。
㈥ R语言可以处理大的数据吗
“参考网址1”中提到如果只是对整数运算(运算过程和结果都只使用整数),没有必要使用“double”(8 byte),而应该用更小的“integer”(4 byte)。使用storage.mode(x)查看对象存数的模式,storage.mode(x) <- 进行赋值;使用format(object.size(a), units = 'auto')查看对象占用的内存空间(此处有疑问,即在R中每个integer到底占用了多大的空间?)。
需要解释gc()函数,可以查看内存使用情况。同样,在清除了大的对象之后,使用gc()以释放内存使用空间。
李航在”参考网址2“中提到,对于大矩阵的操作,尽量避免使用cbind和rbind之类,因为这会让内存不停地分配空间。“对于长度增加的矩阵,尽量先定义一个大矩阵,然后逐步增加”和“注意清除中间对象”。
使用bigmemory家族:bigmemory, biganalytics, synchronicity, bigtabulate and bigalgebra, 同时还有
biglm。
bigmemory package的使用:
1. 建立big.memory对象
bigmemory采用C++的数据格式来“模仿”R中的matrix。
编写大数据格式文件时候,可以先建立filebacked.big.matrix
big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared = TRUE)
filebacked.big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL)
as.big.matrix(x, type = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)
使用注意:
big.matrix采用两种方式储存数据:一种是big.matrix默认的方式,如果内存空间比较大,可以尝试使用;另外一种是filebacked.big.matrix,这种储存方法可能会备份文件(file-backings),而且需要descriptor file;
“init”指矩阵的初始化数值,如果设定,会事先将设定的数值填充到矩阵中;如果不设置,将处理为NA
"type"是指在big.matrix中atomic element的储存格式,默认是“double”(8 byte),可以改为“integer”(4 byte), "short"(2 byte) or "char"(1 byte)。注意:这个包不支持字符串的储存,type = "char"是指ASCII码字母。
在big.matrix非常大的时候,避免使用rownames和colnames(并且bigmemory禁止用名称访问元素),因为这种做法非常占用内存。如果一定要改变,使用options(bigmemory.allow.dimnames=TRUE),之后colnames, rownames设置。
直接在命令提示符后输入x(x是一个big matrix),将返回x的描述,不会出现所有x中所有内容。因此,注意x[ , ](打印出矩阵全部内容);
如果big.matrix有很多列,那么应该将其转置后储存;(不推荐)或者将参数“separated”设置为TRUE,这样就将每一列分开储存。否则,将用R的传统方式(column major的方式)储存数据。
如果建立一个filebacked.big.matrix,那么需要指定backingfile的名称和路径+descriptorfile。可能多个big.matrix对象对应唯一一个descriptorfile,即如果descriptorfile改变,所以对应的big.matrix随之改变;同样,decriptorfile随着big.matrix的改变而改变;如果想维持一种改变,需要重新建立一个filebacked.big.matrix。attach.big.matrix(descriptorfile or describe(big.matrix))函数用于将一个descriptorfile赋值给一个big.matrix。这个函数很好用,因为每次在创建一个filebacked.big.matrix后,保存R并退出后,先前创建的矩阵会消失,需要再attach.big.matrix以下
2. 对big.matrix的列的特定元素进行条件筛选
对内存没有限制;而且比传统的which更加灵活(赞!)
mwhich(x, cols, vals, comps, op = 'AND')
x既可以是big.matrix,也可以是传统的R对象;
cols:行数
vals:cutoff,可以设定两个比如c(1, 2)
comps:'eq'(==), 'neq'(!=), 'le'(<), 'lt'(<=), 'ge'(>) and 'gt'(>=)
op:“AND”或者是“OR”
可以直接比较NA,Inf和-Inf
3.bigmemory中其他函数
nrow, ncol, dim, dimnames, tail, head, typeof继承base包
big.matrix, is.big.matrix, as.big.matrix, attach.big.matrix, describe, read.big.matrix, write.big.matrix, sub.big.matrix, is.sub.big.matrix为特有的big.matrix文件操作;filebacked.big.matrix, is.filebacked(判断big.matrix是否硬盘备份) , flush(将filebacked的文件刷新到硬盘备份上)是filebacked的big.matrix的操作。
mwhich增强base包中的which, morder增强order,mpermute(对matrix中的一列按照特定序列操作,但是会改变原来对象,这是为了避免内存溢出)
big.matrix对象的使用deep(x, cols = NULL, rows = NULL, y = NULL, type = NULL, separated = NULL, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)
biganalytics package的使用
biganalytics主要是一些base基本函数的扩展,主要有max, min, prod, sum, range, colmin, colmax, colsum, colprod, colmean, colsd, colvar, summary, apply(只能用于行或者列,不能用行列同时用)等
比较有特色的是bigkmeans的聚类
剩下的biglm.big.matrix和bigglm.big.matrix可以参考Lumley's biglm package。
bigtabulate package的使用
并行计算限制的突破:
使用doMC家族:doMC, doSNOW, doMPI, doRedis, doSMP和foreach packages.
foreach package的使用
foreach(..., .combine, .init, .final=NULL, .inorder=TRUE, .multicombine=FALSE, .maxcombine=if (.multicombine) 100 else 2, .errorhandling=c('stop', 'remove', 'pass'), .packages=NULL, .export=NULL, .noexport=NULL, .verbose=FALSE)
foreach的特点是可以进行并行运算,如在NetWorkSpace和snow?
%do%严格按照顺序执行任务(所以,也就非并行计算),%dopar%并行执行任务
...:指定循环的次数;
.combine:运算之后结果的显示方式,default是list,“c”返回vector, cbind和rbind返回矩阵,"+"和"*"可以返回rbind之后的“+”或者“*”
.init:.combine函数的第一个变量
.final:返回最后结果
.inorder:TRUE则返回和原始输入相同顺序的结果(对结果的顺序要求严格的时候),FALSE返回没有顺序的结果(可以提高运算效率)。这个参数适合于设定对结果顺序没有需求的情况。
.muticombine:设定.combine函数的传递参数,default是FALSE表示其参数是2,TRUE可以设定多个参数
.maxcombine:设定.combine的最大参数
.errorhandling:如果循环中出现错误,对错误的处理方法
.packages:指定在%dopar%运算过程中依赖的package(%do%会忽略这个选项)。
getDoParWorkers( ) :查看注册了多少个核,配合doMC package中的registerDoMC( )使用
getDoParRegistered( ) :查看doPar是否注册;如果没有注册返回FALSE
getDoParName( ) :查看已经注册的doPar的名字
getDoParVersion( ):查看已经注册的doPar的version
===================================================
# foreach的循环次数可以指定多个变量,但是只用其中最少?的
> foreach(a = 1:10, b = rep(10, 3)) %do% (a*b)
[[1]]
[1] 10
[[2]]
[1] 20
[[3]]
[1] 30
# foreach中.combine的“+”或者“*”是cbind之后的操作;这也就是说"expression"返回一个向量,会对向量+或者*
> foreach(i = 1:4, .combine = "+") %do% 2
[1] 8
> foreach(i = 1:4, .combine = "rbind") %do% rep(2, 5)
[,1] [,2] [,3] [,4] [,5]
result.1 2 2 2 2 2
result.2 2 2 2 2 2
result.3 2 2 2 2 2
result.4 2 2 2 2 2
> foreach(i = 1:4, .combine = "+") %do% rep(2, 5)
[1] 8 8 8 8 8
> foreach(i = 1:4, .combine = "*") %do% rep(2, 5)
[1] 16 16 16 16 16
=============================================
iterators package的使用
iterators是为了给foreach提供循环变量,每次定义一个iterator,它都内定了“循环次数”和“每次循环返回的值”,因此非常适合结合foreach的使用。
iter(obj, ...):可以接受iter, vector, matrix, data.frame, function。
nextElem(obj, ...):接受iter对象,显示对象数值。
以matrix为例,
iter(obj, by=c('column', 'cell', 'row'), chunksize=1L, checkFunc=function(...) TRUE, recycle=FALSE, ...)
by:按照什么顺序循环;matrix和data.frame都默认是“row”,“cell”是按列依次输出(所以对于“cell”,chunksize只能指定为默认值,即1)
chunksize:每次执行函数nextElem后,按照by的设定返回结果的长度。如果返回结构不够,将取剩余的全部。
checkFunc=function(...) TRUE:执行函数checkFun,如果返回TRUE,则返回;否则,跳过。
recycle:设定在nextElem循环到底(“错误: StopIteration”)是否要循环处理,即从头再来一遍。
以function为例
iter(function()rnorm(1)),使用nextElem可以无限重复;但是iter(rnorm(1)),只能来一下。
更有意思的是对象如果是iter,即test1 <- iter(obj); test2 <- iter(test1),那么这两个对象是连在一起的,同时变化。
==============================================
> a
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 13 17
[2,] 2 6 10 14 18
[3,] 3 7 11 15 19
[4,] 4 8 12 16 20
> i2 <- iter(a, by = "row", chunksize=3)
> nextElem(i2)
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 13 17
[2,] 2 6 10 14 18
[3,] 3 7 11 15 19
> nextElem(i2) #第二次iterate之后,只剩下1行,全部返回
[,1] [,2] [,3] [,4] [,5]
[1,] 4 8 12 16 20
> i2 <- iter(a, by = "column", checkFunc=function(x) sum(x) > 50)
> nextElem(i2)
[,1]
[1,] 13
[2,] 14
[3,] 15
[4,] 16
> nextElem(i2)
[,1]
[1,] 17
[2,] 18
[3,] 19
[4,] 20
> nextElem(i2)
错误: StopIteration
> colSums(a)
[1] 10 26 42 58 74
> testFun <- function(x){return(x+2)}
> i2 <- iter(function()testFun(1))
> nextElem(i2)
[1] 3
> nextElem(i2)
[1] 3
> nextElem(i2)
[1] 3
> i2 <- iter(testFun(1))
> nextElem(i2)
[1] 3
> nextElem(i2)
错误: StopIteration
> i2 <- iter(testFun(1))
> i3 <- iter(i2)
> nextElem(i3)
[1] 3
> nextElem(i2)
错误: StopIteration
============================================
iterators package中包括
irnorm(..., count);irunif(..., count);irbinom(..., count);irnbinom(..., count);irpois(..., count)中内部生成iterator的工具,分别表示从normal,uniform,binomial,negativity binomial和Poisson分布中随机选取N个元素,进行count次。其中,negative binomial分布:其概率积累函数(probability mass function)为掷骰子,每次骰子为3点的概率为p,在第r+k次恰好出现r次的概率。
icount(count)可以生成1:conunt的iterator;如果count不指定,将从无休止生成1:Inf
icountn(vn)比较好玩,vn是指一个数值向量(如果是小数,则向后一个数取整,比如2.3 --> 3)。循环次数为prod(vn),每次返回的向量中每个元素都从1开始,不超过设定 vn,变化速率从左向右依次递增。
idiv(n, ..., chunks, chunkSize)返回截取从1:n的片段长度,“chunks”和“chunkSize”不能同时指定,“chunks”为分多少片段(长度从大到小),“chunkSize”为分段的最大长度(长度由大到小)
iapply(X, MARGIN):与apply很像,MARGIN中1是row,2是column
isplit(x, f, drop=FALSE, ...):按照指定的f划分矩阵
=============================================
> i2 <- icountn(c(3.4, 1.2))
> nextElem(i2)
[1] 1 1
> nextElem(i2)
[1] 2 1
> nextElem(i2)
[1] 3 1
> nextElem(i2)
[1] 4 1
> nextElem(i2)
[1] 1 2
> nextElem(i2)
[1] 2 2
> nextElem(i2)
[1] 3 2
> nextElem(i2)
[1] 4 2
> nextElem(i2)
错误: StopIteration
㈦ 加百力的Trident 金融大数据处理支持基金
“Trident 金融大数据处理支持基金”是由薛辉设立,由加百力咨询公司负责运营,专攻金融大数据处理项目的支持基金。 无论是在校大学生还是已参加工作的社会人士,只要对金融大数据处理有浓厚兴趣及深厚技术功底,本支持基金都可以提供资金和经验支持。同时也为学生减轻就业压力,为加百力咨询储备有能力的精英人才。 1、布局全球市场 ——国家总有一天会需要我们
随着经济金融全球化的不断推进,任何国家都必须尽快赶上这班全球经济快车才能充分发展。中国开放金融市场、人民币国际化的步伐也逐步加快,中国金融市场正在加速与国际接轨的步伐。我们现在做的金融大数据处理工作,无论是针对股票指数、外汇还是能源、金属等品种,未来国家都会有需要。
2、鼓励精英创新,缓解就业压力
国内有不少数学建模、数据处理、软件工程方面的高手。很多人有创意、有想法但缺乏发展机会。我们的基金项目鼓励精英提出自己的创新思路,实现自己的创新愿望。同时也可以缓解就业压力。
3、成熟算法信号量多,含金量高
一套成熟算法理论上可以产生无数的交易信号。有时单个信号含金量可能达到数亿美金。比如,2012年9月我们发现了做空日元的机会开始布局,到2013年3月盈利超过10%逾60万人民币。而索罗斯的基金也有类似操作,总盈利超过10亿美金。
4、独立算法即集团分公司,增加就业
针对不同交易品种:如金属、能源、外汇的独立算法可以从不同的渠道获得收益。从效果上看如同一个大型集团旗下针对不同行业的分公司。这也是很多大型对冲基金在全球各地布局并取得超额收益的原因。不同品种线上的算法需要不断维护、调试、更新,所以独立算法在创造“分公司式”收益的同时也增加了就业机会。
5、长期基金,逐步尝试,规模不断提升
我们希望把Trident 基金做成一个长期的、高效的基金,为公司和精英发展成长做出贡献。但由于还没有组织此类支持基金的经验,所以我们准备首期只投入60万逐步尝试。在项目运作过程中不断总结、调整、提升管理质量,不断升级支持基金的规模。 基金以团队为单位,以项目为主体进行申请。研究项目必须是市场公开交易品种。交易品种必须能够进行双向交易:可做多做空。品种必须允许保证金交易,即有一定的杠杆比例。交易品种的成交量必须足够大,以承载大资金量;流动性好、进出场迅速。
1、针对外汇、股票指数、债券、金属、能源、农产品等基础资产,20年以上大规模历史数据的研究项目。
2、预研模型必须使用R语言开发。
3、预研模型能够证明有一定的实战盈利能力。
㈧ 如何让Hadoop结合R语言做大数据分析
R语言和Hadoop让我们体会到了,两种技术在各自领域的强大。很多开发人员在计算机的角度,都会提出下面2个问题。问题1: Hadoop的家族如此之强大,为什么还要结合R语言?x0dx0a问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?下面我尝试着做一个解答:问题1: Hadoop的家族如此之强大,为什么还要结合R语言?x0dx0ax0dx0aa. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。x0dx0ab. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。x0dx0ac. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,刚好是最长补短!x0dx0ad. 模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化x0dx0ad1:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标d2:用Hadoop从海量日志数据中,提取指标数据d3:用R语言模型,对指标数据进行测试和调优d4:用Hadoop分步式算法,重写R语言的模型,部署上线这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?x0dx0ax0dx0aa. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架,Mahout的重点同样是解决大数据的计算的问题。x0dx0ab. Mahout目前已支持的算法包括,协同过滤,推荐算法,聚类算法,分类算法,LDA, 朴素bayes,随机森林。上面的算法中,大部分都是距离的算法,可以通过矩阵分解后,充分利用MapRece的并行计算框架,高效地完成计算任务。x0dx0ac. Mahout的空白点,还有很多的数据挖掘算法,很难实现MapRece并行化。Mahout的现有模型,都是通用模型,直接用到的项目中,计算结果只会比随机结果好一点点。Mahout二次开发,要求有深厚的JAVA和Hadoop的技术基础,最好兼有 “线性代数”,“概率统计”,“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。x0dx0ad. R语言同样提供了Mahout支持的约大多数算法(除专有算法),并且还支持大量的Mahout不支持的算法,算法的增长速度比mahout快N倍。并且开发简单,参数配置灵活,对小型数据集运算速度非常快。x0dx0a虽然,Mahout同样可以做数据挖掘和机器学习,但是和R语言的擅长领域并不重合。集百家之长,在适合的领域选择合适的技术,才能真正地“保质保量”做软件。x0dx0ax0dx0a如何让Hadoop结合R语言?x0dx0ax0dx0a从上一节我们看到,Hadoop和R语言是可以互补的,但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求,自然会有商家填补这个空白。x0dx0ax0dx0a1). RHadoopx0dx0ax0dx0aRHadoop是一款Hadoop和R语言的结合的产品,由RevolutionAnalytics公司开发,并将代码开源到github社区上面。RHadoop包含三个R包 (rmr,rhdfs,rhbase),分别是对应Hadoop系统架构中的,MapRece, HDFS, HBase 三个部分。x0dx0ax0dx0a2). RHiveRHive是一款通过R语言直接访问Hive的工具包,是由NexR一个韩国公司研发的。x0dx0ax0dx0a3). 重写Mahout用R语言重写Mahout的实现也是一种结合的思路,我也做过相关的尝试。x0dx0ax0dx0a4).Hadoop调用Rx0dx0ax0dx0a上面说的都是R如何调用Hadoop,当然我们也可以反相操作,打通JAVA和R的连接通道,让Hadoop调用R的函数。但是,这部分还没有商家做出成形的产品。x0dx0ax0dx0a5. R和Hadoop在实际中的案例x0dx0ax0dx0aR和Hadoop的结合,技术门槛还是有点高的。对于一个人来说,不仅要掌握Linux, Java, Hadoop, R的技术,还要具备 软件开发,算法,概率统计,线性代数,数据可视化,行业背景 的一些基本素质。在公司部署这套环境,同样需要多个部门,多种人才的的配合。Hadoop运维,Hadoop算法研发,R语言建模,R语言MapRece化,软件开发,测试等等。所以,这样的案例并不太多。