r和大数据_如何使用python和R高效而优雅地处理大数据

Ⅰ Python与R的争锋：大数据初学者该怎样选

在当下，人工智能的浪潮席卷而来。从AlphaGo、无人驾驶技术、人脸识别、语音对话，到商城推荐系统，金融业的风控，量化运营、用户洞察、企业征信、智能投顾等，人工智能的应用广泛渗透到各行各业，也让数据科学家们供不应求。Python和R作为机器学习的主流语言，受到了越来越多的关注。数据学习领域的新兵们经常不清楚如何在二者之间做出抉择，本文就语言特性与使用场景为大家对比剖析。

一．Python和R的概念与特性

Python是一种面向对象、解释型免费开源高级语言。它功能强大，有活跃的社区支持和各式各样的类库，同谈答时具备简洁、易读以及可扩展等优点，在近几年成为高人气的编程语言。

Python的优势：

1、Python的使用场景非常多，不仅和R一样可以用于统计分析，更广泛应用于系统编程、图形处理、文本处理、数据库编程、网络编程、Web编程、网络爬虫等，非常适合那些想深入钻研数据分析或者应用统计技术的程序员。

2、目前主流的大数据和机器学习框架对Python都提供了很好的支持，比如Hadoop、Spark、Tensorflow；同时，Python也有着强大的社区支持，特别是近年来随着人工智能的兴起，越来越多的开发者活跃在Python的社区中。

3、Python作为一种胶水语言，能够和其他语言连结在一起，比如你的统计分析部分可以用R语言写，然后封装为Python可以调用的扩展类库。

R语言是一种用来进含闹慧行数据探索、统计分析和作图的解释型语言，但更像一种数学计算的环境。它模块弯滑丰富，为数学计算提供了极为方便的编程方式，特别是针对矩阵的计算。

R语言的优势：

1、R语言拥有许多优雅直观的图表，常见的数据可视化的工具包有：

· 交互式图表rCharts、Plotly，交互时序图

Ⅱ 求《R语言与大数据编程实战》全文免费下载百度网盘资源,谢谢~

《R语言与大数据编程实战》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1VfVGvlRcVRwfPleEqKLJkQ

?pwd=dj86 提取码: dj86
简介：本书是一本R语言入门读物，它旨在帮助读者迅速构建起与数据分析相关的知识体系，并学习如何使用R软件实现数据分析方法。

Ⅲ R语言可以处理大的数据吗

“参考网址1”中提到如果只是对整数运算（运算过程和结果都只使用整数），没有必要使用“double”(8 byte)，而应该用更小的“integer”(4 byte)。使用storage.mode(x)查看对象存数的模式，storage.mode(x) <- 进行赋值；使用format(object.size(a), units = 'auto')查看对象占用的内存空间（此处有疑问，即在R中每个integer到底占用了多大的空间？）。
需要解释gc()函数，可以查看内存使用情况。同样，在清除了大的对象之后，使用gc()以释放内存使用空间。
李航在”参考网址2“中提到，对于大矩阵的操作，尽量避免使用cbind和rbind之类，因为这会让内存不停地分配空间。“对于长度增加的矩阵，尽量先定义一个大矩阵，然后逐步增加”和“注意清除中间对象”。
使用bigmemory家族：bigmemory, biganalytics, synchronicity, bigtabulate and bigalgebra，同时还有
biglm。
bigmemory package的使用：
1. 建立big.memory对象
bigmemory采用C++的数据格式来“模仿”R中的matrix。
编写大数据格式文件时候，可以先建立filebacked.big.matrix
big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared = TRUE)
filebacked.big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL)
as.big.matrix(x, type = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)
使用注意：
big.matrix采用两种方式储存数据：一种是big.matrix默认的方式，如果内存空间比较大，可以尝试使用；另外一种是filebacked.big.matrix，这种储存方法可能会备份文件（file-backings），而且需要descriptor file；
“init”指矩阵的初始化数值，如果设定，会事先将设定的数值填充到矩阵中；如果不设置，将处理为NA
"type"是指在big.matrix中atomic element的储存格式，默认是“double”(8 byte)，可以改为“integer”(4 byte), "short"(2 byte) or "char"(1 byte)。注意：这个包不支持字符串的储存，type = "char"是指ASCII码字母。
在big.matrix非常大的时候，避免使用rownames和colnames(并且bigmemory禁止用名称访问元素)，因为这种做法非常占用内存。如果一定要改变，使用options(bigmemory.allow.dimnames=TRUE)，之后colnames, rownames设置。
直接在命令提示符后输入x（x是一个big matrix），将返回x的描述，不会出现所有x中所有内容。因此，注意x[ , ](打印出矩阵全部内容)；
如果big.matrix有很多列，那么应该将其转置后储存；（不推荐）或者将参数“separated”设置为TRUE，这样就将每一列分开储存。否则，将用R的传统方式（column major的方式）储存数据。
如果建立一个filebacked.big.matrix，那么需要指定backingfile的名称和路径+descriptorfile。可能多个big.matrix对象对应唯一一个descriptorfile，即如果descriptorfile改变，所以对应的big.matrix随之改变；同样，decriptorfile随着big.matrix的改变而改变；如果想维持一种改变，需要重新建立一个filebacked.big.matrix。attach.big.matrix(descriptorfile or describe(big.matrix))函数用于将一个descriptorfile赋值给一个big.matrix。这个函数很好用，因为每次在创建一个filebacked.big.matrix后，保存R并退出后，先前创建的矩阵会消失，需要再attach.big.matrix以下
2. 对big.matrix的列的特定元素进行条件筛选
对内存没有限制；而且比传统的which更加灵活（赞！）
mwhich(x, cols, vals, comps, op = 'AND')
x既可以是big.matrix，也可以是传统的R对象；
cols：行数
vals：cutoff，可以设定两个比如c(1, 2)
comps：'eq'(==), 'neq'(!=), 'le'(<), 'lt'(<=), 'ge'(>) and 'gt'(>=)
op：“AND”或者是“OR”
可以直接比较NA，Inf和-Inf
3.bigmemory中其他函数
nrow, ncol, dim, dimnames, tail, head, typeof继承base包
big.matrix, is.big.matrix, as.big.matrix, attach.big.matrix, describe, read.big.matrix, write.big.matrix, sub.big.matrix, is.sub.big.matrix为特有的big.matrix文件操作；filebacked.big.matrix, is.filebacked（判断big.matrix是否硬盘备份） , flush(将filebacked的文件刷新到硬盘备份上)是filebacked的big.matrix的操作。
mwhich增强base包中的which， morder增强order，mpermute（对matrix中的一列按照特定序列操作，但是会改变原来对象，这是为了避免内存溢出）
big.matrix对象的使用deep(x, cols = NULL, rows = NULL, y = NULL, type = NULL, separated = NULL, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)
biganalytics package的使用
biganalytics主要是一些base基本函数的扩展，主要有max, min, prod, sum, range, colmin, colmax, colsum, colprod, colmean, colsd, colvar, summary, apply（只能用于行或者列，不能用行列同时用）等
比较有特色的是bigkmeans的聚类
剩下的biglm.big.matrix和bigglm.big.matrix可以参考Lumley's biglm package。
bigtabulate package的使用
并行计算限制的突破：

使用doMC家族：doMC, doSNOW, doMPI, doRedis, doSMP和foreach packages.
foreach package的使用
foreach(..., .combine, .init, .final=NULL, .inorder=TRUE, .multicombine=FALSE, .maxcombine=if (.multicombine) 100 else 2, .errorhandling=c('stop', 'remove', 'pass'), .packages=NULL, .export=NULL, .noexport=NULL, .verbose=FALSE)
foreach的特点是可以进行并行运算，如在NetWorkSpace和snow？
%do%严格按照顺序执行任务（所以，也就非并行计算），%dopar%并行执行任务
...：指定循环的次数；
.combine：运算之后结果的显示方式，default是list，“c”返回vector， cbind和rbind返回矩阵，"+"和"*"可以返回rbind之后的“+”或者“*”
.init：.combine函数的第一个变量
.final：返回最后结果
.inorder：TRUE则返回和原始输入相同顺序的结果（对结果的顺序要求严格的时候），FALSE返回没有顺序的结果（可以提高运算效率）。这个参数适合于设定对结果顺序没有需求的情况。
.muticombine：设定.combine函数的传递参数，default是FALSE表示其参数是2，TRUE可以设定多个参数
.maxcombine：设定.combine的最大参数
.errorhandling：如果循环中出现错误，对错误的处理方法
.packages：指定在%dopar%运算过程中依赖的package（%do%会忽略这个选项）。
getDoParWorkers( ) ：查看注册了多少个核，配合doMC package中的registerDoMC( )使用
getDoParRegistered( ) ：查看doPar是否注册；如果没有注册返回FALSE
getDoParName( ) ：查看已经注册的doPar的名字
getDoParVersion( )：查看已经注册的doPar的version
===================================================
# foreach的循环次数可以指定多个变量，但是只用其中最少？的
> foreach(a = 1:10, b = rep(10, 3)) %do% (a*b)
[[1]]
[1] 10
[[2]]
[1] 20
[[3]]
[1] 30
# foreach中.combine的“+”或者“*”是cbind之后的操作；这也就是说"expression"返回一个向量，会对向量+或者*
> foreach(i = 1:4, .combine = "+") %do% 2
[1] 8
> foreach(i = 1:4, .combine = "rbind") %do% rep(2, 5)
[,1] [,2] [,3] [,4] [,5]
result.1 2 2 2 2 2
result.2 2 2 2 2 2
result.3 2 2 2 2 2
result.4 2 2 2 2 2
> foreach(i = 1:4, .combine = "+") %do% rep(2, 5)
[1] 8 8 8 8 8
> foreach(i = 1:4, .combine = "*") %do% rep(2, 5)
[1] 16 16 16 16 16
=============================================
iterators package的使用
iterators是为了给foreach提供循环变量，每次定义一个iterator，它都内定了“循环次数”和“每次循环返回的值”，因此非常适合结合foreach的使用。
iter(obj, ...)：可以接受iter, vector, matrix, data.frame, function。
nextElem(obj, ...)：接受iter对象，显示对象数值。
以matrix为例，
iter(obj, by=c('column', 'cell', 'row'), chunksize=1L, checkFunc=function(...) TRUE, recycle=FALSE, ...)
by：按照什么顺序循环；matrix和data.frame都默认是“row”，“cell”是按列依次输出（所以对于“cell”，chunksize只能指定为默认值，即1）
chunksize：每次执行函数nextElem后，按照by的设定返回结果的长度。如果返回结构不够，将取剩余的全部。
checkFunc=function(...) TRUE：执行函数checkFun，如果返回TRUE，则返回；否则，跳过。
recycle：设定在nextElem循环到底（“错误: StopIteration”）是否要循环处理，即从头再来一遍。
以function为例
iter(function()rnorm(1))，使用nextElem可以无限重复；但是iter(rnorm(1))，只能来一下。
更有意思的是对象如果是iter，即test1 <- iter(obj); test2 <- iter(test1)，那么这两个对象是连在一起的，同时变化。
==============================================
> a
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 13 17
[2,] 2 6 10 14 18
[3,] 3 7 11 15 19
[4,] 4 8 12 16 20
> i2 <- iter(a, by = "row", chunksize=3)
> nextElem(i2)
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 13 17
[2,] 2 6 10 14 18
[3,] 3 7 11 15 19
> nextElem(i2) #第二次iterate之后，只剩下1行，全部返回
[,1] [,2] [,3] [,4] [,5]
[1,] 4 8 12 16 20
> i2 <- iter(a, by = "column", checkFunc=function(x) sum(x) > 50)
> nextElem(i2)
[,1]
[1,] 13
[2,] 14
[3,] 15
[4,] 16
> nextElem(i2)
[,1]
[1,] 17
[2,] 18
[3,] 19
[4,] 20
> nextElem(i2)
错误: StopIteration
> colSums(a)
[1] 10 26 42 58 74
> testFun <- function(x){return(x+2)}
> i2 <- iter(function()testFun(1))
> nextElem(i2)
[1] 3
> nextElem(i2)
[1] 3
> nextElem(i2)
[1] 3
> i2 <- iter(testFun(1))
> nextElem(i2)
[1] 3
> nextElem(i2)
错误: StopIteration
> i2 <- iter(testFun(1))
> i3 <- iter(i2)
> nextElem(i3)
[1] 3
> nextElem(i2)
错误: StopIteration
============================================
iterators package中包括
irnorm(..., count)；irunif(..., count)；irbinom(..., count)；irnbinom(..., count)；irpois(..., count)中内部生成iterator的工具，分别表示从normal，uniform，binomial，negativity binomial和Poisson分布中随机选取N个元素，进行count次。其中，negative binomial分布：其概率积累函数(probability mass function)为掷骰子，每次骰子为3点的概率为p，在第r+k次恰好出现r次的概率。
icount(count)可以生成1:conunt的iterator；如果count不指定，将从无休止生成1:Inf
icountn(vn)比较好玩，vn是指一个数值向量（如果是小数，则向后一个数取整，比如2.3 --> 3）。循环次数为prod(vn)，每次返回的向量中每个元素都从1开始，不超过设定 vn，变化速率从左向右依次递增。
idiv(n, ..., chunks, chunkSize)返回截取从1:n的片段长度，“chunks”和“chunkSize”不能同时指定，“chunks”为分多少片段（长度从大到小），“chunkSize”为分段的最大长度（长度由大到小）
iapply(X, MARGIN)：与apply很像，MARGIN中1是row，2是column
isplit(x, f, drop=FALSE, ...)：按照指定的f划分矩阵
=============================================
> i2 <- icountn(c(3.4, 1.2))
> nextElem(i2)
[1] 1 1
> nextElem(i2)
[1] 2 1
> nextElem(i2)
[1] 3 1
> nextElem(i2)
[1] 4 1
> nextElem(i2)
[1] 1 2
> nextElem(i2)
[1] 2 2
> nextElem(i2)
[1] 3 2
> nextElem(i2)
[1] 4 2
> nextElem(i2)
错误: StopIteration

Ⅳ 如何使用python和R高效而优雅地处理大数据

1、保证复代码的高效性，尽量保证制数据处理都是线性的，不要出现两层嵌套以上较大的循环结构。在这方面可以考虑，如果数据量在千万级以下，可以考虑用空间换时间。

2、与大数据配套的是高效的计算框架，Hadoop或Spark，这些都支持python语言做开发，这些平台是大数据处理的利器。当然写代码的时候，肯定要保证第一条，代码的高效。

Ⅳ 如何使用python和R高效而优雅地处理大数据

1、从分类上，两种语言各有优势：
（1）python的优势不在于运行效率，而在于开发效率和高可维护性。在数据的载入和分发，python是很高效的；如果是求一些常用的统计量和求一些基本算法的结果，python也有现成的高效的库；如果是纯粹自己写的算法，没有任何其他可借鉴的，什么库也用不上，用纯python写是自讨苦吃。

（2）R 主要是统计学家为解决数据分析领域问题而开发的语言，R 语言的优势则是在于：
统计学家和几乎覆盖整个统计领域的前沿算法（3700+ 扩展包）；开放的源代码（free, in both senses），可以部署在任何操作系统，比如 Windows, Linux, Mac OS X, BSD, Unix强大的社区支持；高质量、广泛的统计分析、数据挖掘平台；重复性的分析工作（Sweave = R + LATEX），借助 R 语言的强大的分析能力 + LaTeX 完美的排版能力，可以自动生成分析报告；方便的扩展性，包括可通过相应接口连接数据库，如 Oracle、DB2、MySQL、同 Python、Java、C、C++ 等语言进行互调，提供 API 接口均可以调用，比如 Google、Twitter、Weibo，其他统计软件大部分均可调用 R，比如 SAS、SPSS、Statistica等，甚至一些比较直接的商业应用，比如 Oracle R Enterprise, IBM Netezza, R add-on for Teradata, SAP HANA, Sybase RAP。

2、关于如何优雅地处理，则是一项艺术家的工作，如果有看过TED演讲的话，可以看到很多可视化的数据分析结果，这些都是非常cool的。

3、综上所述，首先，要针对特定的问题分清楚问题的核心，和研究的方法；然后，挑选合适的工具，进行分析；最后，则是通过艺术家般的想象力，通过数据可视化表达清楚。

Ⅵ 如何使用python和R高效而优雅地处理大数据

最重要的是你老师的数据集究竟有多大，以及你的电脑的配置。

8g左右或以下的，用个配置稍好电脑友轮python,r都带得动。
数据量再往上走，就该考虑设计一下算法，主动管理内存，甚至动用硬盘管理数据(比如把中间数据好粗信存到硬盘上凳举，下次使用再加载到内存）。
数据量上tb了，就可以考虑集群了。

考虑到你的老师在用SAS，那我猜测数据量是单机可以搞定的。因此python也是能解决问题的，但是你需要主动设计一下算法并主动管理内存空间。

Ⅶ 如何让Hadoop结合R语言做统计和大数据分析

R是GNU的一个开源工具，具有S语言血统，擅长统计计算和统计制图。广大R语言爱好者借助强大工具RHadoop，可以在大数据领域大展拳脚，这对R语言程序员来说无疑是个喜讯。
RHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上
面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapRece, HDFS,
HBase 三个部分。

2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。

3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。

4）.Hadoop调用R

上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。

5. R和Hadoop在实际中的案例

1.R和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备软件开发，算法，概率统计，线性代数，数据可视化，行业背景的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言
MapRece化，软件开发，测试等等。所以，这样的案例并不太多。
RHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapRece, HDFS, HBase 三个部分。

2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。

3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。

4）.Hadoop调用R

上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。

5. R和Hadoop在实际中的案例
R和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备
软件开发，算法，概率统计，线性代数，数据可视化，行业背景
的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言
MapRece化，软件开发，测试等等。

Ⅷ R，Python，Scala 和 Java，到底该使用哪一种大数据编程语言

哪一种都行，Python适用于脚本，网络和爬虫，Java适用网络，商业和游戏，r适用于脚本和网络

Ⅸ 如何让Hadoop结合R语言做大数据分析

R语言和Hadoop让我们体会到了，两种技术在各自领域的强大。很多开发人员在计算机的角度，都会提出下面2个问题。问题1: Hadoop的家族如此之强大，为什么还要结合R语言？x0dx0a问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？下面我尝试着做一个解答：问题1: Hadoop的家族如此之强大，为什么还要结合R语言？x0dx0ax0dx0aa. Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。x0dx0ab. R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。x0dx0ac. 从a和b两点，我们可以看出，hadoop重点是全量数据分析，而R语言重点是样本数据分析。两种技术放在一起，刚好是最长补短！x0dx0ad. 模拟场景：对1PB的新闻网站访问日志做分析，预测未来流量变化x0dx0ad1:用R语言，通过分析少量数据，对业务目标建回归建模，并定义指标d2:用Hadoop从海量日志数据中，提取指标数据d3:用R语言模型，对指标数据进行测试和调优d4:用Hadoop分步式算法，重写R语言的模型，部署上线这个场景中，R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路，所有有事情都用Hadoop去做，没有数据建模和证明，”预测的结果”一定是有问题的。以统计人员的思路，所有的事情都用R去做，以抽样方式，得到的“预测的结果”也一定是有问题的。所以让二者结合，是产界业的必然的导向，也是产界业和学术界的交集，同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？x0dx0ax0dx0aa. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架，Mahout的重点同样是解决大数据的计算的问题。x0dx0ab. Mahout目前已支持的算法包括，协同过滤，推荐算法，聚类算法，分类算法，LDA, 朴素bayes，随机森林。上面的算法中，大部分都是距离的算法，可以通过矩阵分解后，充分利用MapRece的并行计算框架，高效地完成计算任务。x0dx0ac. Mahout的空白点，还有很多的数据挖掘算法，很难实现MapRece并行化。Mahout的现有模型，都是通用模型，直接用到的项目中，计算结果只会比随机结果好一点点。Mahout二次开发，要求有深厚的JAVA和Hadoop的技术基础，最好兼有 “线性代数”，“概率统计”，“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。x0dx0ad. R语言同样提供了Mahout支持的约大多数算法(除专有算法)，并且还支持大量的Mahout不支持的算法，算法的增长速度比mahout快N倍。并且开发简单，参数配置灵活，对小型数据集运算速度非常快。x0dx0a虽然，Mahout同样可以做数据挖掘和机器学习，但是和R语言的擅长领域并不重合。集百家之长，在适合的领域选择合适的技术，才能真正地“保质保量”做软件。x0dx0ax0dx0a如何让Hadoop结合R语言？x0dx0ax0dx0a从上一节我们看到，Hadoop和R语言是可以互补的，但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求，自然会有商家填补这个空白。x0dx0ax0dx0a1）. RHadoopx0dx0ax0dx0aRHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapRece, HDFS, HBase 三个部分。x0dx0ax0dx0a2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。x0dx0ax0dx0a3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。x0dx0ax0dx0a4）.Hadoop调用Rx0dx0ax0dx0a上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。x0dx0ax0dx0a5. R和Hadoop在实际中的案例x0dx0ax0dx0aR和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备软件开发，算法，概率统计，线性代数，数据可视化，行业背景的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言MapRece化，软件开发，测试等等。所以，这样的案例并不太多。

Ⅹ 怎么学习用 R 语言进行数据挖掘

数据挖掘的理论基础和R也没什么太大关系。如果明白方法了，用什么语言其实无所谓。不过R有几个包，可以提升效率和弥补R自身的不足，做大数据很有用。我就说说我每天要用的吧。

bigmemory：R的内存管理太烂了，因为很少给程序员管理的权限，这样一来操作系统懒加上R也懒导致常常读入大数据时内存瞬间用完，导致这个R session被强制退出。解决办法就是把常用的大数据提前放在共享内存里。

Rmpi，snow，multicore: 平行运算/多运程运算。 Rmpi最好多看看，是mpi在R里面的实现。这是平行运算的黄金标准。如果你要做大数据的模型，高能运算是必须的。

Rcpp：R与C++的接口。自带的.C和.F也很有用。毕竟R是高等语言，太慢了，基本的方程还是要用低等语言写。如果做统计模型，会有很多inference，这时必须要用低等语言写Log likelihood的方程。

DEoptim，quadqrog，linprog等等线性非线性优化：优化是统计少不了的技术。R里面好的优化包不是太慢就是太烂，你可以用GNU scientific library自己写优化器，或者买一个第三方的比如说IBM。不过很贵哦，

ggplot：不多说了，就是美丽的图片。。。

不是R的：hadoop。近几年，这都是处理大数据的必需品了。

有了以上工具我相信任何数据和统计问题都能解决了，不会被R自身的缺陷而陷入技术瓶颈。
-

导航:首页 > 网络数据 > r和大数据

r和大数据

与r和大数据相关的资料

友情链接