用r语言做大数据分析_如何让Hadoop结合R语言做大数据分析

① 如何让Hadoop结合R语言做统计和大数据分析

1).RHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapRece, HDFS, HBase 三个部分。
2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。
3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。
4）.Hadoop调用R
上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。

② 如何让Hadoop结合R语言做大数据分析

R语言和Hadoop让我们体会到了，两种技术在各自领域的强大。很多开发人员在计算机的角度，都会提出下面2个问题。问题1: Hadoop的家族如此之强大，为什么还要结合R语言？x0dx0a问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？下面我尝试着做一个解答：问题1: Hadoop的家族如此之强大，为什么还要结合R语言？x0dx0ax0dx0aa. Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。x0dx0ab. R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。x0dx0ac. 从a和b两点，我们可以看出，hadoop重点是全量数据分析，而R语言重点是样本数据分析。两种技术放在一起，刚好是最长补短！x0dx0ad. 模拟场景：对1PB的新闻网站访问日志做分析，预测未来流量变化x0dx0ad1:用R语言，通过分析少量数据，对业务目标建回归建模，并定义指标d2:用Hadoop从海量日志数据中，提取指标数据d3:用R语言模型，对指标数据进行测试和调优d4:用Hadoop分步式算法，重写R语言的模型，部署上线这个场景中，R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路，所有有事情都用Hadoop去做，没有数据建模和证明，”预测的结果”一定是有问题的。以统计人员的思路，所有的事情都用R去做，以抽样方式，得到的“预测的结果”也一定是有问题的。所以让二者结合，是产界业的必然的导向，也是产界业和学术界的交集，同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？x0dx0ax0dx0aa. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架，Mahout的重点同样是解决大数据的计算的问题。x0dx0ab. Mahout目前已支持的算法包括，协同过滤，推荐算法，聚类算法，分类算法，LDA, 朴素bayes，随机森林。上面的算法中，大部分都是距离的算法，可以通过矩阵分解后，充分利用MapRece的并行计算框架，高效地完成计算任务。x0dx0ac. Mahout的空白点，还有很多的数据挖掘算法，很难实现MapRece并行化。Mahout的现有模型，都是通用模型，直接用到的项目中，计算结果只会比随机结果好一点点。Mahout二次开发，要求有深厚的JAVA和Hadoop的技术基础，最好兼有 “线性代数”，“概率统计”，“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。x0dx0ad. R语言同样提供了Mahout支持的约大多数算法(除专有算法)，并且还支持大量的Mahout不支持的算法，算法的增长速度比mahout快N倍。并且开发简单，参数配置灵活，对小型数据集运算速度非常快。x0dx0a虽然，Mahout同样可以做数据挖掘和机器学习，但是和R语言的擅长领域并不重合。集百家之长，在适合的领域选择合适的技术，才能真正地“保质保量”做软件。x0dx0ax0dx0a如何让Hadoop结合R语言？x0dx0ax0dx0a从上一节我们看到，Hadoop和R语言是可以互补的，但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求，自然会有商家填补这个空白。x0dx0ax0dx0a1）. RHadoopx0dx0ax0dx0aRHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapRece, HDFS, HBase 三个部分。x0dx0ax0dx0a2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。x0dx0ax0dx0a3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。x0dx0ax0dx0a4）.Hadoop调用Rx0dx0ax0dx0a上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。x0dx0ax0dx0a5. R和Hadoop在实际中的案例x0dx0ax0dx0aR和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备软件开发，算法，概率统计，线性代数，数据可视化，行业背景的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言MapRece化，软件开发，测试等等。所以，这样的案例并不太多。

③ 做数据分析必须学R语言的4个理由

做数据分析必须学R语言的4个理由

R 是一种灵活的编程语言，专为促进探索性数据分析、经典统计学测试和高级图形学而设计。R 拥有丰富的、仍在不断扩大的数据包库，处于统计学、数据分析和数据挖掘发展的前沿。R 已证明自己是不断成长的大数据领域的一个有用工具，并且已集成到多个商用包中，比如 IBM SPSS? 和 InfoSphere?，以及 Mathematica。
本文提供了一位统计学家Catherine Dalzell对 R 的价值的看法。
为什么选择 R?
R可以执行统计。您可以将它视为 SAS Analytics 等分析系统的竞争对手，更不用提 StatSoft STATISTICA 或 Minitab 等更简单的包。政府、企业和制药行业中许多专业统计学家和方法学家都将其全部职业生涯都投入到了 IBM SPSS 或 SAS 中，但却没有编写过一行 R 代码。所以从某种程度上讲，学习和使用 R 的决定事关企业文化和您希望如何工作。我在统计咨询实践中使用了多种工具，但我的大部分工作都是在 R 中完成的。以下这些示例给出了我使用 R 的原因：
R 是一种强大的脚本语言。我最近被要求分析一个范围研究的结果。研究人员检查了 1,600 篇研究论文，并依据多个条件对它们的内容进行编码，事实上，这些条件是大量具有多个选项和分叉的条件。它们的数据(曾经扁平化到一个 Microsoft? Excel? 电子表格上)包含 8,000 多列，其中大部分都是空的。研究人员希望统计不同类别和标题下的总数。R 是一种强大的脚本语言，能够访问类似 Perl 的正则表达式来处理文本。凌乱的数据需要一种编程语言资源，而且尽管 SAS 和 SPSS 提供了脚本语言来执行下拉菜单意外的任务，但 R 是作为一种编程语言编写的，所以是一种更适合该用途的工具。
R 走在时代的前沿。统计学中的许多新发展最初都是以 R 包的形式出现的，然后才被引入到商业平台中。我最近获得了一项对患者回忆的医疗研究的数据。对于每位患者，我们拥有医生建议的治疗项目数量，以及患者实际记住的项目数量。自然模型是贝塔—二项分布。这从上世纪 50 年代就已知道，但将该模型与感兴趣的变量相关联的估算过程是最近才出现的。像这样的数据通常由广义估计方程式 (general estimating equations, GEE) 处理，但 GEE 方法是渐进的，而且假设抽样范围很广。我想要一种具有贝塔—二项 R 的广义线性模型。一个最新的 R 包估算了这一模型：Ben Bolker 编写的 betabinom。而 SPSS 没有。
集成文档发布。 R 完美地集成了 LaTeX 文档发布系统，这意味着来自 R 的统计输出和图形可嵌入到可供发布的文档中。这不是所有人都用得上，但如果您希望便携异步关于数据分析的书籍，或者只是不希望将结果复制到文字处理文档，最短且最优雅的路径就是通过 R 和 LaTeX。
没有成本。作为一个小型企业的所有者，我很喜欢 R 的免费特定。即使对于更大的企业，知道您能够临时调入某个人并立即让他们坐在工作站旁使用一流的分析软件，也很不错。无需担忧预算。
R 是什么，它有何用途?
作为一种编程语言，R 与许多其他语言都很类似。任何编写过代码的人都会在 R 中找到很多熟悉的东西。R 的特殊性在于它支持的统计哲学。
一种统计学革命：S 和探索性数据分析
140 字符的解释：R 是 S 的一种开源实现，是一种用于数据分析和图形的编程环境。
计算机总是擅长计算 — 在您编写并调试了一个程序来执行您想要的算法后。但在上世纪 60 和 70 年代，计算机并不擅长信息的显示，尤其是图形。这些技术限制在结合统计理论中的趋势，意味着统计实践和统计学家的培训专注于模型构建和假设测试。一个人假定这样一个世界，研究人员在其中设定假设(常常是农业方面的)，构建精心设计的实验(在一个农业站)，填入模型，然后运行测试。一个基于电子表格、菜单驱动的程序(比如 SPSS 反映了这一方法)。事实上，SPSS 和 SAS Analytics 的第一个版本包含一些子例程，这些子例程可从一个(Fortran 或其他)程序调用来填入和测试一个模型工具箱中的一个模型。
在这个规范化和渗透理论的框架中，John Tukey 放入了探索性数据分析 (EDA) 的概念，这就像一个鹅卵石击中了玻璃屋顶。如今，很难想像没有使用箱线图(box plot) 来检查偏度和异常值就开始分析一个数据集的情形，或者没有针对一个分位点图检查某个线性模型残差的常态的情形。这些想法由 Tukey 提出，现在任何介绍性的统计课程都会介绍它们。但并不总是如此。
与其说 EDA 是一种理论，不如说它是一种方法。该方法离不开以下经验规则：
只要有可能，就应使用图形来识别感兴趣的功能。
分析是递增的。尝试以下这种模型;根据结果来填充另一个模型。
使用图形检查模型假设。标记存在异常值。
使用健全的方法来防止违背分布假设。
Tukey 的方法引发了一个新的图形方法和稳健估计的发展浪潮。它还启发了一个更适合探索性方法的新软件框架的开发。
S 语言是在贝尔实验室由 John Chambers 和同事开发的，被用作一个统计分析平台，尤其是 Tukey 排序。第一个版本(供贝尔实验室内部使用)于 1976 年开发，但直到 1988 年，它才形成了类似其当前形式的版本。在这时，该语言也可供贝尔实验室外部的用户使用。该语言的每个方面都符合数据分析的 “新模型”：
S 是一种在编程环境操作的解释语言。S 语法与 C 的语法很相似，但省去了困难的部分。S 负责执行内存管理和变量声明，举例而言，这样用户就无需编写或调试这些方面了。更低的编程开销使得用户可以在同一个数据集上快速执行大量分析。
从一开始，S 就考虑到了高级图形的创建，您可向任何打开的图形窗口添加功能。您可很容易地突出兴趣点，查询它们的值，使散点图变得更平滑，等等。
面向对象性是 1992 年添加到 S 中的。在一个编程语言中，对象构造数据和函数来满足用户的直觉。人类的思维始终是面向对象的，统计推理尤其如此。统计学家处理频率表、时间序列、矩阵、具有各种数据类型的电子表格、模型，等等。在每种情况下，原始数据都拥有属性和期望值：举例而言，一个时间序列包含观察值和时间点。而且对于每种数据类型，都应得到标准统计数据和平面图。对于时间序列，我可能绘制一个时间序列平面图和一个相关图;对于拟合模型，我可能绘制拟合值和残差。S 支持为所有这些概念创建对象，您可以根据需要创建更多的对象类。对象使得从问题的概念化到其代码的实现变得非常简单。
一种具有态度的语言：S、S-Plus 和假设测试
最初的 S 语言非常重视 Tukey 的 EDA，已达到只能在 S 中执行 EDA 而不能执行其他任何操作的程度。这是一种具有态度的语言。举例而言，尽管 S 带来了一些有用的内部功能，但它缺乏您希望统计软件拥有的一些最明显的功能。没有函数来执行双抽样测试或任何类型的真实假设测试。但 Tukey 认为，假设测试有时正合适。
1988 年，位于西雅图的 Statistical Science 获得 S 的授权，并将该语言的一个增强版本(称为 S-Plus)移植到 DOS 以及以后的 Windows? 中。实际认识到客户想要什么后，Statistical Science 向 S-Plus 添加了经典统计学功能。添加执行方差分析 (ANOVA)、测试和其他模型的功能。对 S 的面向对象性而言，任何这类拟合模型的结果本身都是一个 S 对象。合适的函数调用都会提供假设测试的拟合值、残差和 p-值。模型对象甚至可以包含分析的中间计算步骤，比如一个设计矩阵的 QR 分解(其中 Q 是对角线，R 是右上角)。
有一个 R 包来完成该任务!还有一个开源社区
大约在与发布 S-Plus 相同的时间，新西兰奥克兰大学的 Ross Ihaka 和 Robert Gentleman 决定尝试编写一个解释器。他们选择了 S 语言作为其模型。该项目逐渐成形并获得了支持。它们将其命名为 R。
R 是 S 的一种实现，包含 S-Plus 开发的更多模型。有时候，发挥作用的是同一些人。R 是 GNU 许可下的一个开源项目。在此基础上，R 不断发展，主要通过添加包。R 包是一个包含数据集、R 函数、文档和 C 或 Fortran 动态加载项的集合，可以一起安装并从 R 会话访问。R 包向 R 添加新功能，通过这些包，研究人员可在同行之间轻松地共享计算方法。一些包的范围有限，另一些包代表着整个统计学领域，还有一些包含最新的技术发展。事实上，统计学中的许多发展最初都是以 R 包形式出现的，然后才应用到商用软件中。
在撰写本文时，R 下载站点 CRAN 上已有 4,701 个 R 包。其中，单单那一天就添加了 6 个 R 。万事万物都有一个对应的 R 包，至少看起来是这样。
我在使用 R 时会发生什么?
备注：本文不是一部 R 教程。下面的示例仅试图让您了解 R 会话看起来是什么样的。
R 二进制文件可用于 Windows、Mac OS X 和多个 Linux? 发行版。源代码也可供人们自行编译。
在 Windows? 中，安装程序将 R 添加到开始菜单中。要在 Linux 中启动 R，可打开一个终端窗口并在提示符下键入 R。您应看到类似图 1 的画面。

图 1. R 工作区
在提示符下键入一个命令，R 就会响应。
此时，在真实的环境中，您可能会从一个外部数据文件将数据读入 R 对象中。R 可从各种不同格式的文件读取数据，但对于本示例，我使用的是来自 MASS 包的 michelson 数据。这个包附带了 Venables and Ripley 的标志性文本 Modern Applied Statistics with S-Plus(参见参考资料)。michelson 包含来自测量光速的流行的 Michelson and Morley 实验的结果。
清单 1 中提供的命令可以加载 MASS 包，获取并查看 michelson 数据。图 2 显示了这些命令和来自 R 的响应。每一行包含一个 R 函数，它的参数放在方括号 ([]) 内。
清单 1. 启动一个 R 会话
2+2 # R can be a calculator. R responds, correctly, with 4.
library(“MASS”) # Loads into memory the functions and data sets from
# package MASS, that accompanies Modern Applied Statistics in S
data(michelson) # Copies the michelson data set into the workspace.
ls() # Lists the contents of the workspace. The michelson data is there.
head(michelson) # Displays the first few lines of this data set.
# Column Speed contains Michelson and Morleys estimates of the
# speed of light, less 299,000, in km/s.
# Michelson and Morley ran five experiments with 20 runs each.
# The data set contains indicator variables for experiment and run.
help(michelson) # Calls a help screen, which describes the data set.
图 2. 会话启动和 R 的响应

现在让我们看看该数据(参见清单 2)。输出如图 3 中所示。
清单 2. R 中的一个箱线图
# Basic boxplot
with(michelson, boxplot(Speed ~ Expt))
# I can add colour and labels. I can also save the results to an object.
michelson.bp = with(michelson, boxplot(Speed ~ Expt, xlab=”Experiment”, las=1,
ylab=”Speed of Light – 299,000 m/s”,
main=”Michelson-Morley Experiments”,
col=”slateblue1″))
# The current estimate of the speed of light, on this scale, is 734.5
# Add a horizontal line to highlight this value.
abline(h=734.5, lwd=2,col=”purple”) #Add modern speed of light
Michelson and Morley 似乎有计划地高估了光速。各个实验之间似乎也存在一定的不均匀性。
图 3. 绘制一个箱线图

在对分析感到满意后，我可以将所有命令保存到一个 R 函数中。参见清单 3。
清单 3. R 中的一个简单函数
MyExample = function(){
library(MASS)
data(michelson)
michelson.bw = with(michelson, boxplot(Speed ~ Expt, xlab=”Experiment”, las=1,
ylab=”Speed of Light – 299,000 m/s”, main=”Michelsen-Morley Experiments”,
col=”slateblue1″))
abline(h=734.5, lwd=2,col=”purple”)
}
这个简单示例演示了 R 的多个重要功能：
保存结果—boxplot() 函数返回一些有用的统计数据和一个图表，您可以通过类似 michelson.bp = … 的负值语句将这些结果保存到一个 R 对象中，并在需要时提取它们。任何赋值语句的结果都可在 R 会话的整个过程中获得，并且可以作为进一步分析的主题。boxplot 函数返回一个用于绘制箱线图的统计数据(中位数、四分位等)矩阵、每个箱线图中的项数，以及异常值(在图 3 中的图表上显示为开口圆)。请参见图 4。
图 4. 来自 boxplot 函数的统计数据

公式语言— R(和 S)有一种紧凑的语言来表达统计模型。参数中的代码 Speed ~ Expt 告诉函数在每个 Expt (实验数字)级别上绘制 Speed 的箱线图。如果希望执行方差分析来测试各次实验中的速度是否存在显著差异，那么可以使用相同的公式：lm(Speed ~ Expt)。公式语言可表达丰富多样的统计模型，包括交叉和嵌套效应，以及固定和随机因素。
用户定义的 R 函数— 这是一种编程语言。
R 已进入 21 世纪
Tukey 的探索性数据分析方法已成为常规课程。我们在教授这种方法，而统计学家也在使用该方法。R 支持这种方法，这解释了它为什么仍然如此流行的原因。面向对象性还帮助 R 保持最新，因为新的数据来源需要新的数据结构来执行分析。InfoSphere? Streams 现在支持对与 John Chambers 所设想的不同的数据执行 R 分析。
R 与 InfoSphere Streams
InfoSphere Streams 是一个计算平台和集成开发环境，用于分析从数千个来源获得的高速数据。这些数据流的内容通常是非结构化或半结构化的。分析的目的是检测数据中不断变化的模式，基于快速变化的事件来指导决策。SPL(用于 InfoSphere Streams 的编程语言)通过一种范例来组织数据，反映了数据的动态性以及对快速分析和响应的需求。
我们已经距离用于经典统计分析的电子表格和常规平面文件很远，但 R 能够应付自如。从 3.1 版开始，SPL 应用程序可将数据传递给 R，从而利用 R 庞大的包库。InfoSphere Streams 对 R 的支持方式是，创建合适的 R 对象来接收 SPL 元组(SPL 中的基本数据结构)中包含的信息。InfoSphere Streams 数据因此可传递给 R 供进一步分析，并将结果传回到 SPL。
R 需要主流硬件吗?
我在一台运行 Crunchbang Linux 的宏碁上网本上运行了这个示例。R 不需要笨重的机器来执行中小规模的分析。20 年来，人们一直认为 R 之所以缓慢是因为它是一种解释性语言，而且它可以分析的数据大小受计算机内存的限制。这是真的，但这通常与现代机器毫无干系，除非应用程序非常大(大数据)。
R 的不足之处
公平地讲，R 也有一些事做不好或完全不会做。不是每个用户都适合使用 R：
R 不是一个数据仓库。在 R 中输入数据的最简单方式是，将数据输入到其他地方，然后将它导入到 R 中。人们已经努力地为 R 添加了一个电子表格前端，但它们还没流行起来。电子表格功能的缺乏不仅会影响数据输入，还会让以直观的方式检查 R 中的数据变得很困难，就像在 SPSS 或 Excel 中一样。
R 使普通的任务变得很困难。举例而言，在医疗研究中，您对数据做的第一件事就是计算所有变量的概括统计量，列出无响应的地方和缺少的数据。这在 SPSS 中只需 3 次单击即可完成，但 R 没有内置的函数来计算这些非常明显的信息，并以表格形式显示它。您可以非常轻松地编写一些代码，但有时您只是想指向要计算的信息并单击鼠标。
R 的学习曲线是非平凡的。初学者可打开一个菜单驱动的统计平台并在几分钟内获取结果。不是每个人都希望成为程序员，然后再成为一名分析家，而且或许不是每个人都需要这么做。
R 是开源的。R 社区很大、非常成熟并且很活跃，R 无疑属于比较成功的开源项目。前面已经提到过，R 的实现已有超过 20 年历史，S 语言的存在时间更长。这是一个久经考验的概念和久经考验的产品。但对于任何开源产品，可靠性都离不开透明性。我们信任它的代码，因为我们可自行检查它，而且其他人可以检查它并报告错误。这与自行执行基准测试并验证其软件的企业项目不同。而且对于更少使用的 R 包，您没有理由假设它们会实际生成正确的结果。
结束语
我是否需要学习 R?或许不需要;需要是一个感情很强烈的词。但 R 是否是一个有价值的数据分析工具呢?当然是的。该语言专为反映统计学家的思考和工作方式而设计。R 巩固了良好的习惯和合理的分析。对我而言，它是适合我的工作的工具。

④ 如何让Hadoop结合R语言做大数据分析

R语言和MATLAB一样，用于数据分析处理的，在某些方面比较MATLAB更加强力，在计算矩阵方面PYTHON完全没可比性，R语言还可以和Hadoop结合运行在集群上，做大规模数据统计必备。

⑤ R语言可以处理大的数据吗

“参考网址1”中提到如果只是对整数运算（运算过程和结果都只使用整数），没有必要使用“double”(8 byte)，而应该用更小的“integer”(4 byte)。使用storage.mode(x)查看对象存数的模式，storage.mode(x) <- 进行赋值；使用format(object.size(a), units = 'auto')查看对象占用的内存空间（此处有疑问，即在R中每个integer到底占用了多大的空间？）。
需要解释gc()函数，可以查看内存使用情况。同样，在清除了大的对象之后，使用gc()以释放内存使用空间。
李航在”参考网址2“中提到，对于大矩阵的操作，尽量避免使用cbind和rbind之类，因为这会让内存不停地分配空间。“对于长度增加的矩阵，尽量先定义一个大矩阵，然后逐步增加”和“注意清除中间对象”。
使用bigmemory家族：bigmemory, biganalytics, synchronicity, bigtabulate and bigalgebra，同时还有
biglm。
bigmemory package的使用：
1. 建立big.memory对象
bigmemory采用C++的数据格式来“模仿”R中的matrix。
编写大数据格式文件时候，可以先建立filebacked.big.matrix
big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared = TRUE)
filebacked.big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL)
as.big.matrix(x, type = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)
使用注意：
big.matrix采用两种方式储存数据：一种是big.matrix默认的方式，如果内存空间比较大，可以尝试使用；另外一种是filebacked.big.matrix，这种储存方法可能会备份文件（file-backings），而且需要descriptor file；
“init”指矩阵的初始化数值，如果设定，会事先将设定的数值填充到矩阵中；如果不设置，将处理为NA
"type"是指在big.matrix中atomic element的储存格式，默认是“double”(8 byte)，可以改为“integer”(4 byte), "short"(2 byte) or "char"(1 byte)。注意：这个包不支持字符串的储存，type = "char"是指ASCII码字母。
在big.matrix非常大的时候，避免使用rownames和colnames(并且bigmemory禁止用名称访问元素)，因为这种做法非常占用内存。如果一定要改变，使用options(bigmemory.allow.dimnames=TRUE)，之后colnames, rownames设置。
直接在命令提示符后输入x（x是一个big matrix），将返回x的描述，不会出现所有x中所有内容。因此，注意x[ , ](打印出矩阵全部内容)；
如果big.matrix有很多列，那么应该将其转置后储存；（不推荐）或者将参数“separated”设置为TRUE，这样就将每一列分开储存。否则，将用R的传统方式（column major的方式）储存数据。
如果建立一个filebacked.big.matrix，那么需要指定backingfile的名称和路径+descriptorfile。可能多个big.matrix对象对应唯一一个descriptorfile，即如果descriptorfile改变，所以对应的big.matrix随之改变；同样，decriptorfile随着big.matrix的改变而改变；如果想维持一种改变，需要重新建立一个filebacked.big.matrix。attach.big.matrix(descriptorfile or describe(big.matrix))函数用于将一个descriptorfile赋值给一个big.matrix。这个函数很好用，因为每次在创建一个filebacked.big.matrix后，保存R并退出后，先前创建的矩阵会消失，需要再attach.big.matrix以下
2. 对big.matrix的列的特定元素进行条件筛选
对内存没有限制；而且比传统的which更加灵活（赞！）
mwhich(x, cols, vals, comps, op = 'AND')
x既可以是big.matrix，也可以是传统的R对象；
cols：行数
vals：cutoff，可以设定两个比如c(1, 2)
comps：'eq'(==), 'neq'(!=), 'le'(<), 'lt'(<=), 'ge'(>) and 'gt'(>=)
op：“AND”或者是“OR”
可以直接比较NA，Inf和-Inf
3.bigmemory中其他函数
nrow, ncol, dim, dimnames, tail, head, typeof继承base包
big.matrix, is.big.matrix, as.big.matrix, attach.big.matrix, describe, read.big.matrix, write.big.matrix, sub.big.matrix, is.sub.big.matrix为特有的big.matrix文件操作；filebacked.big.matrix, is.filebacked（判断big.matrix是否硬盘备份） , flush(将filebacked的文件刷新到硬盘备份上)是filebacked的big.matrix的操作。
mwhich增强base包中的which， morder增强order，mpermute（对matrix中的一列按照特定序列操作，但是会改变原来对象，这是为了避免内存溢出）
big.matrix对象的使用deep(x, cols = NULL, rows = NULL, y = NULL, type = NULL, separated = NULL, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)
biganalytics package的使用
biganalytics主要是一些base基本函数的扩展，主要有max, min, prod, sum, range, colmin, colmax, colsum, colprod, colmean, colsd, colvar, summary, apply（只能用于行或者列，不能用行列同时用）等
比较有特色的是bigkmeans的聚类
剩下的biglm.big.matrix和bigglm.big.matrix可以参考Lumley's biglm package。
bigtabulate package的使用
并行计算限制的突破：

使用doMC家族：doMC, doSNOW, doMPI, doRedis, doSMP和foreach packages.
foreach package的使用
foreach(..., .combine, .init, .final=NULL, .inorder=TRUE, .multicombine=FALSE, .maxcombine=if (.multicombine) 100 else 2, .errorhandling=c('stop', 'remove', 'pass'), .packages=NULL, .export=NULL, .noexport=NULL, .verbose=FALSE)
foreach的特点是可以进行并行运算，如在NetWorkSpace和snow？
%do%严格按照顺序执行任务（所以，也就非并行计算），%dopar%并行执行任务
...：指定循环的次数；
.combine：运算之后结果的显示方式，default是list，“c”返回vector， cbind和rbind返回矩阵，"+"和"*"可以返回rbind之后的“+”或者“*”
.init：.combine函数的第一个变量
.final：返回最后结果
.inorder：TRUE则返回和原始输入相同顺序的结果（对结果的顺序要求严格的时候），FALSE返回没有顺序的结果（可以提高运算效率）。这个参数适合于设定对结果顺序没有需求的情况。
.muticombine：设定.combine函数的传递参数，default是FALSE表示其参数是2，TRUE可以设定多个参数
.maxcombine：设定.combine的最大参数
.errorhandling：如果循环中出现错误，对错误的处理方法
.packages：指定在%dopar%运算过程中依赖的package（%do%会忽略这个选项）。
getDoParWorkers( ) ：查看注册了多少个核，配合doMC package中的registerDoMC( )使用
getDoParRegistered( ) ：查看doPar是否注册；如果没有注册返回FALSE
getDoParName( ) ：查看已经注册的doPar的名字
getDoParVersion( )：查看已经注册的doPar的version
===================================================
# foreach的循环次数可以指定多个变量，但是只用其中最少？的
> foreach(a = 1:10, b = rep(10, 3)) %do% (a*b)
[[1]]
[1] 10
[[2]]
[1] 20
[[3]]
[1] 30
# foreach中.combine的“+”或者“*”是cbind之后的操作；这也就是说"expression"返回一个向量，会对向量+或者*
> foreach(i = 1:4, .combine = "+") %do% 2
[1] 8
> foreach(i = 1:4, .combine = "rbind") %do% rep(2, 5)
[,1] [,2] [,3] [,4] [,5]
result.1 2 2 2 2 2
result.2 2 2 2 2 2
result.3 2 2 2 2 2
result.4 2 2 2 2 2
> foreach(i = 1:4, .combine = "+") %do% rep(2, 5)
[1] 8 8 8 8 8
> foreach(i = 1:4, .combine = "*") %do% rep(2, 5)
[1] 16 16 16 16 16
=============================================
iterators package的使用
iterators是为了给foreach提供循环变量，每次定义一个iterator，它都内定了“循环次数”和“每次循环返回的值”，因此非常适合结合foreach的使用。
iter(obj, ...)：可以接受iter, vector, matrix, data.frame, function。
nextElem(obj, ...)：接受iter对象，显示对象数值。
以matrix为例，
iter(obj, by=c('column', 'cell', 'row'), chunksize=1L, checkFunc=function(...) TRUE, recycle=FALSE, ...)
by：按照什么顺序循环；matrix和data.frame都默认是“row”，“cell”是按列依次输出（所以对于“cell”，chunksize只能指定为默认值，即1）
chunksize：每次执行函数nextElem后，按照by的设定返回结果的长度。如果返回结构不够，将取剩余的全部。
checkFunc=function(...) TRUE：执行函数checkFun，如果返回TRUE，则返回；否则，跳过。
recycle：设定在nextElem循环到底（“错误: StopIteration”）是否要循环处理，即从头再来一遍。
以function为例
iter(function()rnorm(1))，使用nextElem可以无限重复；但是iter(rnorm(1))，只能来一下。
更有意思的是对象如果是iter，即test1 <- iter(obj); test2 <- iter(test1)，那么这两个对象是连在一起的，同时变化。
==============================================
> a
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 13 17
[2,] 2 6 10 14 18
[3,] 3 7 11 15 19
[4,] 4 8 12 16 20
> i2 <- iter(a, by = "row", chunksize=3)
> nextElem(i2)
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 13 17
[2,] 2 6 10 14 18
[3,] 3 7 11 15 19
> nextElem(i2) #第二次iterate之后，只剩下1行，全部返回
[,1] [,2] [,3] [,4] [,5]
[1,] 4 8 12 16 20
> i2 <- iter(a, by = "column", checkFunc=function(x) sum(x) > 50)
> nextElem(i2)
[,1]
[1,] 13
[2,] 14
[3,] 15
[4,] 16
> nextElem(i2)
[,1]
[1,] 17
[2,] 18
[3,] 19
[4,] 20
> nextElem(i2)
错误: StopIteration
> colSums(a)
[1] 10 26 42 58 74
> testFun <- function(x){return(x+2)}
> i2 <- iter(function()testFun(1))
> nextElem(i2)
[1] 3
> nextElem(i2)
[1] 3
> nextElem(i2)
[1] 3
> i2 <- iter(testFun(1))
> nextElem(i2)
[1] 3
> nextElem(i2)
错误: StopIteration
> i2 <- iter(testFun(1))
> i3 <- iter(i2)
> nextElem(i3)
[1] 3
> nextElem(i2)
错误: StopIteration
============================================
iterators package中包括
irnorm(..., count)；irunif(..., count)；irbinom(..., count)；irnbinom(..., count)；irpois(..., count)中内部生成iterator的工具，分别表示从normal，uniform，binomial，negativity binomial和Poisson分布中随机选取N个元素，进行count次。其中，negative binomial分布：其概率积累函数(probability mass function)为掷骰子，每次骰子为3点的概率为p，在第r+k次恰好出现r次的概率。
icount(count)可以生成1:conunt的iterator；如果count不指定，将从无休止生成1:Inf
icountn(vn)比较好玩，vn是指一个数值向量（如果是小数，则向后一个数取整，比如2.3 --> 3）。循环次数为prod(vn)，每次返回的向量中每个元素都从1开始，不超过设定 vn，变化速率从左向右依次递增。
idiv(n, ..., chunks, chunkSize)返回截取从1:n的片段长度，“chunks”和“chunkSize”不能同时指定，“chunks”为分多少片段（长度从大到小），“chunkSize”为分段的最大长度（长度由大到小）
iapply(X, MARGIN)：与apply很像，MARGIN中1是row，2是column
isplit(x, f, drop=FALSE, ...)：按照指定的f划分矩阵
=============================================
> i2 <- icountn(c(3.4, 1.2))
> nextElem(i2)
[1] 1 1
> nextElem(i2)
[1] 2 1
> nextElem(i2)
[1] 3 1
> nextElem(i2)
[1] 4 1
> nextElem(i2)
[1] 1 2
> nextElem(i2)
[1] 2 2
> nextElem(i2)
[1] 3 2
> nextElem(i2)
[1] 4 2
> nextElem(i2)
错误: StopIteration

⑥ 求大数据分析大神用R语言解决Q2

library(amap)
x = read.csv("input.csv",header=T)
x=as.dist(x)
hc = hcluster(x,method = "euclidean", link="complete")
labels=hc$labels
height=hc$height
merge=hc$merge
png("hc.png",width = 10,height = 5,res = 300,units="in")
plot(hc)
dev.off()

导航:首页 > 网络数据 > 用r语言做大数据分析

用r语言做大数据分析

与用r语言做大数据分析相关的资料

友情链接