google大数据处理技术_为什么Google的BigQuery在大数据并发处理中脱颖而出

『壹』请问大数据的关键技术有哪些

1.分布式存储系统(HDFS)。2.MapRece分布式计算框架。3.YARN资源管理平台。4.Sqoop数据迁移工具。5.Mahout数据挖掘算法版库。权6.HBase分布式数据库。7.Zookeeper分布式协调服务。8.Hive基于Hadoop的数据仓库。9.Flume日志收集工具。

『贰』大数据处理对电子商务的影响有哪些

电子商务：通俗来说就是企业通过网络,把线下的业务移到线上去开展,完成商品或者服务的销售交易。
大数据：指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
近几年来，互联网产业高速发展，很多传统企业通过电子商务，开展网络营销，线上产生交易的数据量是线下无法比的，因而就产生了处理巨量资料，也就是大数据的急迫需求，解决不好，就成为电子商务发展的瓶颈。反之，大数据处理的成功发展，也促进了企业加速开展电子商务，为互联网产业的发展注入新动力。
一、大数据处理模式
在电子商务领域内，信息的大批量处理如果是以PB、EB、ZB为计量单位，则这些信息就构成了大数据。以往的计算机处理模式已经很难对这些大数据进行高效率的处理，势必会影响电子商务的总体发展。因此对大数据时代的计算机处理模式进行革新是获得电商行业整体突破的基本保证。传统的数据处理模式是数据库集群模式，大数据处理模式的基本要求是建构云计算Map Rece处理体系，使信息的分解处理和结果合并成为可能。
(一)数据库集群模式
集群模式的基本运行原理是将同一种应用程序通过不同的工作方法相互协调共同完成，在面对客户端的数据请求时，为其提供单一映像，并将这些映像通过一定的连接技术和方法与硬件系统进行连接，整体上建构一个松散耦合的集合。简单来说，数据库集群模式实现了数据库技术和集群技术的结合。数据库集群模式的运行较为平稳，具有多方面的技术优势，例如强大的靠扩展性、整体的可靠性等等。
但是在面对大数据处理时，数据库集群也表现出了一定的缺陷。这些缺陷主要包含以下方面：第一是可扩展性补不强。如果系统功能节点的硬件基础设施选择的是Pc服务器，那么将会出现系统线缆繁杂、硬件高度复杂化和架设安装难度大等问题，对其扩展性造成了一定的限制;第二是数据通信受限。目前运行高速互联网的必备条件是将 PCI插槽与主机进行连接。但是PCI的数据传送能力有限，不能满足节点间的数据通信要求;第三是提升空间小。这种空间主要是指数据库数据集的可扩展空间，在进行数据处理时如何解决系统的安全性、运算速度和可扩展性是数据库集群模式要面对的重要问题。此外，数据库集群模式还存在兼容性、可靠性、容错性、对异质条件支持能力等方面的局限性。
(二)Map Rece框架
云计算构架主要是由低端服务器进行大规模集群构成的数据处理技术，在数据存储容量和数据处理能力上具有绝对的优势。由于云计算平台在运行中的可靠性和可扩展性等功能，目前众多的大型企业或单位都将其作为web搜索和大数据分析的主要平台，如中国移动、淘宝、网易、网络等等。Map Rece框架主要包含三个方面的内容，即并行编程模型Map Rece、分布式文件系统(HDFs)、并行执行引擎。
Map Rece的设计是由google完成的，主要是进行大数据集的计算处理工作，代表了分析技术的整体发展状态。Map Rece在进行数据处理时，先将对象进行抽象化处理，使其以映射和化简操作对的形式呈现出来，其中映射部分进行数据的过滤，化简部分进行数据的聚集工作，在工作中均以良好的界面进行管理工作。对Map Rece计算过程进行分解，可以将其工作原理理解为将大数据集进行解构，解构之后的结果是形成了数量众多的小数据集，通过集群节点对这些小数据集进行分别处理，由此得出中间结果，将这些结果通过节点进行合并，就可以得出对整个大数据集的处理结果。
二、大数据时代电子商务IT技术设施的革新
IT基础设施是保证电子商务系统运行的前提，对其进行技术革新能够使其快速适应电子商务大数据时代。在后互联网技术时代，电子商务企业广泛采用的IT基础设施一般是PC服务器。随着数据信息处理规模的扩大和处理能力的要求不断增强，电子商务企业对于IT基础设施的革新正朝着小型化和集群化方向发展，与此同时，电商企业还需要不断地投入大量的人力和技术实现IT基础设施的维护、升级和更新。
(一)数据仓库的发展
从近期对电子商务信息处理数据的研究可以发现，在系统运行中出现的大数据仍在以惊人的速度发展和增长，其特点也表现为明显的分布式发展和异构性趋势。传统的数据库如具备一般数据处理功能和信息分析技术的数据库以及BI技术已经很大程度上不能满足PB级的数据量处理要求。这种大规模数据的发展促使电子商务数据仓库系统出现了非常明显的变革，也即是数据量数量级不断上调，目前已经实现了由TB向PB的迈进，并且仍呈现出爆炸性的增长态势。
根据对现今电商数据量发展状况及趋势的研究，可以发现电子商务数据仓库将会呈现以下特点：第一，未来两年电商数据仓库的最大数据量将会达到甚至超过 1OOPB，并且其增长速度也将呈现出前所未有的变化，远远超过摩尔定律;第二，对数据的分析方式实现质的变化，将从常规化分析向深度化分析转变;第三，中低端硬件组成的大规模集群硬件平台将会代替高端服务器构成的基础设施硬件支持平台，基础设施进一步向集群化发展;由于硬件系统的革新将会对并行数据库产生了重要影响，使其规模不断扩大，由此带来的成本也将逐渐增长。总体来讲，目前电子商务将会出现大规模革新的直接因素是数据量的大规模增长和深度分析的现实要求。
(二)云计算构架
云计算构架是一种针对分布式网络计算而设计的新型数据处理模式，在应用中已经表现出了良好的适应性。在网络环境中进行计算、存储、软件等在线服务时较传统构架有显著的性能提升。在目前应用于电子商务领域内的云计算构架来讲，其具备了以下特征：按需自助服务(on Demand self-service)、可度量服务(measured service)、池化资源(resource pooling)、泛化网络访问((broad network access)以及快速弹性(rapid elasticity)。
三、大数据处理对电子商务的影响
云计算的发展历史并不长，首次引入云计算技术的是淘宝网，其所有交易都是基于自建系统完成的，而阿里云也成为我国首家开展云计算供应的公司。云计算对于大数据的超强处理能力使其对电子商务的发展起到了推波助澜的作用，主要影响表现在以下方面。
(一)信息检索能力
电子商务平台虽然很大程度上改变了消费者的购物方式，但是就营销方式来说，商品数量和种类依然是影响消费者选择商家的主要因素。在电子商务领域内，商品数量和种类呈现出结构的繁杂化发展甚至是非结构化发展趋势。这些都为 IT基础设施以及信息处理技术提出了挑战，大数据处理技术由于其具备的灵活性和功能强大的检索服务使其能够引领电子商务信息处理技术的新方向。
云计算的检索服务可以根据客户的实际需求和交易习惯对大量的信息进行筛选和显示，其智能性和高效性也是传统IT基础设施多不能比拟的。此外，云平台还具有信息推荐功能，根据网上交易整体情况筛选热点商品予以展示，提高了交易的针对性和检索效率。云计算性能的优势还体现在对人类部分思维进行描述的功能上，解决了长期以来计算机信息处理不能够准确把握人类语言和知识应用的难题，使数据的处理实现了功能的深度发掘。这种技术优势表现在实际交易中就是电商平台能够对用户输入的语言进行迅速的反映，并能准确地提供用户所需耍的商品信息。这种处理过程极大地提高了信息服务的效率和质量，使用户满意度得到了很大的提升。
(二)弹性处理能力
电子商务信息处理系统的工作性质使其必须具有强大的弹性处理能力，并能够在极短的时间内做出反映以应对在系统运行中出现的各种问题。这些问题的出现并不是偶然的，而是随着用户的并发访问以及商家集体营销活动造成的大量订单信息所导致的，这些情况在当前的电商系统运行中是比较常见的，这就需要系统在面临突然增长的业务量时具有强大的扩容能力和数据的存储能力。
云计算技术的出现在理论上实现了信息的无上限存储能力以及超大规模信息处理能力，使其能够轻松地应对TB数量级的信息乃至PB数量级的信息处理。而这一功能的实施并不需要企业对硬件系统进行更换，而且能够以比较低的成本享用云计算存储处理信息服务，在此基础上对应用系统机型全方位的布局并保证了弹性处理能力的实现，使资源达到了最优化配置。
(三)信息处理安全性能
网络系统面临的最大难题是信息安全问题，保证交易安全和用户信息安全更是电商企业应时刻关注的话题。信息时代的一大特征是将信息转化为可利用的资源，甚至是直接创造经济价值的信息资本。电子商务领域内，大数据就是企业生存发展的重要资本，对于大数据的掌控能力将成为衡量企业核心竞争力的主要标志。但是大数据的出现同样给信息资源的安全带来了极大的挑战，由于其结构复杂，数量巨多，并且大多是具有敏感性的信息，很容易成为网络攻击的目标。
大数据处理技术在应对信息安全是进行了性能的全面评估，使其能够及时、精确地定位各类网络攻击或非正常现象，并将这些异常数据收集整理通过分析实施预防措施。云计算技术的安全性还体现在将安全可靠的信息转化为云服务，并将这些信息托管在云端，为用户的信息提供了专业化的信息防护措施和保密方案。
四、大数据处理的发展趋势
信息技术的发展历史并不长远，但是在每个发展阶段都会出现具有标志性的技术类型和产品。在目前，信息技术的热点以及将会对信息产业产生重大影响的无疑是云计算技术和大数据处理f司题。在电子商务环境中大数据处理将会发展出更多强大和多元的功能，具体发展趋势有以下几点。
(一)大数据处理服务和产品的多样化
目前电子商务平台的服务和产品正在向着多元化的方向发展，除了电商企业之外，政府机构、大型集团企业、行政事业单位等都加入或正在加入构建云环境下的数据处理服务平台，并且可以实现对没有充足IT能力的小型电子商务企业进行服务和产品的输出。
(二)新型的电子商务运营模式
云计算的出现不仅对IT技术设施进行了大规模和深度的革新，同时其带来的众多产品如长尾效应、经济效应、众包、个性化服务等对于经济学概念的再认知也产生了重大的影响。这些变革有助于盈利性企业的经营模式做出重大的调整，进而加快了向服务经济社会发展的步伐。随着信息技术的进一步发展和现有技术的逐步完善，传统经济模式必将会受到严重的冲击，商业模式也会随之产生整体性的变动甚至是根本性的改变，并且在变化中不断进行新技术、新方法和新思路的探索。
(三)IT设施将成为企业核心竞争力的重要组成部分
企业的核心竞争力包含多方面的内容，但可以确定的是都是对企业发展具有重大影响的因素。随着现代信息化时代的发展和信息技术在各个领域内的广泛使用，企业成产、管理、经营等模块的信息化将会对企业能否适应社会的发展以及在日益激烈的市场中保持其竞争力产生举足轻重的作用。通过对IT基础设施进行引进和革新，能在最大限度内实现资源的最佳配置，提高生产质量和效率，降低企业运营成本，提升企业的整体管理水平。特别是对于信息技术依赖程度高的电子商务企业，云计算构架和大数据处理技术的可扩展性相当可观，为海量信息的存储、整合和管理提供了安全可靠的环境，通过IT基础设施的技术优势，为突破电子商务行业的发展上限提供了可能。

『叁』为什么Google的BigQuery在大数据并发处理中脱颖而出

大数据大数据并不仅仅是大量的数据。他的真正意义在于根据相关的数据背景，来完成一个更加完整的报告。举个例子，如果你把你的CRM数据加入到你网站的数据分析当中，你可能就会找到你早就知道的高价值用户群。她们是女性，住在西海岸，年龄30至45，花费了大量的时间在Pinterest和Facebook。

现在你已经被这些知识武装起来了，那就是如何有效的设定和获取更多高价值的用户。

类似Tableau和谷歌这样的公司给用户带来了更加强大的数据分析工具（比如：大数据分析）。Tableau提供了一个可视化分析软件的解决方案，每年的价格是2000美金。谷歌提供了BigQuery工具，他可以允许你在数分钟内分析你的数据，并且可以满足任何的预算要求。

大数据是什么？

由于大数据往往是一个混合结构、半结构化和非结构化的数据，因此大数据变得难以关联、处理和管理，特别是和传统的关系型数据库。当谈到大数据的时候，高德纳公司（Gartner Group，成立于1979年，它是第一家信息技术研究和分析的公司）的分析师把它分成个3个V加以区分：

量级（Volume）：大量的数据
速率（Velocity）：高速的数据产出
多样性（Variety）：多种类型和来源的数据。
正如我们所说，大部分的企业每一天在不同的领域都在产出大量的数据。这里给出一组样本数据的来源及类型，他们都是企业在做大数据分析时潜在的收集和聚合数据的方式：

网站分析
移动分析
设备/传感器数据
用户数据（CRM）
统一的企业数据（ERP）
社交数据
会计系统
销售点系统
销售体系
消费者数据（例如益佰利的数据、邓氏商联的数据或者普查数据）
公司内部电子表格
公司内部数据库
位置数据（空间位置、GPS定位的位置）
天气数据
但是针对无限的数据来源，不要去做太多事情。把焦点放在相关的数据上，并且从小的数据开始。通常以2-3种数据源开始是一个好的建议，比如网站数据、消费者数据和CRM，这些会让你得到一些有价值的见解。在你最初进入大数据分析之后，你可以开始添加数据源来促进你的分析，并且公布更多的分析结果。

想要获得更多关于大数据细节的知识，可以去查阅维基网络的大数据词条。

大数据的好处

大数据提供了一种识别和利用高价值机会的前瞻性方法。如果你想，那么大数据可以提供如下好处：

根据数据背景获得更完整的情况
利用数据驱动做出更好的商业决策
降低商业风险
市场上最好的解决方案
开发出更好的定制化产品或服务
更好的预测客户的需求和想法
迅速适应市场
在实时数据的趋势和预测上更加主动
建立精确的生命价值周期（LTV）、地图和用户类型
阅读更长和更复杂的属性窗口（用于网站点击流数据）
对通过细分的更复杂的导航进行可视化，并且改善你的转化漏斗（用于网站点击流数据）
并不适用所有人

请记住，大数据分析并不适合所有人。如果你没有安装并且制定分析中的目标、没有准备好归因模型、再营销和高级细分，那么你就没有为大数据做好准备。

如果你把谷歌分析使用到了极限，特别是由于他的采样数据。那么你已经准备好接触大数据的皮毛了。

入门级大数据解决方案

目前有一大批面向企业级的大数据解决方案，比如甲骨文、SAP,、IBM、EMC和惠普。但是。这篇文章是面向寻找入门级大数据解决方案的中小型企业的读者。下面我们将讨论数据分析的输出，并且分享两个相对廉价的解决方案，从而帮助你开始使用大数据分析。

分析结果的输出

目前对于大多数企业而言，数据分析主要还是针对核心数据。然而在未来，数据分析将不会采用采样数据，并且会结合其他来源的数据，使用更加复杂的工具（比如Tableau）去分析他。谷歌分析是一个伟大的工具，但是你能获得的结果目前已经到达极致了。

汇总数据的第一步往往是你输出数据分析的过程。

如果你是一个谷歌分析高级版的用户，这将很容易被推进。因为谷歌分析高级版集成了BigQuery功能来帮助企业推动大数据分析。（学习更多的关于数据分析及BigQuery的集成，请查看视频）

如果你是一个谷歌分析标准版的用户，也不用担心。我们已经开发了一个工具，它可以导出未采样的谷歌分析数据，并且把数据推送到BigQuery，或者其他的可以做大数据分析的数据仓库或者数据工具中。

（注：你可能也注意到了其他的可以导出谷歌分析未采样数据的工具，但是不同的是，这是我们的主要工作。作为一个谷歌分析工具的咨询公司，我们不得不经常帮助客户导出未采样的数据做报告用。但是当我们发现了其他工具的一些问题时，我们不得不自己创建一个更可靠的解决方案。）

一旦你导出了你的数据，你可以做好准备把它导入到一个大数据分析工具中进行存储、处理和可视化。这就给我们带来了最好的入门级大数据解决方案。

『肆』为什么说谷歌三件宝是大数据的技术起源

因为，Google是大数据鼻祖。很多人提起大数据，必然会想起Google 的“三驾马车”（也称谷歌三宝）：GFS、MapRece、BigTable。正所谓三篇论文定大数据之江山，它激发了大数据技术开源时代的到来，百花齐放，争相斗艳，成就了Hadoop的辉煌十载。尤其是近年来，大数据技术的发展，不论是袭郑凳技术的迭代，还是生态圈的繁荣，都远超人们的想象。从 Spark 超越 Hadoop 勇攀高峰，到 Flink 横空出世挑战 Spark 成为大数据处理领域一颗耀丛瞎眼的拍旅新星，再到如今 Google 又决心用 Apache Beam 一统天下。大数据开源技术的发展可谓是继往开来，跌宕起伏，波澜壮阔，俨然一副绵绵不断的辉煌画卷。

『伍』大数据处理

大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)，大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

『陆』关于大数据你不可不知的大企业及大布局

关于大数据你不可不知的大企业及大布局_数据分析师考试

如果说有一家科技公司准确定义了“大数据”概念的话，那一定是谷歌。根据搜索研究公司康姆斯科（Comscore）的调查，仅2012年3月一个月的时间，谷歌处理的搜索词条数量就高达122亿条。

谷歌不仅存储了它的搜索结果中出现的网络连接，还会储存所有人搜索关键词的行为，它能够精准地记录下人们进行搜索行为的时间、内容和方式。这些数据能够让谷歌优化广告排序，并将搜索流量转化为盈利模式。谷歌不仅能追踪人们的搜索行为，而且还能够预测出搜索者下一步将要做什么。换言之，谷歌能在你意识到自己要找什么之前预测出你的意图。这种抓取、存储并对海量人机数据进行分析，然后据此进行预测的能力，就是所谓的“大数据”。

2012：大数据十字路口？

为什么大数据突然变得这么火？为什么《纽约时报》把2012年定义为“大数据的十字路口”？

大数据之所以进入主流大众的视野，源自三种趋势的合力:

第一，许多高端消费品公司加强了对大数据的应用。社交网络巨擎 Facebook 使用大数据来追踪用户在其网络的行为，通过识别你在它的网络中的好友，从而给出新的好友推荐建议，用户拥有越多的好友，他们与 Facebook之间的黏度就越高。更多的好友意味着用户会分享更多照片、发布更多状态更新、玩更多的游戏。

商业网站LinkdIn则使用大数据在求职者和招聘职位之间建立关联。有了LinkdIn,猎头们再也不用向潜在的受聘者打陌生电话来碰运气，而可以通过简单的搜索找出潜在受聘者并联系他们。与此相似，求职者也可以通过联系网站上其他人，自然而然地将自己推销给潜在的雇主。

第二，以上两家公司都在2012年早些时候陆续上市。Facebook 在纳斯达克上市,LinkedIn 在纽约证券交易所上市。这两家企业和谷歌一样，虽然表面上是消费品公司，然而其本质是大数据企业。除去这两家，Splunk 也在 2012 年完成了上市,它是一家帮助大中型企业提供运营智能的大数据企业。这些企业的公开上市提高了华尔街对于大数据的兴趣。这种兴趣带来了空前的盛况——硅谷的风险投资家们开始前仆后继地投资大数据企业。大数据将引发下一波创业大潮，而这次浪潮有望让硅谷在未来几年取代华尔街。

第三，亚马逊、Facebook、LinkedIn 和其他以数据为核心消费品的活跃用户们，开始期待自己在工作中也能获得畅通无阻地使用大数据的体验，而不再仅仅限于生活娱乐。用户们此前一直想不通，既然互联网零售商亚马逊可以推荐阅读书目、推荐电影、推荐可供购买的产品，为什么他们所在的企业却做不到类似的事情。

比如，既然汽车租赁公司拥有客户过去租车的信息和现有可用车辆库存的信息，这些公司为何就不能在向不同的租车人提供合适的车辆方面做得更智能一点？公司还可以通过新的技术，将公开信息利用起来——比如某个特定市场的状况，会议活动信息，以及其他可能会影响市场需求和供给的事件。通过将内部供应链数据和外部市场数据结合在一起，公司就可以更加精确地预测什么车辆可用，以及可用时间。

与此类似，零售商应当可以将来自外部的公开数据和内部数据结合在一起，利用这种混合的数据进行产品定价和市场布局。同时还可以同时考虑影响现货供应能力的多种因素以及消费者购物习惯，包括哪两种产品相搭配会卖得更好，这样零售商就可以提升消费者的平均购买量，从而获得更高的利润。

谷歌的行动

谷歌的体量和规模，使它拥有比其他大多数企业更多的应用大数据的途径。谷歌的优势之一在于，它拥有一支软件工程师部队，这使得谷歌能够从无到有地建立大数据技术。

谷歌的另一个优势在于它所拥有的基础设施。谷歌搜索引擎本身的设计，就旨在让它能够无缝链接成千上万的服务器。如果出现更多的处理或存储需要，抑或某台服务器崩溃，谷歌的工程师们只要再添加更多的服务器就能轻松搞定。

谷歌软件技术的设计也秉持着同样的基础设施理念。MapRece（谷歌开发的编程工具，用于大规模数据集的并行运算。——译者注）和谷歌文件系统（Google File System）就是两个典型的例子。《连线》杂志在 2012年初夏曾报道称，这两个软件系统“重塑了谷歌建立搜索索引的方式”。

为数众多的企业如今开始使用Hadoop, 它是MapRece和谷歌文件系统的一种开源衍生产品。Hadoop允许横跨多台电脑，对庞大的数据集合进行分布式处理。在其他企业刚刚开始使用Hadoop的时候，谷歌早已多年深耕大数据技术，这让它在行业中获得了巨大的领先优势。

如今谷歌正在进一步开放数据处理领域，将其和更多第三方共享。谷歌最近刚刚推出web服务BigQuery。该项服务允许使用者对超大量数据集进行交互式分析。按照谷歌目前的状况，“超大量”，意味着数十亿行数据。BigQuery 就是按指令在云端运行的数据分析。

除此以外，谷歌还坐拥人们在谷歌网站进行搜索及经过其网络时所产生的大量机器数据。用户所输入的每一个搜索请求，都会让谷歌知道他在寻找什么，所有人类行为都会在互联网上留下痕迹路径，而谷歌占领了一个绝佳的点位来捕捉和分析该路径。

不仅如此，谷歌在搜索之外还有更多获取数据的途径。企业安装“谷歌分析（Google Analytics）”之类的产品来追踪访问者在其站点的足迹，而谷歌也可获得这些数据。网站还使用“谷歌广告联盟（Google Adsense）”，将来自谷歌广告客户网的广告展示在其站点，因此，谷歌不仅可以洞察自己网站上广告的展示效果，同样还可以对其他广告发布站点的展示效果一览无余。

将所有这些数据集合在一起所带来的结果是：企业不仅从最好的技术中获益，同样还可以从最好的信息中获益。在信息技术方面，许多企业可谓耗资巨大，然而在信息技术的组成部分之一——信息领域，谷歌所进行的庞大投入和所获得的巨大成功，却罕有企业能望其项背。

亚马逊步步紧逼

谷歌并不是惟一一个推行大数据的大型技术公司。互联网零售商亚马逊已经采取了一些激进的举动，令其有可能成为谷歌的最大威胁。

曾有分析者预测，亚马逊2015年营收将超过1000亿美元，它即将赶超沃尔玛成为世界最大的零售商。如同谷歌一样，亚马逊也要处理海量数据，只不过它处理数据带有更强的电商倾向。消费者们在亚马逊的网站上对想看的电视节目或是想买的产品所进行的每一次搜索，都会让亚马逊对该消费者的了解有所增加。基于搜索和产品购买行为，亚马逊就可以知道接下来应该推荐什么产品。而亚马逊的聪明之处还不止于此，它还会在网站上持续不断地测试新的设计方案，从而找出转化率最高的方案。

你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗？如果你这样认为的话，你应该再好好想一想。整个网站的布局、字体大小、颜色、按钮以及其他所有的设计，其实都是在多次审慎测试后的最优结果。

以数据为导向的方法并不仅限于以上领域，按一位前员工的说法，亚马逊的企业文化就是冷冰冰的数据导向型文化。数据显示出什么是有效的、什么是无效的，新的商业投资项目必须要有数据的支撑。对数据的长期专注让亚马逊能够以更低的售价提供更好的服务。消费者常常会完全跳过谷歌之类的搜索引擎，直接去亚马逊网站搜索商品、并进行购买。

争夺消费者控制权的战争硝烟还在弥漫扩散，苹果、亚马逊、谷歌，以及微软，这四家公认的巨头如今不仅在互联网上厮杀，在移动领域同样打得难解难分。鉴于消费者们把越来越多的时间花在手机和平板电脑等移动设备上，坐在电脑前的时间越来越少，因此，那些能进入消费者掌中移动设备的企业，将在销售和获取消费者行为信息方面更具有优势。企业掌握的消费者群体和个体信息越多，它就越能够更好地制定内容、广告和产品。

从支撑新兴技术企业的基础设施到消费内容的移动设备，令人难以置信的是，亚马逊的触角已触及到更为广阔的领域。亚马逊在几年前就预见了将服务器和存储基础设施开放给其他人的价值。“亚马逊网络服务（Amazon Web Services，简称 AWS）”是亚马逊公司知名的面向公众的云服务提供者，为新兴企业和老牌公司提供可扩展的运算资源。虽然AWS 成立的时间不长，但已有分析者估计它每年的销售额超过15亿美元。

AWS所提供的运算资源为企业开展大数据行动铺平了道路。当然，企业依然可以继续投资建立以私有云为形式的自有基础设施，而且很多企业还会这样做。但是如果企业想尽快利用额外的、

可扩展的运算资源，他们还可以方便快捷地在亚马逊的公共云上使用多个服务器。如今亚马逊引领潮流、备受瞩目，靠的不仅是它自己的网站和Kindle之类新的移动设备，支持着数千个热门站点的基础设施同样功不可没。

AWS带来的结果是，大数据分析不再需要企业在IT上投入固定成本，如今，获取数据、分析数据都能够在云端简单迅速地完成。换句话说，企业过去由于无法存储而不得不抛弃数据，如今它们有能力获取和分析规模空前的数据。

实现信息优势

AWS之类的服务与Hadoop之类的开源技术相结合，意味着企业终于能够尝到信息技术在多年以前向世人所描绘的果实。

数十年来，人们对所谓“信息技术”的关注一直偏重于其中的“技术”部分。首席信息官的职责只不过是对服务器、存储和网络的购买及管理。而今，信息以及对信息的分析和存储、依据信息进行预测的能力，正成为企业竞争优势的来源。

信息技术刚刚兴起的时候，较早应用信息技术的企业能够更快地发展，超越他人。微软在20世纪90年代树立起威信，这不仅仅得益于它开发了世界上应用最为广泛的操作系统，还在于它当时在公司内部将电子邮件作为标准沟通机制。

在许多企业仍在犹豫是否采用电子邮件的时候，电子邮件事实上已经成为微软讨论招聘、产品决策、市场战略之类事务的机制。虽然群发电子邮件的交流在如今已是司空见惯，但在当时，这样的举措让微软较之其他未采用电子邮件的公司，更加具有速度和协作优势。拥抱大数据、在不同的组织之间民主化地使用数据，将会给企业带来与之相似的优势。诸如谷歌和Facebook之类的企业已经从“数据民主”中获益。

通过将内部数据分析平台开放给所有跟自己的公司相关的分析师、管理者和执行者，谷歌、Facebook 及其他一些公司已经让组织中的所有成员都能向数据提出跟商业有关的问题、获得答案

并迅速行动。以Facebook为例，它将大数据推广成为内部的服务，这意味着该服务不仅是为工程师设计的，也是为终端用户——生产线管理人员设计的，他们需要运用查询来找出有效的方案。因此，管理者们不需要等待几天或是几周的时间来找出网站的哪些改变最有效，或者哪些广告方式效果最好，他们可以使用内部的大数据服务，而该服务就是为了满足其需求而设计的，这使得数据分析的结果很容易就可以在员工之间被分享。

过去的二十年是信息技术的时代，接下来二十年的主题仍会是信息技术。这些企业能够更快地处理数据，而公共数据资源和内部数据资源一体化将带来独特的洞见，使他们能够远远超越竞争对手。如同我所撰写的《大数据的八大定律》（The Top 8 Laws Of Big Data）所言，你分析数据的速度越快，它的预测价值就越大。企业如今正在渐渐远离批量处理（批量处理指先存储数据，事件之后再慢慢进行分析处理），转向实时分析来获取竞争优势。

对于高管们而言，好消息是：来自于大数据的信息优势不再只属于谷歌、亚马逊之类的大企业。Hadoop之类的开源技术让其他企业同样可以拥有这样的优势。老牌财富100强企业和新兴初创公司，都能够以合理的价格，利用大数据来获得竞争优势。

大数据的颠覆

大数据带来的颠覆，不仅是与以往相比可以获取和分析更多数据的能力，更重要的是获取和分析等量数据的价格也正在显著下降，而价格越低，销量就会越高。然而，隐含其中的讽刺关系正如所谓的“杰文斯悖论”(Jevons Paradox)。经济学家杰文斯通过观察工业革命得出该悖论，并以他的名字命名（杰文斯悖论的核心是，资源利用率的提高导致价格降低 , 最终会增加资源的使用量。——译者注）。科技进步使储存和分析数据的方式变得更有效率，公司将做更多的数据分析，因此并没有减少工作。简而言之，这就是大数据带来的颠覆。

从亚马逊到谷歌，从IBM到惠普和微软，大量的大型技术公司纷纷投身大数据，而基于大数据解决方案，更多初创型企业如雨后春笋般涌现，实现开放源和共享云。大公司致力于横向的大数据解决方案，与此同时，小公司则专注于为重要垂直业务提供应用程序。有些产品优化销售效率，还有些产品通过将不同渠道的营销业绩与实际的产品使用数据相关联，为未来营销活动提供建议。这些大数据应用（Big Data Applications，简称BDA）意味着小公司不必在内部开发或配备所有大数据技术；在很多情况下，它们可以利用基于云端的服务来满足数据分析需求。在技术之外，这些小企业还会开发一些产品，追踪记录与健康相关的指标并据此提出改善人们行为的建议。诸如此类的产品有望减少肥胖，提高生活质量，同时降低医疗成本。

大数据路线图

产业分析研究公司福雷斯特（Forrester）估计，企业数据的总量在以每年 94% 的增长率飙升。这样的高速增长之下，每个企业都需要一个大数据路线图。至少，企业应制订获取数据的战略，获取范围应从内部电脑系统的常规机器日志，到线上的用户交互记录。即使企业当时并不知道这些数据有什么用也要这样做，这些数据的用处随后或许会突然被发现。

数据所具有的价值远远高于你最初的期待，千万不要随便抛弃数据。企业还需要一个计划以应对数据的指数型增长。照片、即时信息以及电子邮件的数量非常庞大，由手机、GPS 及其他设备构成的“感应器”释放出的数据量甚至还要更大。

理想情况下，企业应该具备一种能够让数据分析贯穿于整个组织的视野，分析应该尽可能地接近实时。通过观察谷歌、亚马逊、Facebook和其他科技领袖企业，你可以看到大数据之下的种种可能。管理者需要做的就是在组织中融入大数据战略。

谷歌和亚马逊这样的企业，应用大数据进行决策已数年有余，它们在数据处理上已经获得了广泛的成功。而现在，你也可以拥有同样的能力。

以上是小编为大家分享的关于关于大数据你不可不知的大企业及大布局的相关内容，更多信息可以关注环球青藤分享更多干货

『柒』浅谈Flink的基石——Google Dataflow模型

最近正在裤山深入地研究与重度使用Flink，中途了解到它实际上就是Google Dataflow模型的一种implementation。我是个喜欢刨根问底的人，于是就阅读了Dataflow的原始论文与其他相关资料，顺便写篇东西来总结下。看官如果对Flink有了解的话，就会发现Flink的设计与Dataflow模型高度贴合。

Dataflow模型在2015年由一群来自Google的大佬提出，目前Google Cloud上也有对应的服务提供，名字就叫Cloud Dataflow，通过Apache Beam主打“简单的流式与批量大数据处理”（Simplified stream and batch data processing），官网在这里。

Dataflow模型的思想集中体现在论文《The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing》中。这个题目很长，但是值得推敲一番：

Google的大佬们认为，当我们提“流式”（stream）这个词时，实际上表达的意思就是在源源不断的连续数据上进行处理。反之，当我们提“批量”（batch）这个词时，就意味着在有限的一块或多块数据上进行处理，亦即“有界”。论文中倾向于用无界/有界来代替流式/批量，因为后者听起来像是在描述计算引擎的语义，而前者才是数据本身的特征。

对无界数据的处理必然要及时输出结果，否则就毫无意义。而输出的结果天然是有界数据，因此在Dataflow模型中皮纯尺，批量处理可以作为流式处理的一个子问题，目的是达到批流融合。这与传统Lambda架构（官网在这里）相比无疑是先进的，因为后者需要维护两套不同的组件分别用来做流式和批量处理，非常繁琐。

我们都理解在数据的生成、采集、传输过程中，不可避免地会带来各种各样的延迟，这就意味着处理无界数据时，其顺序很有可能与业务逻辑的原始顺序不同。举个浅燃高显的例子：某用户在7时55分浏览了某商品的详情页面，然后在7时56分加入购物车，57分下单购买，但日志队列中的顺序可能会变成“下单→加入购物车→浏览”。

在Lambda架构下的批量处理中，乱序数据造成问题的可能性往往很小。但是在Dataflow的批流融合构想下，必须正确地处理乱序数据才能保证整个大数据服务的正确性，因此非常重要。下面就来深入地看看Dataflow如何解决论文题目中的这些要点。

我们首先要分辨清楚Dataflow中最重要的一对基础概念，即事件时间（event time）和处理时间（processing time），说起来也很简单：

下图示出事件时间和处理时间的关系。在理想情况下，数据总能及时地被处理，两者的关系应该是如虚线所示。但由于各种延迟的存在，实际情况更多地表现为红色粗箭头，两者之间会有一些差距（skew）。

将事件时间和处理时间区别对待，并且采用事件时间作为时间特征，是Dataflow的一大进步。

Dataflow将上述无界数据的处理问题分解为4个子问题来考虑：

这样一来就清晰多了。为了解决上面的4个子问题，Dataflow提出了以下这些方案：

至于最基本的What问题，当然是用户自己要考虑的了。下面分别讨论这三个模型。

在大学计算机网络课程中，我们都学过窗口的概念，大家明白就好。

前面已经提到过，对无界数据的处理必然要及时输出结果，否则就毫无意义。那么要处理哪个时间范围的数据呢？通过窗口就可以将无界数据时域地划分为一个个的有限数据集，进而能在其上做分组、聚合、连接等比较高级的操作。下图示出乱序事件时间的一种窗口。

也就是说，Dataflow通过窗口模型将传统流处理中的(key, value)二元组改进为(key, value, event_time, window)四元组。

常见的开窗方式有三种，即固定（fixed/tumbling）窗口，滑动（sliding）窗口，会话（session）窗口，如下图所示。

固定窗口显然是最简单的，比如一个5分钟的固定窗口： [7:00, 7:05), [7:05, 7.10), [7:10, 7.15), ... 。滑动窗口对我们来说也是老熟人，例如一个窗口时长1小时，滑动时长10分钟的滑动窗口就是以下的时间区间： [7:00, 8:00), [7:10, 8:10), [7:20, 8:20), ... 。

会话窗口则不那么常见一些，它是Google在实践中总结出来的，通俗地说就是在一个key连续出现时才形成窗口，如果该key持续不出现超过一定时长，之后再出现就被划分到下一个窗口。这种方式比较灵活，并且容易想到它可以用于用户行为检测、异常检测等方面。

如果我们不采用事件时间作为时间特征，而用处理时间的话，就没有必要考虑触发模型，因为窗口的边界与数据没关系。但是一旦用事件时间，由于数据会迟到，窗口的边界就会模糊，也就是无从知道窗口里的数据是否已经齐活了，触发结果的物化变成了一道难题。所以在这里又引入了一个重要的概念，就是水印（watermark）。

水印本质上是个时间戳，对一个无界数据源而言，水印T就表示已经接收到所有t <= T的数据，其他t > T的数据都将被视为迟到，接下来就可以进行输出。在讲解事件时间和处理时间时，图中的红色箭头就是实际的水印时间。

显然，如果没有延迟的数据，或者我们能对输入数据有完整的感知，那么水印就是理想的（ideal）。但无界数据源本身决定了我们不可能完整感知到输入数据的特征，所以水印的设定大多是启发式（heuristic）的，亦即根据历史指标尽量保证窗口内数据的完整性，但不能确保100%可靠，太快和太慢都不行。当然，也可以根据业务情况，采用更加简单暴力的方式（如周期性打水印、计数打水印）等，优势是比较灵活，不过就更加不可靠了。

既然启发式水印不能确保100%可靠，那么就必须用迟到数据修正之前窗口的正确性，亦即增量更新，也叫做回填（backfill）。Dataflow原生定义了以下三种回填策略：

有以下输入示例。

注意事件时间从12:00开始而处理时间从12:05开始。理想水印线如图中细线所示，实际水印则是粗线，说明有迟到数据。

下图是采用与Spark Streaming类似的微批次（micro-batch）手段进行处理的流程图，可见是根据processing time进行处理，与event time并没有关系。

下图则是与Flink类似的固定窗口+流式处理机制。

由这张图可以看出启发式水印的问题：数据9在水印触发时实际上还没有到，也就是水印太快了。而数据7要到8触发水印时才会输出，也就是水印太慢了。

边看球边写的，三心二意并且水平有限，嘛就这样吧~

『捌』简要描述大数据产生背后的技术原因急！

大数据技术来的发展，历经了多源个阶段，而真正大数据技术开始成熟，是来自于Google在2004年提出了的分布式数据系统（Google file system，GFS）、分布式计算系统MapRece和分布式数据库BigTable，基于这套体系，大数据处理技术开始走向成熟。
2014年以后，整体大数据的技术栈已经趋于稳定，由于云计算、人工智能等技术发展，还有芯片、内存端的变化，大数据技术也在发生相应的变化。
最早大数据生态没有办法统一批处理和流计算，只能采用Lambda架构，批的任务用批计算引擎，流式任务采用流计算引擎，比如批处理采用MapRece，流计算采用Storm。
后来Spark试图从批的角度统一流处理和批处理，Spark Streaming采用了micro-bach的思路来处理流数据。近年来纯流架构的Flink异军突起，由于其架构设计合理，生态健康，近年来发展特别快。而Spark近期也抛弃了自身微批处理的架构，转向了纯流架构Structure Streaming，未来霸主还未见分晓。

导航:首页 > 网络数据 > google大数据处理技术

google大数据处理技术

与google大数据处理技术相关的资料

友情链接