导航:首页 > 网络数据 > google大数据design

google大数据design

发布时间:2024-04-23 11:10:13

A. 为什么说谷歌三件宝是大数据的技术起源

因为,Google是大数据鼻祖。很多人提起大数据,必然会想起Google 的“三驾马车”(也称谷歌三宝):GFS、MapRece、BigTable。正所谓三篇论文定大数据之江山,它激发了大数据技术开源时代的到来,百花齐放,争相斗艳,成就了Hadoop的辉煌十载。尤其是近年来,大数据技术的发展,不论是袭郑凳技术的迭代,还是生态圈的繁荣,都远超人们的想象。从 Spark 超越 Hadoop 勇攀高峰,到 Flink 横空出世挑战 Spark 成为大数据处理领域一颗耀丛瞎眼的拍旅新星,再到如今 Google 又决心用 Apache Beam 一统天下。大数据开源技术的发展可谓是继往开来,跌宕起伏,波澜壮阔,俨然一副绵绵不断的辉煌画卷。

B. 浅谈Flink的基石——Google Dataflow模型

最近正在裤山深入地研究与重度使用Flink,中途了解到它实际上就是Google Dataflow模型的一种implementation。我是个喜欢刨根问底的人,于是就阅读了Dataflow的原始论文与其他相关资料,顺便写篇东西来总结下。看官如果对Flink有了解的话,就会发现Flink的设计与Dataflow模型高度贴合。

Dataflow模型在2015年由一群来自Google的大佬提出,目前Google Cloud上也有对应的服务提供,名字就叫Cloud Dataflow,通过Apache Beam主打“简单的流式与批量大数据处理”(Simplified stream and batch data processing),官网在 这里 。

Dataflow模型的思想集中体现在论文 《The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing》 中。这个题目很长,但是值得推敲一番:

Google的大佬们认为,当我们提“流式”(stream)这个词时,实际上表达的意思就是在源源不断的连续数据上进行处理。反之,当我们提“批量”(batch)这个词时,就意味着在有限的一块或多块数据上进行处理,亦即“有界”。论文中倾向于用无界/有界来代替流式/批量,因为后者听起来像是在描述计算引擎的语义,而前者才是数据本身的特征。

对无界数据的处理必然要及时输出结果,否则就毫无意义。而输出的结果天然是有界数据,因此在Dataflow模型中皮纯尺,批量处理可以作为流式处理的一个子问题,目的是达到批流融合。这与传统Lambda架构(官网在 这里 )相比无疑是先进的,因为后者需要维护两套不同的组件分别用来做流式和批量处理,非常繁琐。

我们都理解在数据的生成、采集、传输过程中,不可避免地会带来各种各样的延迟,这就意味着处理无界数据时,其顺序很有可能与业务逻辑的原始顺序不同。举个浅燃高显的例子:某用户在7时55分浏览了某商品的详情页面,然后在7时56分加入购物车,57分下单购买,但日志队列中的顺序可能会变成“下单→加入购物车→浏览”。

在Lambda架构下的批量处理中,乱序数据造成问题的可能性往往很小。但是在Dataflow的批流融合构想下,必须正确地处理乱序数据才能保证整个大数据服务的正确性,因此非常重要。下面就来深入地看看Dataflow如何解决论文题目中的这些要点。

我们首先要分辨清楚Dataflow中最重要的一对基础概念,即事件时间(event time)和处理时间(processing time),说起来也很简单:

下图示出事件时间和处理时间的关系。在理想情况下,数据总能及时地被处理,两者的关系应该是如虚线所示。但由于各种延迟的存在,实际情况更多地表现为红色粗箭头,两者之间会有一些差距(skew)。

将事件时间和处理时间区别对待,并且采用事件时间作为时间特征,是Dataflow的一大进步。

Dataflow将上述无界数据的处理问题分解为4个子问题来考虑:

这样一来就清晰多了。为了解决上面的4个子问题,Dataflow提出了以下这些方案:

至于最基本的What问题,当然是用户自己要考虑的了。下面分别讨论这三个模型。

在大学计算机网络课程中,我们都学过窗口的概念,大家明白就好。

前面已经提到过,对无界数据的处理必然要及时输出结果,否则就毫无意义。那么要处理哪个时间范围的数据呢?通过窗口就可以将无界数据时域地划分为一个个的有限数据集,进而能在其上做分组、聚合、连接等比较高级的操作。下图示出乱序事件时间的一种窗口。

也就是说,Dataflow通过窗口模型将传统流处理中的(key, value)二元组改进为(key, value, event_time, window)四元组。

常见的开窗方式有三种,即固定(fixed/tumbling)窗口,滑动(sliding)窗口,会话(session)窗口,如下图所示。

固定窗口显然是最简单的,比如一个5分钟的固定窗口: [7:00, 7:05), [7:05, 7.10), [7:10, 7.15), ... 。滑动窗口对我们来说也是老熟人,例如一个窗口时长1小时,滑动时长10分钟的滑动窗口就是以下的时间区间: [7:00, 8:00), [7:10, 8:10), [7:20, 8:20), ... 。

会话窗口则不那么常见一些,它是Google在实践中总结出来的,通俗地说就是在一个key连续出现时才形成窗口,如果该key持续不出现超过一定时长,之后再出现就被划分到下一个窗口。这种方式比较灵活,并且容易想到它可以用于用户行为检测、异常检测等方面。

如果我们不采用事件时间作为时间特征,而用处理时间的话,就没有必要考虑触发模型,因为窗口的边界与数据没关系。但是一旦用事件时间,由于数据会迟到,窗口的边界就会模糊,也就是无从知道窗口里的数据是否已经齐活了,触发结果的物化变成了一道难题。所以在这里又引入了一个重要的概念,就是水印(watermark)。

水印本质上是个时间戳,对一个无界数据源而言,水印T就表示已经接收到所有t <= T的数据,其他t > T的数据都将被视为迟到,接下来就可以进行输出。在讲解事件时间和处理时间时,图中的红色箭头就是实际的水印时间。

显然,如果没有延迟的数据,或者我们能对输入数据有完整的感知,那么水印就是理想的(ideal)。但无界数据源本身决定了我们不可能完整感知到输入数据的特征,所以水印的设定大多是启发式(heuristic)的,亦即根据历史指标尽量保证窗口内数据的完整性,但不能确保100%可靠,太快和太慢都不行。当然,也可以根据业务情况,采用更加简单暴力的方式(如周期性打水印、计数打水印)等,优势是比较灵活,不过就更加不可靠了。

既然启发式水印不能确保100%可靠,那么就必须用迟到数据修正之前窗口的正确性,亦即增量更新,也叫做回填(backfill)。Dataflow原生定义了以下三种回填策略:

有以下输入示例。

注意事件时间从12:00开始而处理时间从12:05开始。理想水印线如图中细线所示,实际水印则是粗线,说明有迟到数据。

下图是采用与Spark Streaming类似的微批次(micro-batch)手段进行处理的流程图,可见是根据processing time进行处理,与event time并没有关系。

下图则是与Flink类似的固定窗口+流式处理机制。

由这张图可以看出启发式水印的问题:数据9在水印触发时实际上还没有到,也就是水印太快了。而数据7要到8触发水印时才会输出,也就是水印太慢了。

边看球边写的,三心二意并且水平有限,嘛就这样吧~

C. 从谷歌大数据中能发现什么规律得出什么结论

马克吐温说过:“世上有三种谎言,即谎言,拙劣的谎言和统计数据。”传统的调研方法得出的结论只是调研者希望得到的结论,而不是真实结论。当你拿起笔,开始在调查表上划对勾时,你已经走进调研设计者为你画好的框架之中。跟着调查报告的既定思路走,勾画有限的选项,本能地回避对自己不利的选项。
无论是善意还是恶意,人们面对他人时,总要展露自己优秀的光明面,隐藏拙劣不堪的阴影面。但是,当人们面对屏幕时,往往会放下戒备,吐露心声,甚至还会释放夸张内心的恶魔。这就是为什么会有那么多的键盘侠。
谷歌数据分析家,赛思•斯蒂芬斯-达维多维茨,从屏幕背后的大数据中,得出许多出乎意料的结论。

1、先看一个例子,你猜猜,与失业率高度相关的网络数据是什么?找工,写简历,面试,再教育培训?以上答案都不对。最高相关的数据不是找工,而是一个黄片网站,其次是“蜘蛛纸牌”。知道答案后的你有没有会心一笑?数据说明了真相:有大把时间很无聊的失业人士,把他们的时间花在数据看得见的地方

D. Google是如何使用云计算和大数据的

随着云计算和大数据的普及,越来越多的IT公司选择将自己的大数据解决方案部署在云上面。
云计算和大数据的结合带来了什么便利呢?一个典型的大数据云又是如何设计和部署的呢?
下面我们以Google Cloud作为例子,讲解在工业界里边是如何实际应用云。
Google Cloud
Google作为分布式系统和大数据的领导者,开发了众多跨时代的产品。几乎每一个Google的产品,写出一篇paper就可以创造一个开源社区的。
比如MapRece发布之后,开源社区根据Google的一篇论文开发出的Hadoop,BigTable发布之后,开源社区又进一步开发出Hbase等等。可以说没有Google的创新,就没有现在开源社区的繁荣。
而Google又把自家的产品,都放在Google Cloud上面,形成了丰富多彩的产品线,吸引了非常多的大大小小的公司如Snapchat等来使用。
Google App Engine (GAE)
我们都知道Web项目都需要大量的Web Service以及为之服务的运维系统。Google在云计算领域首次尝试的就是Google App Engine (GAE),相对比当时的Amazon EC2,GAE只需开发者上传软件代码,其他部署将由Google完成。
用户只需要熟悉后端语言开发即部署大规模的集群。Google今年更是推出了GAE Flex,可以帮助用户实现auto-scaling,用户不再需要自己部署负载均衡的服务了。大部分中小企业的网站几乎都可以无缝衔接到GAE上。
BigTable
BigTable的底层是注明的Google File System (GFS),他实现了数据中心级别的可靠的分布式存储。
也是最早的NoSQL数据库的一种。各种网站如果有需要永久存储的数据,一般都可以存放在BigTable里边,Google Cloud会自动帮你做replication,分布在不同的服务器节点里边,这样实现了可靠的分布式存储。
Dataflow
Dataflow的底层实现利用了大名鼎鼎的MapRece的升级版Flume。
Dataflow特别方便进行大量的批处理,举个例子来说,比如要把所有的用户数据里边的格式都升级一遍,用GAE或者其他service是很难实现的。

E. 大数据和隐私问题让谷歌公司面临挑战

大数据和隐私问题让谷歌公司面临挑战
网络隐私已经成为过去一年人们最担心的问题之一。美国信用机构Equifax公司遭到黑客攻击,导致约有1.43亿用户数据泄露事件使人们对信息安全十分担忧。
不幸的是,人们对其他大品牌公司的信任度并不高,这其中包括谷歌公司。根据美国电子信息中心的调查,消费者更关心的是谷歌公司和Facebook公司访问他们的数据,而不是他们的互联网服务提供商。这些担心程度很可能在未来一年上升。

谷歌的隐私问题可能会在2018达到新高
谷歌公司是第一批从大数据中构建品牌形象的公司之一。谷歌公司共同创始人Larry Page和Sergey Brni开发了Page Rank算法,该算法依赖于通过互联网抓取内容,并根据其权限级别对内容进行排名。
谷歌公司对大数据的承诺并没有结束。多年来,他们专注于收集更多的用户数据,以改善他们的服务体验,并为广告客户提供更多的价值。然而,他们收集客户数据的承诺可能损害客户的权益。
这些担忧今年比以往任何时候都要高。最大的原因之一是美国国会最近开始废除隐私保护法规。这打开了潘多拉盒子,许多互联网服务提供商可能在有关的方面利用更宽松的规则。虽然新政策的实施并没有以任何方式影响谷歌公司的商业模式,但一般客户并不了解这些差异。此外,互联网服务提供商可能会收集有关搜索引擎上客户活动的更多数据。谷歌公司使用安全连接,因此互联网服务提供商可能无法看到大多数数据客户键入的内容。但是,他们可以通过各种方式对客户搜索查询进行推理,例如通过点击付费广告时跟踪令牌的使用。
而一些网络安全专家表示,在隐私保护法规被撤销后,人们更加担心自己的隐私。
“新政策可能会伤害一些需要收集更多用户数据的电子商务客户。这将对整个行业产生负面影响,”一位网络安全专家指出。
消费者似乎更多地依靠VPN,并试图在谷歌网站隐藏他们的个人信息,这为VPN服务创造了更强的需求。
然而,一些客户一直在警惕使用VPN来逃避政府部门的跟踪,因为他们认为政府部门将更有可能针对使用它们的用户。一个法院甚至在设定先例之后引起了人们的注意,即法官可以在美国的任何地方为VPN用户颁发许可证,而不管用户所在的地区在哪里。
谷歌的隐私策略在2018年将会让更多客户离开吗?
一位屡获殊荣的新闻工作者和技术专家Dan Arel表示,2017年已经成为一场完美的风暴。Arel指出,最近发生的安全漏洞事件和美国政府的控制已经开始引起人们的一些担忧。他警告说,谷歌公司和美国政府部门可以会有一些侵犯人权的行为。
Arel说,“我发现自己已经厌倦了谷歌公司正在查看我们的邮件内容,检查我的搜索内容,并向我推销东西。我也知道当今美国政府正在追踪任何犯罪活动。但我不相信他们会遵守那些不让非法搜查的法律。所以我开始变得更加私密,这意味着放弃谷歌产品,使用加密的更安全的替代方案。”
许多对Arel的帖子发表评论,并对他的发言进行了回应。即使是谷歌公司的首席执行官Sudar Pichai也不得不解决其中的一些问题。Paiai表示,人们继续使用Google的产品,因为他们可以信赖。然而,Reddit和其他社交媒体平台上使用Duck DuckGo等其他搜索引擎的人数却有所增加,这表明Paiai或者是在否认问题,或者需要积极推动改变公众形象。
谷歌产品的命运仍然不确定。有一件事却是明确的,客户对收集他们的数据的行业更加警惕,并可能开始寻找其他替代方案,而人们的担忧在不久的将来将会与日俱增。

阅读全文

与google大数据design相关的资料

热点内容
ps入门必备文件 浏览:348
以前的相亲网站怎么没有了 浏览:15
苹果6耳机听歌有滋滋声 浏览:768
怎么彻底删除linux文件 浏览:379
编程中字体的颜色是什么意思 浏览:534
网站关键词多少个字符 浏览:917
汇川am系列用什么编程 浏览:41
笔记本win10我的电脑在哪里打开摄像头 浏览:827
医院单位基本工资去哪个app查询 浏览:18
css源码应该用什么文件 浏览:915
编程ts是什么意思呢 浏览:509
c盘cad占用空间的文件 浏览:89
不锈钢大小头模具如何编程 浏览:972
什么格式的配置文件比较主流 浏览:984
增加目录word 浏览:5
提取不相邻两列数据如何做图表 浏览:45
r9s支持的网络制式 浏览:633
什么是提交事务的编程 浏览:237
win10打字卡住 浏览:774
linux普通用户关机 浏览:114

友情链接