meetup南京大数据_大数据分析界的“神兽”Apache Kylin有多牛

① 如何使用OpenStack，Docker和Spark打造一个云服务

从一项颠覆性的技术成果转化并衍生出一整套社区体系，Docker在发展速度上打破了一个又一个历史纪录。然而，Docker项目在采纳与普及方面表现出惊人态势的同时，也给我们带来了一系列疑问与困惑。在今天的文章中，我希望将注意力集中在朋友们最为关注的评论议题身上。随着Docker项目在人气方面的持续飙升，很快刚刚接触这一新生事物的读者在实践过程中不禁产生了这样的疑问：如果已经决定使用Docker，是否还有必要同时使用OpenStack？在给出自己的观点之前，我打算首先就背景信息入手为各位进行讲解，从而更为透彻地认清这个命题背后所隐藏的理论基础。背景信息从最为简单的构成形式出发，Docker实际上旨在提供一套能够在共享式基础设施之上对软件工作负载进行管理的容器环境，但同时又确保不同负载之间彼此隔离且互不影响。以KVM为代表的虚拟机系统所做的工作也差不多：创建一套完整的操作系统堆栈，通过虚拟机管理程序将与该系统相关的设备囊括进来。然而与虚拟机解决方案的区别在于，Docker在很大程度上依赖于Linux操作系统所内置的一项功能——名为LXC（即Linux容器）。LXC利用内置于操作系统当中的各项功能将不同进程的内存进行划分，甚至能够在一定程度上拆分CPU与网络资源。Docker镜像不需要像一套全新操作系统那样进行完整的引导过程，这样一来软件包的体积就能得到大幅压缩、应用程序运行在共享式计算资源之上时也将具备更为显著的轻量化优势。除此之外，Docker还允许工作负载直接访问设备驱动程序、从而带来远超过虚拟机管理程序方案的I/O运行速度。在这种情况下，我们得以直接在裸机设备上使用Docker，而这就带来了前面提到的核心问题：如果已经使用了Docker，我们还有必要同时使用OpenStack等云方案吗？前面的结论绝非信口开河，BodenRussell最近针对Docker与KVM等虚拟机管理程序在性能表现上的差异进行了基准测试，并在DockerCon大会上公布了测试结果。本次基准测试提供相当详尽的具体数据，而且如预期一样，测试结果显示引导KVM虚拟机管理程序与引导Docker容器之间存在着显著的时间消耗差异。本次测试同时表明，二者之间在内在与CPU利用率方面同样存在着巨大区别，具体情况如下图所示。红色线条为KVM，蓝色线条为Docker。这种在性能表现上的显著区别代表着两套目的相近的解决方案在资源密度与整体利用率方面大相径庭。而这样的差异也将直接体现在运行特定工作负载所需要的资源总量上，并最终反映到实际使用成本当中。结论整理·上述结论并不单纯指向OpenStack，但却适用于OpenStack以及其它与之类似的云基础设施解决方案。在我看来，之所以问题的矛头往往最终会被指向OpenStack，是因为OpenStack项目事实上已经在私有云环境领域具备相当高的人气，同时也是目前我们惟一会考虑作为Docker替代方案的技术成果。·问题的核心不在于OpenStack，而在于虚拟机管理程序！很多性能基准测试都将Docker与KVM放在了天秤的两端，但却很少将OpenStack牵涉于其中。事实上，前面提到的这次专项基准测试同时将OpenStack运行在KVM镜像与Docker容器环境之下，结果显示这两类技术成果能够带来理想的协作效果。考虑到这样的情况，当我们选择将OpenStack运行在基于Docker的Nova堆栈当中时——正如OpenStack说明文档提供的下图所示——那些资源利用率参数将变得无关紧要。·在这种情况下，云基础设施能够在容器或者虚拟机管理程序当中提供一套完整的数据中心管理解决方案，而这仅仅属于庞大系统整体当中的组成部分之一。以OpenStack为代表的云基础设施方案当中包含多租户安全性与隔离、管理与监控、存储及网络外加其它多种功能设置。任何云/数据中心管理体系都不能脱离这些服务而独立存在，但对于Docker或者是KVM基础环境却不会做出过多要求。·就目前来讲，Docker还不算是一套功能全面的虚拟化环境，在安全性方面存在多种严重局限，缺乏对Windows系统的支持能力，而且因此暂时无法作为一套真正可行的KVM备用方案。尽管正在持续进行当中的后续开发工作将逐步弥合这些差距，但抱持着相对保守的心态，这些问题的解决恐怕也同时意味着容器技术将在性能表现方面有所妥协。·另外需要注意的是，原始虚拟机管理程序与经过容器化的实际应用程序性能同样存在着巨大差异，而且下面这幅来自基准测试的图表清楚地说明了这一点。目前可能合理的解释在于，应用程序通常会利用缓存技术来降低I/O资源开销，而这大大影响了测试结果对真实环境中运行状态的准确反映。·如果我们将Docker容器打包在KVM镜像当中，那么二者之间的差异将变得可以忽略不计。这套架构通常利用虚拟机管理程序负责对云计算资源的控制，同时利用Heat、Cloudify或者Kubernetes等流程层在虚拟机资源的容纳范围之内进行容器管理。总结由此我得出了这样的结论：要想正确地看待OpenStack、KVM以及Docker三者之间的关系，正确的出发点是将其视为一整套辅助堆栈——其中OpenStack扮演整体数据中心管理方案的角色，KVM作为多租户计算资源管理工具，而Docker容器则负责与应用部署包相关的工作。在这样的情况下，我们可以汇总出一套通用型解决模式，其中Docker分别充当以下几种角色：·Docker提供经过认证的软件包，并保证其能够与稳定不变的现有基础设施模型顺利协作。·Docker为微服务POD提供出色的容器化运行环境。·在OpenStack之上使用Docker，并将其作用与裸机环境等同的运行平台。前面说了这么多，我确实亲眼见证过不少经过精确定义的工作负载实例，对于它们来说是否使用云基础设施仅仅是种自由选项而非强制要求。举例来说，如果我出于DevOps的目的而考虑建立一套小型自动化开发与测试环境，那么我个人更倾向于在裸机环境上直接使用Docker机制。而虚拟机与容器这两类环境之间，流程层将成为一套绝佳的抽象对接工具。将流程框架与Docker共同使用的一大优势在于，我们能够根据实际需求、随时在OpenStack以及裸机环境之间进行切换。通过这种方式，我们将能够选择任意一种解决选项——只要其切实符合我们流程引擎对于目标环境的具体需要。OpenStackOrchestration（即Heat）在最新发布的Icehouse版本当中已经明确表示支持Docker环境。Cloudify作为一款基于TOSCA的开源流程框架，原本适用于OpenStack以及VMware、AWS乃至裸机等云环境，而最近也开始将Docker支持纳入自身。谷歌Kubernetes主要面向的是GCE协作目标，但我们也能够通过自定义来使其适应其它云或者运行环境。

② 美国大数据工程师面试攻略

项目数据分析师分享：美国大数据工程师面试攻略
方法/步骤
先做一个自我介绍，本科南开后，加入了一个创业公司kuxun，做实时信息检索，后来进入网络基础架构组，搭建了Bai App Engine的早期版本，随后去Duke大学留学，在攻读硕士期间，做跟Hadoop大数据相关的研究项目Starfish，之后在Amazon EC2部门实习，了解它们的内部架构，毕业后加入Linkedin，做广告组的架构，涉及Hadoop调优，Data Pipeline, Offline/Online, 实时系统。最新是在Coursera从事数据工程师工作。在多年工作中，除了对技术的不懈追求，也积累了大量的面试经验，从国内的一线互联网网络，阿里巴巴，奇虎，人人，到美国一线公司Facebook，Google，Linkedin，Twitter，Amazon，到热门Startup，Uber，Pinterest，Airbnb，Box，Dropbox，Snapchat，Houzz，拿到10+ offer，并且在Linkedin期间也面试过100+候选人，参与面试题制定，乐于分享并帮助很多人成功求职，实现目标。
我们看一下这张硅谷地图，它坐落于美国加州，从圣何塞到旧金山的狭长地带，中间是San francisco bay，简称湾区。它的由来是这边有计算机核心处理器中离不开的硅，30年来，硅谷就发展成为无数技术性创业公司的摇篮。在20多年前，就有很多硬件公司的辉煌Intel，Oracle，Apple，Cisco成功上市，10年前，互联网的兴起，造就了Yahoo，Google，Ebay的神奇，而如今Tesla，Facebook，Twitter，Linkedin正扶摇直上，成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion，PE从负数到上千。疯狂的估值背后也改变了世界。
如果说硅谷成功是有原因的，我觉得有两点。地理位置是得天独厚吸引大量人才，这里有Stanford和加州州立高校提供智力库的支持，在硅谷可以看到来自全世界的最聪明的人，中国人，印度人，犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农，但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题，在Stanford有个说法空气中都飘扬中创业的味道，一些早期员工通过上市套现又积累经验成了天使投资，Y Combinator，各种技术forum，meetup，创业导师，都很活跃。资本的力量功不可没，早年VC通过投资，收购，上市放大形成一个雪球效应。大家总喜欢问什么是next big thing，哪一个是下一个facebook，下一个musk，根据统计10年能成就一个千亿以上的公司，目前这个进程正在缩短。
我就拿Linkedin作为例子，介绍高科技公司（FLG）是什么样子。它是成立2003年的职业社交网站。在10年的发展中，也不是一下子爆发的，目前有3亿的全球用户，虽然跟Facebook，Google 10亿＋用户没法比，但是它有很好的护城河，用户定位高端精准，单位价值高。这张照片中左边这位是创始人Reid Hoffman，是Paypal黑帮成员，在硅谷也是呼风唤雨的大佬，目前是董事和投资人。中间这位是CEO Jeff，2013年被Glassdoor评为最佳CEO，作为职业经理人，成功帮助linkedin高速成长，他最喜欢提到transformation，希望我们每个员工能挑战自我，在各自岗位上进化。Linkedin提供了员工很好的福利，有号称湾区最佳的免费食堂，每个月一次的in day，hack day, 帮助员工内部创业的incumbator计划。它特点是数据驱动的开发产品，比如 People you may know, Job you may be interested, 我做过Sponroed Ads 都是需要很强数据背景和data scientist的支持。它的Biz model也很独特，有3个line，面向公司的招聘服务，面向广告商的市场服务，面向个人的订阅服务，还有最新Sales Solution，因为这么多可能性，成为华尔街的宠儿。
说硅谷，除了那些已经成功的大公司，不得不说现在最新的创业动向，这些代表了未来下一个FLG。我总结了一些领域和代表公司：云计算(box, dropbox)，大数据(cloudera)，消费互联网(pinterest)，健康(fitbit)，通讯(snapchat)，支付(square)，生活(uber)。这里是华尔街网站更新的最新融资规模，比如Uber就达到18Billion的估值，我当时拿到offer没去，还是觉得很疯狂，如果细看这张表，大家可以看到硅谷（蓝色）尤其是旧金山它们的融资规模远远大于其他地区，还是地理决定论。而在国内的两家xiaomi，jingdong都是在北京，而最近大家看到一些泡沫论，说什么阿里巴巴上市是否美股到顶，经纬VC创始人也提醒我们泡沫的风险，我无法判断。如果能参与到下一波浪潮里面去是很过瘾的。我推荐大家去看看 <浪潮之巅>，<奇点临近>，我还是很期待未来20年的技术革命。
我个人热爱大数据，在硅谷这也是大家津津乐道的，有个笑话，big data is like teenage talking about sex, nobody know how to do it. 其实大家还是兴趣驱动就好，不要那么功利，大数据技术涉及太多，平常工作中也是慢慢积累，有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个，如果你用不好，你的压力很大的，举个例子，你用某个开源数据库，发现它偶尔有数据丢失怎么办，如果这是线上服务，你不断收到报警，这时候你当时选用它的优点 scalable，容错性都没意义了。接着说大数据，这里面Hadoop作为行业标准，我面过的除了Google，微软不用，几乎所有的公司都在用，建议大家利用这个机会。这里面有三巨头，cloudera是老牌Hadoop咨询公司，Hadoop的创始人做CTO，Hortonworks也是很多Hadoop的committee，MapR是提出hdfs的erasure 编码方式高效而著名，它们都是融了巨资，模式也很像，先推出社区免费版，但有个商业版提供更好的管理。而今年出现一匹黑马，Spark，简单说就是内存级别的计算，比Hadoop框架里能节约IO，利用缓存，能适应批处理，迭代，流式计算。
这里看一下它的生态系统，如何学Hadoop是个循序渐进过程，先要理解学习它的core系统，HDFS, MapRece, Common，在外围有无数的系统工具方便开发，我个人用过的是 Avro作为数据格式，Zookeeper作为选主的高可靠性的组件，Solr作为搜索接口，Pig搭建工作流，Hive 数据仓库查询，Oozie管理工作流，HBase 作为KV 分布式存储，mahout数据挖掘的库，Cassandra nosql 数据库。我建议初学的考虑Chinahadoop的课程。
而Hadoop本身也是个进化过程，几年前0.19版本，到0.20, 0.23分流成Yarn架构最后进化成Hadoop2.0, Hadoop1.0 和 2.0 它们的接口和组件是完全不同的，但总体上Hadoop 2.0 是趋势，因为它有Yarn这样分离的资源管理平台，可以以插件的方式开发上面的Application，解放了生产力，而像Spark，Storm这些新型处理器也是支持Hadoop 2.0的。这里是Hortonworks它们提出来的社区版本架构，可以说标准的制定者，一流的公司制定标准，其他的公司一般用只能用它们提供的稳定版，没有多少话语权。但从事大数据，并不见得是要去这些制定标准的公司，大量的应用也是非常考验架构的灵活性。并且能看到实际的产品，很有成就感。
说到今年火的，还是要看Spark。从去年至今，已经开了2届Spark大会，上千人的规模，无数人对比Hadoop 100倍的性能提升而兴奋。这里说它的背景是诞生于Berkeley的Amplab，它们有个很有名的BDAS(Berkeley Data Analytics Stack)，目前Spark已经成为Apache的顶级项目。去年这个实验室的教授跟学生出去成立Databricks公司，拉到两轮上千万的风投，有人成Spark是Hadoop的终结者吗？我看今年Spark大会上，所有的Hadoop大佬公司都是鼎力支持，像Cloudrea甚至放弃impala的一线支持而转变成Spark。如果这么发展下去，星星之火可以燎原啊。它里面用到Scala是一种函数式语言。里面的组件也很多，有Shark支持SQL类似Hive，有Spark Streaming，MLlib，Graphx，SparkR，BlinkDB。它的核心数据结构是RDD，可以跑在各种分布式系统上。总体上是个包容性＋侵略性的系统。我个人也很看好它们的发展。

③ 大数据分析界的“神兽”Apache Kylin有多牛

1.Apache Kylin是什么？

在现在的大数据时代，越来越多的企业开始使用Hadoop管理数据，但是现有的业务分析工具（如Tableau，Microstrategy等）
往往存在很大的局限，如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持；而利用Hadoop做数据分析依然存在诸多障碍，例如大多数分析
师只习惯使用SQL，Hadoop难以实现快速交互式查询等等。神兽Apache Kylin就是为了解决这些问题而设计的。

Apache Kylin，中文名麒（shen）麟（shou）是Hadoop动物园的重要成员。Apache
Kylin是一个开源的分布式分析引擎，最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持大
规模数据，能够处理TB乃至PB级别的分析任务，能够在亚秒级查询巨大的Hive表，并支持高并发。

Apache
Kylin于2014年10月在github开源，并很快在2014年11月加入Apache孵化器，于2015年11月正式毕业成为Apache顶级项
目，也成为首个完全由中国团队设计开发的Apache顶级项目。于2016年3月，Apache
Kylin核心开发成员创建了Kyligence公司，力求更好地推动项目和社区的快速发展。

Kyligence是一家专注于大数据分析领域创新的数据科技公司，提供基于Apache
Kylin的企业级智能分析平台及产品，以及可靠、专业、源码级的商业化支持；并推出Apache Kylin开发者培训，颁发全球唯一的Apache
Kylin开发者认证证书。

2.Kylin的基本原理和架构

下面开始聊一聊Kylin的基本原理和架构。简单来说，Kylin的核心思想是预计算，即对多维分析可能用到的度量进行预计算，将计算好的结果保
存成Cube，供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询，这决定了Kylin能够拥有很好的快速查询和高并发能
力。

上图所示就是一个Cube的例子，假设我们有4个dimension，这个Cube中每个节点（称作Cuboid）都是这4个dimension
的不同组合，每个组合定义了一组分析的dimension（如group
by），measure的聚合结果就保存在这每个Cuboid上。查询时根据SQL找到对应的Cuboid，读取measure的值，即可返回。

为了更好的适应大数据环境，Kylin从数据仓库中最常用的Hive中读取源数据，使用
MapRece作为Cube构建的引擎，并把预计算结果保存在HBase中，对外暴露Rest
API/JDBC/ODBC的查询接口。因为Kylin支持标准的ANSI
SQL，所以可以和常用分析工具（如Tableau、Excel等）进行无缝对接。下面是Kylin的架构图。

说到Cube的构建，Kylin提供了一个称作Layer Cubing的算法。简单来说，就是按照dimension数量从大到小的顺序，从Base
Cuboid开始，依次基于上一层Cuboid的结果进行再聚合。每一层的计算都是一个单独的Map Rece任务。如下图所示。

MapRece的计算结果最终保存到HBase中，HBase中每行记录的Rowkey由dimension组成，measure会保存在
column
family中。为了减小存储代价，这里会对dimension和measure进行编码。查询阶段，利用HBase列存储的特性就可以保证Kylin有
良好的快速响应和高并发。

有了这些预计算的结果，当收到用户的SQL请求，Kylin会对SQL做查询计划，并把本该进行的Join、Sum、Count Distinct等操作改写成Cube的查询操作。

Kylin提供了一个原生的Web界面，在这里，用户可以方便的创建和设置Cube、管控Cube构建进度，并提供SQL查询和基本的结果可视化。

根据公开数据显示，Kylin的查询性能不只是针对个别SQL，而是对上万种SQL 的平均表现，生产环境下90%ile查询能够在在3s内返回。在上个月举办的Apache Kylin

Meetup中，来自美团、京东、网络等互联网公司分享了他们的使用情况。例如，在京东云海的案例中，单个Cube最大有8个维度，最大数据条数4亿，最
大存储空间800G，30个Cube共占存储空间4T左右。查询性能上，当QPS在50左右，所有查询平均在200ms以内，当QPS在200左右，平均
响应时间在1s以内。

北京移动也在meetup上展示了Kylin在电信运营商的应用案例，从数据上看，Kylin能够在比Hive/SparkSQL在更弱的硬件配置下获得更好的查询性能。目前，有越来越多的国内外公司将Kylin作为大数据生产环境中的重要组件，如ebay、银联、网络、中国移动等。大家如果想了解更多社区的案例和动态，可以登录Apache Kylin官网或Kyligence博客进行查看。

3.Kylin的最新特性

Kylin的最新版本1.5.x引入了不少让人期待的新功能，可扩展架构将Kylin的三大依赖（数据源、Cube引擎、存储引
擎）彻底解耦。Kylin将不再直接依赖于Hadoop/HBase/Hive，而是把Kylin作为一个可扩展的平台暴露抽象接口，具体的实现以插件的
方式指定所用的数据源、引擎和存储。

开发者和用户可以通过定制开发，将Kylin接入除Hadoop/HBase/Hive以外的大数据系统，比如用Kafka代替Hive作数据源，用
Spark代替MapRece做计算引擎，用Cassandra代替HBase做存储，都将变得更为简单。这也保证了Kylin可以随平台技术一起演
进，紧跟技术潮流。

在Kylin
1.5.x中还对HBase存储结构进行了调整，将大的Cuboid分片存储，将线性扫描改良为并行扫描。基于上万查询进行了测试对比结果显示，分片的存
储结构能够极大提速原本较慢的查询5-10倍，但对原本较快的查询提速不明显，综合起来平均提速为2倍左右。

除此之外，1.5.x还引入了Fast
cubing算法，利用Mapper端计算先完成大部分聚合，再将聚合后的结果交给Recer，从而降低对网络瓶颈的压力。对500多个Cube任务
的实验显示，引入Fast cubing后，总体的Cube构建任务提速1.5倍。

目前，社区正在着手准备Apache Kylin 1.5.2版本的发布，目前正处于Apache Mailing list投票阶段，预计将会在本周在Kylin官网发布正式下载。

在本次的1.5.2版本中，Kylin带来了总计
36个缺陷修复、33个功能改进、6个新功能。一些主要的功能改进包括对HyperLogLog计算效率的提升、在Cube构建时对Convert
data to hfile步骤的提速、UI上对功能提示的体验优化、支持hive view作为lookup表等等。

另一个新消息是Kylin将支持MapR和CDH的Hadoop发行版，具体信息可见KYLIN-1515和KYLIN-1672。相应的测试版本是MapR5.1和CDH5.7。

UI上提供了一个重要更新，即允许用户在Cube级别进行自定义配置，以覆盖kylin.properties中的全局配置。如在cube中定义kylin.hbase.region.count.max 可以设置该cube在hbase中region切分的最大数量。

另
一个重要的功能是Diagnosis。用户经常会遇到一些棘手的问题，例如Cube构建任务失败、SQL查询失败，或Cube构建时间过长、SQL查询时
间过长等。但由于运维人员对Kylin系统了解不深，很难快速定位到root cause所在地。我们在mailing
list里也经常看到很多用户求助，由于不能提供足够充分的信息，社区也很难给出一针见血的建议。

当用户遇到查询、Cube/Model管理的问题，单击System页面的Diagnosis按钮，系统会自动抓取当前Project相关的信息并打包成
zip文件下载到用户本地。这个包会包含相关的Metadata、日志、HBase配置等。当用户需要在mailing
list求助，也可以附上这个包。

④ 如何使用OpenStack，Docker和Spark打造一个云服务

IBM中国研究院高级研究员陈冠诚主要从事Big Data on Cloud，大数据系统性能分析与优化方面的技术研发。负责和参与过SuperVessel超能云的大数据服务开发，Hadoop软硬件协同优化，MapRece性能分析与调优工具，高性能FPGA加速器在大数据平台上应用等项目。在Supercomputing（SC），IEEE BigData等国际顶级会议和期刊上发表过多篇大数据数据处理技术相关的论文，并拥有八项大数据领域的技术专利。曾在《程序员》杂志分享过多篇分布式计算，大数据处理技术等方面的技术文章。以下为媒体针对陈冠诚的专访：

问：首先请介绍下您自己，以及您在Spark 技术方面所做的工作。

陈冠诚：我是IBM中国研究院的高级研究员，大数据云方向的技术负责人。我们围绕亮罩Spark主要做两方面的事情：第一，在IBM研究院的SuperVessel公有云上开发和运维Spark as a Service大数据服务。第二，在OpenPOWER架构的服务器上做Spark的性能分析与优化。

问：您所在的企业是如何使用Spark 技术的？带来了哪些好处？

陈冠诚：Spark作为新一代的大数据处理引擎主要带来了两方面好处：

相比于MapRece在性能上得到了很大提升。

在一个统一的平台上将批处理、SQL、流计州纯算、图计算、机器学习算法等多种范式集中在一起，使混合计算变得更加的容易。

问：您认为Spark 技术最适用于哪些应用场景？

陈冠诚：大规模机器学习、图计算、SQL等类型数据分析业务是非常适合使用Spark的。当然，在企业的技术选型过程中，并不是说因为Spark很火就一定要使用它。例如还有很多公司在用Impala做数据分析，一些公司在用Storm和Samaza做流计算，具体的技术选型应该根据自己的业务场景，人员技能等多方面因素来做综合考量。

问：企业在应用Spark 技术时，需要做哪些改变吗？企业如果想快速应用Spark 应该如何去做？

陈冠诚：企业想要拥抱Spark技术，首先需要技术人员改变。是否有给力的Spark人才会是企业能否成功应用Spark最重要的因素。多参与Spark社区的讨论，参加Spark Meetup，给upstrEAM贡献代码都是很好的切入方式。如果个人开发者想快速上手Spark，可以考虑使用SuperVessel免费的Spark公有云服务，它能快速创建一个Spark集群供大家使用。

问：您所在的企业在应用Spark 技术时遇到了哪些问题？是如何解决的？

陈冠诚：我们在对Spark进行性能调优时遇到很多问题。例如JVM GC的性能瓶颈、序列化反序列化的开销、多进程好还是多线程好等等。在遇到这些问题的时候，最好的方法是做好Profiling，准确找到性能瓶颈，再去调整相关的参数去优化这些性能瓶颈。

另一方面，我们发现如果将Spark部署在云环境里（例如OpenStack管理的Docker Container）时，它的性能特征和在物理机上部署又会有很大的不同，目前我们还在继续这方面的工作，希望以后能有机会跟大家继续分享。册键咐

问：作为当前流行的大数据处理技术，您认为Spark 还有哪些方面需要改进？

陈冠诚：在与OpenStack这样的云操作系统的集成上，Spark还是有很多工作可以做的。例如与Docker Container更好的集成，对Swift对象存储的性能优化等等。

问：您在本次演讲中将分享哪些话题？

陈冠诚：我将分享的话题是“基于OpenStack、Docker和Spark打造SuperVessel大数据公有云”：

随着Spark在2014年的蓬勃发展，Spark as a Service大数据服务正成为OpenStack生态系统中的新热点。另一方面，Docker Container因为在提升云的资源利用率和生产效率方面的优势而备受瞩目。在IBM中国研究院为高校和技术爱好者打造的SuperVessel公有云中，我们使用OpenStack、Docker和Spark三项开源技术，在OpenPOWER服务器上打造了一个大数据公有云服务。本次演讲我们会向大家介绍如何一步一步使用Spark、Docker和OpenStack打造一个大数据公有云，并分享我们在开发过程中遇到的问题和经验教训。

问：哪些听众最应该了解这些话题？您所分享的主题可以帮助听众解决哪些问题？

陈冠诚：对如何构造一个大数据云感兴趣的同学应该会对这个话题感兴趣，开发SuperVessel的Spark as a Service服务过程中我们所做的技术选型、架构设计以及解决的问题应该能对大家有所帮助。

⑤ 如何使用OpenStack，Docker和Spark打造一个云服务

IBM中国研究院高级研究员陈冠诚主要从事Big Data on Cloud，大数据系统性能分析与优化方面的技术研发。负责和参与过SuperVessel超能云的大数据服务开发，Hadoop软硬件协同优化，MapRece性能分析与调优工具，高性能FPGA加速器在大数据平台上应用等项目。在Supercomputing（SC），IEEE BigData等国际顶级会议和期刊上发表过多篇大数据数据处理技术相关的论文，并拥有八项大数据领域的技术专利。曾在《程序员》杂志分享过多篇分布式计算，大数据处理技术等方面的技术文章。以下为媒体针对陈冠诚的专访：

问：首先请介绍下您自己，以及您在Spark 技术方面所做的工作。

陈冠诚：我是IBM中国研究院的高级研究员，大数据云方向的技术负责人。我们围绕Spark主要做两方面的事情：第一，在IBM研究院的SuperVessel公有云上开发和运维Spark as a Service大数据服务。第二，在OpenPOWER架构的服务器上做Spark的性能分析与优化。

问：您所在的企业是如何使用Spark 技术的？带来了哪些好处？

陈冠诚：Spark作为新一代的大数据处理引擎主要带来了两方面好处：

相比于MapRece在性能上得到了很大提升。

在一个统一的平台上将批处理、SQL、流计算、图计算、机器学习算法等多种范式集中在一起，使混合计算变得更加的容易。

问：您认为Spark 技术最适用于哪些应用场景？

陈冠诚：大规模机器学习、图计算、SQL等类型数据分析业务是非常袭嫌适合使用Spark的。当然，在企业的技术选型过程中，并不是说因为Spark很火就一定要使用它。例如还有很多公司在用Impala做数据分析，一些公司在用Storm和Samaza做流计算，具体的技术选型应该根据自己的业务场景，人员技能等多方面因素来做综合考量。

问：企业在应用Spark 技术时，需要做哪些改变吗？企业如果想快速应用Spark 应该如何去做？

陈冠诚：企业想要拥抱Spark技术，首先需要技术人员改变。是否有给力的Spark人才会是企业能否成功应用Spark最重要的因素。多参与Spark社区的讨论，参加Spark Meetup，给upstrEAM贡献代码都是很好的切入方式。如果个人开发者想快速上手Spark，可以考虑使用SuperVessel免费的Spark公有云服务，它能快速创建一个Spark集群供大家使用。

问：您所在的企业在应用Spark 技术时遇到了哪些问题？是如何解决的？

陈冠诚：我们在对Spark进行性能调优时遇到很多问题。例如JVM GC的性能瓶颈、序列化反序列化的开销、多进程好还是多线程好等等。在遇到这些问题的时候，最好的方法是做好Profiling，准确找到性能瓶颈，再去调整相关的参数去优化这些性能瓶颈。

另野禅山一方面，我们发现如果将Spark部署在云环境里（例如OpenStack管理的Docker Container）时，它的性能特征和在物理机上部署又会有很大的不同，目前我们还在继续这方面的工作，希望以后能有机会颂中跟大家继续分享。

问：作为当前流行的大数据处理技术，您认为Spark 还有哪些方面需要改进？

陈冠诚：在与OpenStack这样的云操作系统的集成上，Spark还是有很多工作可以做的。例如与Docker Container更好的集成，对Swift对象存储的性能优化等等。

问：您在本次演讲中将分享哪些话题？

陈冠诚：我将分享的话题是“基于OpenStack、Docker和Spark打造SuperVessel大数据公有云”：

随着Spark在2014年的蓬勃发展，Spark as a Service大数据服务正成为OpenStack生态系统中的新热点。另一方面，Docker Container因为在提升云的资源利用率和生产效率方面的优势而备受瞩目。在IBM中国研究院为高校和技术爱好者打造的SuperVessel公有云中，我们使用OpenStack、Docker和Spark三项开源技术，在OpenPOWER服务器上打造了一个大数据公有云服务。本次演讲我们会向大家介绍如何一步一步使用Spark、Docker和OpenStack打造一个大数据公有云，并分享我们在开发过程中遇到的问题和经验教训。

问：哪些听众最应该了解这些话题？您所分享的主题可以帮助听众解决哪些问题？

陈冠诚：对如何构造一个大数据云感兴趣的同学应该会对这个话题感兴趣，开发SuperVessel的Spark as a Service服务过程中我们所做的技术选型、架构设计以及解决的问题应该能对大家有所帮助。（来源：CSDN）

⑥ Docker生态会重蹈Hadoop的覆辙吗

一、Docker的兴起和Hadoop何其相似
2015年说是Docker之年不为过，Docker热度高涨，IT从业人员要是说自己不知道Docker都不好意说自己是做IT的。2016年开始容器管理、集群调度成为热点，K8s开始成为热点。但这一幕和2013年的Hadoop大数据何其相似，当年你要说自己不知道大数据，或是知道大数据不知道Hadoop，那必然招来鄙视的眼光。
云计算喊了这么久，从来没有像Docker这么火过，究其原因不外乎两条：
1、开发者能够用Docker，开发者要一个开发环境，总会涉及到种种资源，比如数据库，比如消息中间件，去装这些东西不是开发人员的技能，是运维人员的技能。而用Docker去Pull一个mySQL镜像,或是Tomcat镜像，或是RabbitMQ镜像，简易轻松，几乎是零运维。做好了应用代码，打一个Docker镜像给测试或是运维人员，避免了从前打个程序包给测试或是运维人员，测试或运维人员要部署、配置应用，还得反反复复来麻烦开发人员，现在好了，丢个Docker镜像过去，让运维人员跑镜像就可以，配置在镜像里基本都做好了。
这正好满足了DevOps的要求，所以DevOps也一下热起来了。开发者是一个巨大的市场，是海量的个体，通过类似于病毒式的传销，Docker一下在开发者中热起来了。
2、镜像仓库和开源，谁都可以用，Docker镜像库非常丰富，谁做好一个镜像都可以往公有仓库推送，开发人员需要一个环境的时候，可以到Docker镜像仓库去查，有海量的选择，减少了大量无谓的环境安装工作。而通过开源，又开始大规模传播。
我们再来回顾看看2010-2013年，大数据的名词火遍大江南北，各行各业都在谈大数据，但是落到技术上就是Hadoop，还记得2012年的时候，和Hadoop没啥毛关系的VMWare也赶紧的做了一个虚机上部署Hadoop的serengeti，谁家产品要是和Hadoop不沾点边，不好意思说自己是IT公司。Hadoop当年的热度绝对不亚于2014-2015的Docker。而且时间上有一定的连续性，2014年开始，Hadoop热度达到顶点，开始逐渐降温，标志事件就是Intel投资Cloudera。而Docker是从2014年开始热度升高的。
再看Hadoop为何在2010年前后开始热起来，之前的大数据都是数据仓库，是昂贵的企业级数据分析并行数据库，而Hadoop是廉价的大数据处理模式，通过开源和X86廉价硬件，使得Hadoop可以大规模使用，而互联网时代产生的海量数据虽然垃圾居多，但是沙里淘金，也能淘出点价值，Hadoop正好迎合了这两个需求，虽然Hadoop的无论是功能还是性能远比MPP数据库差，但做简单的数据存储、数据查询、简单数据统计分析还是可以胜任的，事实上，到目前为止，大多数的Hadoop应用也就是数据存储、数据查询和简单的数据统计分析、ETL的业务处理。
Docker和Hadoop的热起来的原因不同，但是现象是差不多，开源和使用者群体大是共同要素。
二、Hadoop从狂热走向了理性
Hadoop最热的时候，几乎就是要replace所有数据库，连Oracle也面临了前所未有的冲击，甚至Hadoop成了去IOE的Oracle的使命之一。在狂热的那个阶段，客户怎么也得做一两个大数据项目，否则会被同行瞧不起，各IT厂商也必须推出大数据产品，否则可能成为IT过时的典范，这不IBM成立了专门的大数据部门，打造了一个以Hadoop为核心的庞大的大数据解决方案。
Intel虽然是做芯片的，但是大数据必须掺和，成立大数据部门，做Intel Hadoop 。连数据库的老大Oracle也憋不住了，做了个大数据一体机。
任何曾经狂热的新技术都会走向理性，Hadoop也不例外，只不过，这个进程还比较快。随着大数据的大跃进，随着Hadoop的应用越来越多，大家发现在被夸大的场景应用大数据效果并不好，只在特定场景有效，Hadoop进入理性发展阶段，比如一开始Hadoop据取代MPP数据库，取代数据仓库，取代Oracle，完美支持SQL等等均基本成为泡影。这其实本来是一个常识，任何技术都有其应用场景，夸大应用场景，任意扩展应用场景只会伤害这个技术的发展。
“这和目前无限夸大Docker的应用场景有异曲同工之妙，比如Docker向下取代虚拟化，Docker向上取代PaaS之类，几乎成了云计算的唯一技术，这种论调一直充斥各种Meetup/论坛。虽然技术从夸大到理性需要时间，但是理性不会总是迟到。
Hadoop技术在发展，大数据的相关技术也在发展，Hadoop一直被诟病的处理速度慢，慢慢的被Spark/Storm等解决，特别在流数据处理领域。
所以，时至今日，人们对Hadoop的态度趋于理性，它只适合在特定场景使用，可是，当初那些在Hadoop不太适用的场景使用了Hadoop的客户交了学费的事情估计没人再提了。Docker估计也是一样的，总有在夸大的场景中交学费的客户，可是只是客户没眼光吗?和无限夸大某种技术的布道师无关么?
再反观大数据和Docker在全球的发展，在美国，无论是Hadoop和Docker并没有像国内这么狂热过。Hadoop技术来源于Google，成型于Yahoo(DougCutting)，而炒作却是在国内。同样，Docker也在走这么个流程，在美国没有这么多的Docker创业公司，主要就是Docker，然后各大厂商支持，创业公司和创投公司都知道，没有自己的技术或是技术受制于人的公司不值得投资，既然Docker一家独大，再去Docker分一杯羹会容易吗?
而国内二三十家的Docker创业公司，没有一家能对Docker/K8s源码有让人醒目的贡献(反倒是华为在K8s上有些贡献)，但是都在市场上拼嗓门，不是比谁的技术有潜力最有市场，而是比谁最能布道谁嗓门大，谁做的市场活动多，某Docker创业公司据说80%的资金用在市场宣传、Meetup上，而且不是个别现象，是普遍现象。反应了某些Docker创业者的浮躁心态。

导航:首页 > 网络数据 > meetup南京大数据

meetup南京大数据

与meetup南京大数据相关的资料

友情链接