A. 中国大数据六大技术变迁记
中国大数据六大技术变迁记_数据分析师考试
集“Hadoop中国云计算大会”与“CSDN大数据技术大会”精华之大成, 历届的中国大数据技术大会(BDTC) 已发展成为国内事实上的行业顶尖技术盛会。从2008年的60人Hadoop沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,每一届的中国大数据技术大会都忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验,见证了整个大数据生态圈技术的发展与演变。
2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会协办,中科院计算所与CSDN共同承办的 2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办,CCF大数据专家委员会承办,南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开,并与技术大会共享主题报告。
本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势,OpenStack生态系统对于大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用,分享实际生产系统中的技术特色和实践经验。
大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望:
追本溯源,悉大数据六大技术变迁
伴随着大数据技术大会的发展,我们亲历了中国大数据技术与应用时代的到来,也见证了整个大数据生态圈技术的发展与衍变:
1. 计算资源的分布化——从网格计算到云计算。 回顾历届BDTC大会,我们不难发现,自2009年,资源的组织和调度方式已逐渐从跨域分布的网格计算向本地分布的云计算转变。而时至今日,云计算已成为大数据资源保障的不二平台。
2. 数据存储变更——HDFS、NoSQL应运而生。 随着数据格式越来越多样化,传统关系型存储已然无法满足新时代的应用程序需求,HDFS、NoSQL等新技术应运而生,并成为当下许多大型应用架构不可或缺的一环,也带动了定制计算机/服务器的发展,同时也成为大数据生态圈中最热门的技术之一。
3. 计算模式改变——Hadoop计算框成主流。 为了更好和更廉价地支撑其搜索服务,Google创建了Map/Rece和GFS。而在Google论文的启发下,原雅虎工程师Doug Cutting开创了与高性能计算模式迥异的,计算向数据靠拢的Hadoop软件生态系统。Hadoop天生高贵,时至今日已成为Apache基金会最“Hot”的开源项目,更被公认为大数据处理的事实标准。Hadoop以低廉的成本在分布式环境下提供了海量数据的处理能力。因此,Hadoop技术研讨与实践分享也一直是历届中国大数据技术大会最亮眼的特色之一。
4. 流计算技术引入——满足应用的低延迟数据处理需求。 随着业务需求扩展,大数据逐渐走出离线批处理的范畴,Storm、Kafka等将实时性、扩展性、容错性和灵活性发挥得淋漓尽致的流处理框架,使得旧有消息中间件技术得以重生。成为历届BDTC上一道亮丽的风景线。
5. 内存计算初露端倪——新贵Spark敢与老将叫板。 Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,从多迭代批量处理出发,兼容并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。在短短4年,Spark已发展为Apache软件基金会的顶级项目,拥有30个Committers,其用户更包括IBM、Amazon、Yahoo!、Sohu、网络、阿里、腾讯等多家知名公司,还包括了Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。毫无疑问,Spark已站稳脚跟。
6. 关系数据库技术进化—NewSQL改写数据库历史。 关系数据库系统的研发并没有停下脚步,在横向扩展、高可用和高性能方面也在不断进步。实际应用对面向联机分析处理(OLAP)的MPP(Massively Parallel Processing)数据库的需求最迫切,包括MPP数据库学习和采用大数据领域的新技术,如多副本技术、列存储技术等。而面向联机事务处理(OLTP)的数据库则向着高性能演进,其目标是高吞吐率、低延迟,技术发展趋势包括全内存化、无锁化等。
立足扬帆,看2014大数据生态圈发展
时光荏苒,转眼间第2014中国大数据技术大会将如期举行。在技术日新月异的当下,2014年的BDTC上又可以洞察些什么?这里我们不妨着眼当下技术发展趋势:
1. MapRece已成颓势,YARN/Tez是否可以再创辉煌? 对于Hadoop来说,2014是欢欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等众多巨头都加大了Hadoop方面的投入。然而对于众多机构来说,这一年却并不轻松:基于MapRece的实时性短板以及机构对更通用大数据处理平台的需求,Hadoop 2.0转型已势在必行。那么,在转型中,机构究竟会遭遇什么样的挑战?各个机构如何才能更好地利用YARN所带来的新特性?Hadoop未来的发展又会有什么重大变化?为此,BDTC 2014特邀请了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成员Uma Maheswara Rao G,Apache Hadoop committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等国际顶尖Hadoop专家,我们不妨当面探讨。
2. 时过境迁,Storm、Kafka等流计算框架前途未卜。 如果说MapRece的缓慢给众多流计算框架带来了可乘之机,那么当Hadoop生态圈组件越发成熟,Spark更加易用,迎接这些流计算框架的又是什么?这里我们不妨根据BDTC 2014近百场的实践分享进行一个侧面的了解,亦或是与专家们当面交流。
3. Spark,是颠覆还是补充? 与Hadoop生态圈的兼容,让Spark的发展日新月异。然而根据近日Sort Benchmark公布的排序结果,在海量(100TB)离线数据排序上,对比上届冠军Hadoop,Spark以不到十分之一的机器,只使用三分之一的时间就完成了同样数据量的排序。毫无疑问,当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Shark,开启Spark SQL或许已经初见端倪。那么,当Spark愈加成熟,更加原生的支持离线计算后,开源大数据标准处理平台这个荣誉又将花落谁家?这里我们一起期待。
4. 基础设施层,用什么来提升我们的网络? 时至今日,网络已成为众多大数据处理平台的攻坚对象。比如,为了克服网络瓶颈,Spark使用新的基于Netty的网络模块取代了原有的NIO网络模块,从而提高了对网络带宽的利用。那么,在基础设施层我们又该如何克服网络这个瓶颈?直接使用更高效的网络设备,比如Infiniband能够带来多少性能提升?建立一个更智能网络,通过计算的每个阶段,自适应来调整拆分/合并阶段中的数据传输要求,不仅提高了速度,也提高了利用率。在BDTC 2014上,我们可以从Infiniband/RDMA技术及应用演讲,以及数场SDN实战上吸取宝贵的经验。
5. 数据挖掘的灵魂——机器学习。 近年来,机器学习领域的人才抢夺已进入白热化,类似Google、IBM、微软、网络、阿里、腾讯对机器学习领域的投入也是愈来愈高,囊括了芯片设计、系统结构(异构计算)、软件系统、模型算法和深度应用各个方面。大数据标志一个新时代的到来,PB数据让人们坐拥金山,然而缺少了智能算法,机器学习这个灵魂,价值的提取无疑变得镜花水月。而在本届会议上,我们同样为大家准备了数场机器学习相关分享,静候诸位参与。
而在技术分享之外,2014年第二届CCF大数据学术会议也将同时召开,并与技术大会共享主题报告。届时,我们同样可以斩获许多来自学术领域的最新科研成果。
以上是小编为大家分享的关于中国大数据六大技术变迁记的相关内容,更多信息可以关注环球青藤分享更多干货
B. ccfbdci是什么
ccfbdci是CCF大数据与计算智能大赛(CCF Computing Inelligence Contest,举型散简称CCF BDCI)。是由中国计算机学会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事,是全球大数据与人工智能领域最具影响力的活动之一。中国计算机学会(CCF)是由从事计算机及相关租山科学技术领域的科研、教育、开发、生产、管理、应用和服务的个人及单位自愿结成、依法登记成立的全国性正氏、学术性、非营利学术团体,是全国一级学会,是独立社团法人,是中国科学技术协会成员。
C. 国内外有哪些数据分析相关的竞赛比赛网站
国外:
1、Kaggle
Kaggle: Your Home for Data Science
国内:
1、阿里的天池
天池大数据科研平台
2、SODA
SODA上海开放数据创新应用大赛
3、数据城堡
首页-DataCastle大数据竞赛平台
4、WID
WID,CCF唯一指定大数据竞赛平台
5、数据嗨客
数据嗨客 全球首家大数据教育、竞赛、服务平台
6、数据火车
数据火车—数据竞赛平台
7、大数据研究中心
大数据研究中心
8、华为云科技大赛
https://developer.huaweicloud.com/competition/competitions
9、亿信社区大数据模板比赛
http://bbs.esensoft.com/thread-132647-1-1.html
D. 中国人民大学举办数据科学与工程学术报告会
中国人民大学重点实验室举办数据科学与工程学术报告会,此次报告会的目的是为了更好地了解工业界的实际需求以及平台的使用情况,加强同行之间的学术交流,促进中国人民大学计算机学科的发展,来自滴滴大数据与数据挖掘研究院的李佩博士、苏州大学的李直旭副教授、刘冠峰副教授和刘安副教授四位青年学者受邀作报告。
中国人民大学信息学院下设经济信息管理系、计算机科学与技术系、数学系,以及数据工程与知识工程研究所、管理科学与工程研究所,其中数据工程与知识工程研究所是教育部重点实验室。
李佩博士结合过去自己在LinkedIN公司的工作经验,给我们介绍了LinkedIN公司的大数据誉罩系统PYMK及其相关的生态系统。同时,也对当前流行的大数据处理平台Hadoop、Spark及各自的生态圈作了一个系统的介绍。此外,他还介绍了滴滴出行在大数据技术面临的机遇与挑战。最后,李佩博士结合自己在英属哥伦比亚大学的读博经历,向在校生推荐了大数据与机器学习领域必读的经典教材,并对他们未来的择业提出了一些中肯的建议。
李直旭副教授报告的题目是“借助Web大数据来处理数据质量问题”。李直旭副教授从六个维度( 错误数据、不一致性、丢失数据、过时数据、不适用、不确定性)介绍了数据质量问题普遍存在的一个基本事实,并简要地综述了围绕每一个维度处理数据质量问题的相关工作。结合其近年来的相关工作,以关系数据为依托,李直旭副教授分别介绍了如何借助Web中的大数据来进行记录连接(record linkage)和记录的补全工作。
刘冠峰副教授报告的题目是“社交网络与信任”。刘冠峰副教授首先介绍了社交网络及基于让芹社交网络的各类应用,并着重指出社交网络中参与人之间的信任关系是整个社交网络各类应用的基础。基于此前提,刘冠峰副教授对其发表在ICDE‘2015(数据库A类会议)上就如何快速有效地挖掘出符合参与人之间预设信任关系的方法进行了详细的阐述。
刘安副教授系统地介绍了加密轨迹数据上的相似性计算问题。除了阐述了加密轨迹数据上的相似性计算面临的挑战,其还详细地介绍了如何通过重写三个操作符(欧氏距离计算、最大最小选择、条件执行),来实现加密轨迹数据上的相似性计算,并从理论上证明了该方法的安全性和可靠性。
以最近开源的大数据处理系统Greenplum为背景,Greenplum系统开发团队的刘奎恩博士即兴分享了其在大数据时代进行数据库开源的背景与意义。
除了在校师生,中国人民大学举办的本次报告还吸引了来自工业界和学术界(包括CCF大数据协会、中科院、EMC/Pivotal公司、网络、先锋创投等)的相关人士近50人前来参会,大家提问踊跃,本次报告得到圆满的成功。
李佩博士:2010年硕士毕业于中国人民大学信息学院数据库与智能信息检索实验室,2014年底博士毕业于英属哥伦比亚大学计算机系数据管理与挖掘实验室。2013年6月到8月以及2015年初到9月,工作于美国加州山景城LinkedIn公司SNA(搜索、网络与分析)部门,担任关系推荐系统工程师,在大数据管理与挖掘第一线从事研发工作。2015年10月至今,在滴滴出行研究院负责数据挖掘项目。在知名国际期刊和学术庆滑闹会议上(包括KDD、ICDE等A类国际会议)发表论文近20篇,是数据挖掘知名会议SDM’10的最佳论文获得者。
李直旭副教授:2002-2009年就读于中国人民大学信息学院攻读计算机学士和相关证书。2013年毕业于澳大利亚昆士兰大学获计算机科学博士学位。2013-2014年就职于沙特阿卜杜拉国王科技大学(KAUST)做博士后研究员,并于2014年入职苏州大学计算机科学与技术学院。目前主要从事数据质量,大数据应用,数据挖掘与信息抽取等领域的研究工作。曾参与国内外多项科研基金项目的研发工作。在IEEE TKDE, EDBT, CIKM, WWWJ等顶级国际期刊与知名国际会议上发表论文30余篇。
刘冠峰副教授:2013年毕业于澳大利亚 Macquarie 大学,获得计算机博士学位。 博士论文获得当年澳大利亚最佳博士论文提名。2013年1月至2013年8月就职于Macquarie 大学 (Research Fellow) 和 悉尼科技大学 (Visiting Research Fellow),并于2013年9月入职苏州大学。目前主要从事可信计算、社交网络信息挖掘、图数据库等领域的研究工作。曾参与多项澳洲科研基金项目研究。在ICDE、AAAI、TSC、FGCS、WWWJ、ICWS,等重要国际期刊与知名国际会议上发表论文20余篇。
刘安副教授:2009年获得中国科学技术大学和香港城市大学联合培养博士学位,2009年至2013年在香港城大-中国科大联合高等研究中心担任Senior Research Associate,2013年底加入苏州大学。研究方向主要集中在数据管理与分析方面,包括时空数据库,数据安全与隐私,云计算与服务计算等。在国际期刊和学术会议上(包括IEEE Trans., CCF推荐的A/B类国际会议)发表论文50多篇。
考研政策不清晰?同等学力在职申硕有困惑?院校专业不好选?点击底部官网,有专业老师为你答疑解惑,211/985名校研究生硕士/博士开放网申报名中:https://www.87dh.com/yjs2/
E. ccf是什么意思
中国计算机学会(China Computer Federation,CCF)成立于1978年,是中国科技界最具权威和影响力的学术组织之一。它是由国内外计算机领域的专家、学者、企业及科研机构自愿组成的非营利性社会团体。
中国计算机学会目前有40多个分支机构和专业委员会,覆盖了计算机科学和技术的各个领域,包括计算机体系结构、软件工程、数据库、网络与通信、人工智能、计算机图形学与多媒体等。它每年都会举办多场国际、国内知名的学术会议和研讨会,如中国计算机大会(China Computer Conference,蚂游简称CCC)
F. 数据科学平台有哪些
1. kaggle
一个比较权威的全球性的数据竞赛平台,也是一个很好的技术和数据分享社区。可以找到各个领域的比赛和数据,最重要的是可以找到很多有用的经验贴和一个开源的代码,可以帮助小白前进,小编做个几个比赛,该平台对我的帮助很大,学到很多东西。该平台的比赛工作面试时认可度比较大。链接:https://www.kaggle.com
2.天池
天池是阿里云创建的数据竞赛平台,它和 Kaggle 很像。各个领域的比赛都有,赛制持续时间较长,会有一些直播教程和专业课程,比较利于新手入门。链接:https://tianchi.aliyun.com/competition/gameList/activeList
3.DataCastle
平台上多为企业的或者政府的比赛,包含数据算法各个方向,数据量方面相对天池较少,参赛人数也次之。平台上也有类似kaggle的名人堂和和数据集,平台的社区活跃度不高。链接:https://www.dcjingsai.com/common/cmptIndex.html
4.Datafountain
DataFountain(DF)平台是CCF大数据与计算智能大赛指定的平台。CCF大数据与计算智能大赛(BigData & Computing Intelligence Contest,简称“BDCI”)是由中国计算机学会主办的大数据及人工智能领域算法挑战及应用创新大型赛事。链接:https://www.datafountain.cn
5.科赛-Kesci
科赛(Kesci.com)是聚合数据人才和行业问题的在线社区。平台2019年初开始转型,接的比赛项目奖金较高,一些大型比赛会有一些培训指南。链接:https://www.kesci.com
6.biendata
Biendata.com是一个人工智能竞赛学习平台,用户可通过该平台报名并参加人工智能领域各类赛事,奖金较丰富。链接:https://biendata.com
7.华为云
华为云平台的比赛多是基于华为的业务,有的是直接面向校招,比赛项目较多,包含软件、AI、芯片等,奖金较多,有免费的gpu算力。链接:https://competition.huaweicloud.com/competitions
7.其它平台
网络点石:http://dianshi.bce..com/competition
JDATA:https://jdata.jd.com
京东大赛 : https://jdder.jd.com
腾讯广告算法大赛:https://algo.qq.com
爱奇艺ai竞赛平台(多为视频比赛) : http://challenge.ai.iqiyi.com
图灵联邦: https://www.turingtopia.com/competitionnew
讯飞开放平台:http://challenge.xfyun.cn
Flyai:https://www.flyai.com
蚂蚁金服:https://dc.cloud.alipay.com
TinyMind: https://www.tinymind.cn/competitions/ai
拍拍贷:https://ai.ppdai.com
睡前Futurelab(只针对在校生):https://ai.futurelab.tv/contest/all
国外医学图像相关:https://grand-challenge.org/challenges
数睿思:http://www.tipdm.org/bdrace/jingsa
数愿:http://www.datadreams.org/#/raceList
G. ccfbigdata难中吗
难中。ccfbigdata难中,大数据已经成为国家战略,也是多学科交叉融合的纽带。中国计算机学会大数据学术会议CCF Bigdata 以加强大数据领域国内外研究学者之间的合作交流,促进我国多学科交叉融合与大数据产业发展为宗旨,已经发展成为国内最有影响的大数据学术会议。
H. ccf是什么
CCF:中国计算机学会抄
中国计算机学会,英文全称为China Computer Federation,简称CCF,成立于1962年,是中国计算机科学与技术领域群众性学术团体,属一级学会,独立法人单位,是中国科学技术协会的成员。