① 作为一个应届生程序员,我是怎么通过阿里的三轮面试的
首先,自我介绍。
我:“我做过两个项目。写过几篇论文和专利。还参加过阿里巴巴大数据竞赛。同时,出于个人兴趣,我还阅读了一下HDFS的少部分源码,理解了一下HDFS的核心思想,实现了一个功能非常简单,并且还不完善的HDFS。”
面试官1:“说一说你写的论文中的某一篇的创新点?”
我:“我写的文章或者专利,主要遵循一个原则:将已有的理论或者模型应用到新的场景中。所以,都是偏向应用的。重点说说这篇论文吧。首先,从奇异值分解说起吧……”
大概讲了几分钟后,面试官1打断我:“你做的这些东西都偏向数据挖掘方向,为什么没有投数据挖掘呢?”
我:“因为,按照我的理解,数据挖掘这个岗位需要对机器学习算法有深入研究,然而,我做的偏向于对数据挖掘算法的应用。所以,我想投研发,偏向数据挖掘和分布式方向,从基础做起。”
面试官1:“其实,你的优势是做过数据挖掘。这样吧,我先找一个数据研发的面试官对你进行一下面试。等会儿,你再来我这。”
虽然自己也系统地学习过机器学习算法,但是接触时间太短(几个月),研究不够深入,只在比赛中用过少数几种算法:LR、RF和GBRT。自己的优势在于对数据的理解和特征的提取,以及算法的应用。
而算法推导过程并不清楚,只是理解了其思想。我怕被问得太细致,所以不是很情愿。不过,在面试官1的坚持下,最终还是同意了。
看到第二个面试官的牌子上写着“数据研发”,我稍微舒了口气;幸好不是“数据挖掘”。
今年,“数据研发”岗位招人挺多的,很多都是去小微金服。面试完之后,我觉得“数据研发”的岗位要求是这样子的:
熟练掌握基本的SQL语句;因为有一道笔试题目。我觉得阿里应该用自己的ODPS-SQL(类似于Hive)进行数据研发,虽然这个平台挺复杂的,但是面试的时候的要求并不高。只要掌握基本的内建函数和SQL语句就行了:select, group by…
我在比赛过程中,写过几万行SQL代码(去重之后几千行),没有用到过索引和视图;经常用到内建函数,偶尔使用UDF(用户自定义函数)。但是,写的代码不包含索引、视图和UDF。也没有考优化(其实我也不懂)。
有数据研发方面的相关经历,面试官似乎很注重这一项。我参加过阿里巴巴大数据竞赛。
对数据研发有一些自己的看法。这个很关键,一定要思路清晰。我主要在讲比赛中的模型:数据的预处理->训练集、预测集->特征提取->进一步处理->正负样本比例->训练->预测。
当然会用写MapRece的话就过更好了。阿里的平台提供了MapRece,估计工作中会用到。
然后,跟第二个技术面试官开始交流。
面试官2:“自我介绍一下吧。”
我:“刚才介绍过其他经历了。那我主要介绍下与数据研发相关的经历吧。”然后,简单说了下自己参加的阿里巴巴大数据竞赛。
面试官2:“行。先做一道题目吧。”
面试官给了我一道SQL的题目:给定一个表,共四列:user_id, brand_id, time, cnt(花的钱数)。从这个表里面选出用户B对每个品牌brand购买的总额度。
一看到,有点窃喜,这跟我竞赛做的东西太相似了。
跟面试官进行简单沟通后,很快写出来了。不过还是怕做错,检查了很久才拿给面试官2。顺便提了一下,如果需要处理字符串的话,我会用ODPS-SQL里面的UDF。面试官看了下程序,没说什么,就放到了一边。
后面,我们主要在讨论阿里巴巴大数据竞赛:我做了什么,用什么模型、算法做的,准确率是多少。(这块讨论时间最多)
还好,我主要讨论的是对业务和数据的理解,没有深入讨论数据挖掘算法。
讨论很顺利。结束之后,面试官2把我带回面试官1。
回来后,继续与面试官1主要讨论我写的论文。由于之前对自己写的论文进行过总结,思路很清晰。并谈论了写论文的体会和收获。
总之,第一面的面试官很和蔼,交谈也很开心。
再次稍微提一下:个人觉得面试官主要有两类,一类是用技术把你问死,从而判断你对技术的掌握深度。
另一类是,简单的技术问题之后,让你去表现,引导你来讲,从而看你这个人的思想、表达能力、个人观点等综合素质。
当然,一个面试官如果看到你不善于表达,就只能一直问你问题了。很荣幸,我碰到的是第二种面试官。面试跟聊天一样轻松。
最终,顺利通过。
应该是这个样子的吧 哈哈【ITjob]
② 盘点阿里旅行周年:这样用大数据颠覆行业
盘点阿里旅行周年:这样用大数据颠覆行业
日前在阿里旅行成立一周年的时候,总裁李少华刚刚发送了《写给阿里旅行的365天》的全员信。邮件指出:阿里旅行提供的是旅行行业的“水电煤”;将阿里平台上宝贵的大数据应用起来,帮助旅行商家和合作伙伴更高效的连接消费者,以用户为中心重构供需关系,以平台大数据支撑个性化服务。
这句话理解起来可能有点深奥,不过将旅游之前和旅游中用户遭遇的各种坑与阿里旅行这1年来做的事情串起来,或许就能明白他们是如何利用大数据在颠覆行业了。
先说今年微文在两次旅行前办理签证中亲身遭遇到的一些坑吧:
1、因为穷所以我很早之前就开始准备十一期间旅游的事,货比三家后在某家B2C旅游网站选择了出境游,之后按照网站工作人员的提示开始准备漫长的签证材料,好不容易经过漫长的等待资料全凑齐邮给那家B2C网站的客服,等了几天却被客服告知我提交的资料不符,而且时间也比较紧张了,他们那里没办法帮我办签证,让我自己想办法解决。我愤怒的提出退款,结果被告知酒店和机票都已经预定,没有办法做退款处理。最后我索性死马当活马医,告诉客服如果不递交材料那是他们的问题,如果递交上去使馆没出签,我自己承担责任。最后顺利拿到签证,出去玩。
2、今年8月我的在某家创业型B2C网站上续签美国签证(选择他们是因为他们自称专注于美国旅游,非常专业),结果客服一会告诉我照片不符合要求,一会告诉我缺这个少那个,可我是按照美国大使馆网上提供的资料来准备的啊,几次沟通无果,最后没办法找了他们联合创始人问题才得以解决,最终一张纸的材料我也没补交,大使馆给了10年的美签。
经过这两件事情我就在捉摸,很多时候不是大使馆不给旅游者发签证,而是你委托的商业公司在想尽办法给用户制造门槛和难题,既然互联网是以用户体验为核心竞争力的行业,那有为什么会出现在线旅行行业处处刁难客户的情况呢?
后来经过高人指点终于明白,原来很多做在线旅行的互联网公司不好判断申请签证的人是否可信赖,如果一旦出现旅客在境外逾期滞留,会非常影响这些互联网公司同使馆的信任度,最终影响到其业务,所以才导致了上述情况的出现。
那么有没有可能用大数据来解决这个难题呢?肯定有,问题是由于这些做在线旅游的互联网公司数据往往不够全面,所以大数据虽然在做,但是却不够准确,很多时候还是只能由人工来判断。那么号称数据最全的阿里有没有可能做这件事儿呢?
就在我思考这个问题的时候,发现他们已经开始做了,下面不妨先来盘点一下阿里旅行这一年的重要事件:
1、今年3月,阿里旅行推出信用住计划,芝麻信用良好的用户在阿里旅行预定信用住酒店,就可体验“零押金无担保急速退房“服务。与传统模式相比:用户在阿里旅行预订
酒店时,芝麻分达到600分即可选择信用住。先入住后付款,无需担保零押金,离店时也无需排队,只需把门卡放到前台,系统会自动从用户的支付宝账户里扣除房费。
2、随后阿里旅行发布了与芝麻信用结合的“未来酒店”战略,首间未来酒店样板店坐落在浙江杭州的学院路,不论来自什么预订渠道的用户,不管是否提前预订了酒店,在办理入住时,均可通过扫码的形式实时进行信用判定,满足芝麻信用分要求——600分即可马上开始体验信用住的便捷,不用交押金即可直接领房卡入住,退房时也不用等查房和排队付款,将房卡交给前台即可离店,房费将通过支付宝自动扣除。
3、今年6月,阿里旅行与卢森堡大公国驻上海总领事馆签署合作协议,正式将卢森堡纳入便捷在线签证目的地。当用户的芝麻信用分符合阿里旅行规定的标准,便可在阿里旅行·去啊的签证频道选择在线签证服务。传统签证一般需要5-10天,而在线签只需2-3天且不需要提供繁琐的纸质材料。在此之前,新加坡作为首个便捷在线签证目的地已经在阿里旅行签证频道正式上线。接下来,阿里旅行还会在法国、英国、韩国、日本、比利时、斯里兰卡等出境游热门目的地展开在线签证。公开数据显示,目前每分钟就有16.8个人通过阿里旅行买了签证/入台证办理服务。
4、9月22日,阿里旅行启动“未来景区”战略,游客可以先游玩再付款,免去排队买票之苦,在景区里也可以“身无分文”,全程用手机付款吃喝玩乐,更可使用手机进行景区游览导航,寻卫生间找停车场都不再发愁。深圳东部华侨城已经率先加入“未来景区”战略,黄山、乌镇、古北水镇、海昌集团在全国的8个极地海洋馆也将于近期上线。在“未来景区”游玩时,只要芝麻信用分达到600分,即可提前一天在阿里旅行客户端进行预约,预约成功后会获得一个二维码,到了景区门口可以直接扫码入园,不需再另外排队买票或换票,而门票钱会在游客刷码入园后24小时自动从支付宝账户中扣除,不需要再另外执行任何操作。
事实上,无论是信用住、未来酒店、未来景区还是在线签证,这些便捷服务背后都在于蚂蚁信用进行挂钩,而蚂蚁信用的背后则是通过大数据对用户进行筛选和再判断,通过大数据取代人工审核。此外,阿里在旅游行业投资的穷游、在路上、佰程旅行网及石基信息等公司的数据也将对阿里旅行提供支持。
最后不得不感慨一下,早知道在线旅游的B2C这么不靠谱我当时就应该选择阿里旅行。而未来一旦像我这样的小白用户开始尝试并习惯通过芝麻信用与阿里旅行挂钩的方式选择出行的时候,阿里旅行的势能也就无法撼动了。
1969年7月20日,美国宇航员阿姆斯特朗登月后说,这是我个人的一小步,但却是全人类的一大步。对于仅仅成立1年的阿里旅行而言,单一产品上的改进或许只是一小步,但是将芝麻信用、大数据与用户体验挂钩的思路确是互联网的一大进步。
以上是小编为大家分享的关于盘点阿里旅行周年:这样用大数据颠覆行业的相关内容,更多信息可以关注环球青藤分享更多干货
③ 阿里巴巴的天池大数据竞赛和datacastle大数据竞赛哪个好
直观的肯定是kaggle是一个已经成熟的数据竞赛,而DC才在国内刚刚兴起。但从一定角专度来说,如果和属国外的相比,DC也具有一定的条件了,那肯定是在DC上去做竞赛好,毕竟首要的语言方面的问题就能够克服。而且对于初次参加此类竞赛,或者想练手的同学来说,DC可以是你开始做数据分析的第一步。
-
④ 阿里巴巴如何利用大数据提高财务信息的例子
财务信息只有你们那财务去管。
⑤ 计算机竞赛有哪些
ACM国际大学生程序设计竞赛
适合有一定竞赛基础且对算法感兴趣大学生;作为计算机领域的顶尖程序设计大赛,每年上半年举行。不同于其他竞赛的个人赛,ACM 为「小组战」,由 3 名在校大学生组成小分队参加比赛。在比赛过程中,3 人组成的小组共用一台电脑,编写程序解决 8-10 个问题。由于是世界级的比赛,难度非常高,适合有一定竞赛基础的小伙伴。
⑥ 阿里的总监将大数据、数字化的经验,总结成资料干货,可以收藏
阿里把企业的数字化转型划分为“数字化重构”和“数字化增长”两大类别,这个概念是不是听着很难懂?
重构,就是转型嘛;增长,就是更进一步嘛,说白了还是原来的老样子,换了个解释而已。
说到数字化转型,我觉得这是一个非常好的话题,甚至能衍生出很多干货,无论是传统企业,还是顶尖的互联网大公司,如阿里腾讯,老板都在朝这个方向努力。
所以和大数据有关的知识,还是很有必要学习的。
我给大家整理了很多干货,我从一个10年从业者和管理者的角度,这份干货,无论是底层干活的,中层管控的,上层布局的,都能够很清楚的学习到。
涉及到的方面还是很广的:大数据、数仓、中台、AI、IT规划、大数据平台、BI工具。
我是怎么总结的?
从架构入手,到每个模块的分解,再到每个地方的注意点,基本上就行了,太细的也不是通过文字去说清楚的。
只要能做到,看了干货资料,能对实际工作产生指导,就可以了。
这只是一部分,还有更多,自己来看就好。
⑦ 大数据工程师做什么
大数据工程师做什么?需要具备什么能力?
大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。
这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人。而数据科学家这个职位目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。
不过在国内,大数据的应用才刚刚萌芽,人才市场还不那么成熟,“你很难期望有一个全才来完成整个链条上的所有环节。更多公司会根据自己已有的资源和短板,招聘能和现有团队互补的人才。”领英(LinkedIn)中国商务分析及战略总监王昱尧对《第一财经周刊》说。
于是每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。
王昱尧认为,在一个成熟的数据驱动型公司,“大数据工程师”往往是一个团队,它意味着从数据的收集、整理展现、分析和商业洞察、以至于市场转化的全过程。这个团队中可能包括数据工程师、分析师、产品专员、市场专员和商业决策者等角色,共同完成从原始数据到商业价值的转换—概括来讲,这是一个支持企业做出商业决策、发掘商业模式的重要群体。
由于国内的大数据工作还处在一个有待开发的阶段,因此能从其中挖掘出多少价值完全取决于工程师的个人能力。已经身处这个行业的专家给出了一些人才需求的大体框架,包括要有计算机编码能力、数学及统计学相关背景,当然如果能对一些特定领域或行业有比较深入的了解,对于其快速判断并抓准关键因素则更有帮助。
虽然对于一些大公司来说,拥有硕博学历的公司人是比较好的选择,不过阿里巴巴集团研究员薛贵荣强调,学历并不是最主要的因素,能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。
除此之外,一个优秀的大数据工程师要具备一定的逻辑分析能力,并能迅速定位某个商业问题的关键属性和决定因素。“他得知道什么是相关的,哪个是重要的,使用什么样的数据是最有价值的,如何快速找到每个业务最核心的需求。”联合国网络大数据联合实验室数据科学家沈志勇说。学习能力能帮助大数据工程师快速适应不同的项目,并在短时间内成为这个领域的数据专家;沟通能力则能让他们的工作开展地更顺利,因为大数据工程师的工作主要分为两种方式:由市场部驱动和由数据分析部门驱动,前者需要常常向产品经理了解开发需求,后者则需要找运营部了解数据模型实际转化的情况。
你可以将以上这些要求看做是成为大数据工程师的努力方向,因为根据万宝瑞华管理合伙人颜莉萍的观察,这是一个很大的人才缺口。目前国内的大数据应用多集中在互联网领域,有超过56%的企业在筹备发展大数据研究,“未来5年,94%的公司都会需要数据科学家。”颜莉萍说。因此她也建议一些原本从事与数据工作相关的公司人可以考虑转型。
本期《第一财经周刊》采访了BAT这3家国内互联网公司,以及相关领域的人力资源专家,他们从职场角度为我们解读如何成为大数据工程师以及这类岗位的职场现状。
A 大数据工程师做什么?
用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
沈志勇认为如果把大数据想象成一座不停累积的矿山,那么大数据工程师的工作就是,“第一步,定位并抽取信息所在的数据集,相当于探矿和采矿。第二步,把它变成直接可以做判断的信息,相当于冶炼。最后是应用,把数据可视化等。”
因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
找出过去事件的特征
大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。比如,腾讯的数据团队正在搭建一个数据仓库,把公司所有网络平台上数量庞大、不规整的数据信息进行梳理,总结出可供查询的特征,来支持公司各类业务对数据的需求,包括广告投放、游戏开发、社交网络等。
找出过去事件的特征,最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。“你可以知道他是什么样的人、他的年纪、兴趣爱好,是不是互联网付费用户、喜欢玩什么类型的游戏,平常喜欢在网上做什么事情。”腾讯云计算有限公司北京研发中心总经理郑立峰对《第一财经周刊》说。下一步到了业务层面,就可以针对各类人群推荐相关服务,比如手游,或是基于不同特征和需求衍生出新的业务模式,比如微信的电影票业务。
预测未来可能发生的事情
通过引入关键因素,大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上,工程师正试图通过引入气象数据来帮助淘宝卖家做生意。“比如今年夏天不热,很可能某些产品就没有去年畅销,除了空调、电扇,背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系,找到与之相关的品类,提前警示卖家周转库存。”薛贵荣说。
在网络,沈志勇支持“网络预测”部分产品的模型研发,试图用大数据为更广泛的人群服务。已经上线的包括世界杯预测、高考预测、景点预测等。以网络景点预测为例,大数据工程师需要收集所有可能影响一段时间内景点人流量的关键因素进行预测,并为全国各个景点未来的拥挤度分级—在接下来的若干天时间里,它究竟是畅通、拥挤,还是一般拥挤?
找出最优化的结果
根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。
以腾讯来说,郑立峰认为能反映大数据工程师工作的最简单直接的例子就是选项测试(AB Test),即帮助产品经理在A、B两个备选方案中做出选择。在过去,决策者只能依据经验进行判断,但如今大数据工程师可以通过大范围地实时测试—比如,在社交网络产品的例子中,让一半用户看到A界面,另一半使用B界面,观察统计一段时间内的点击率和转化率,以此帮助市场部做出最终选择。
作为电商的阿里巴巴,则希望通过大数据锁定精准的人群,帮助卖家做更好的营销。“我们更期待的是你能找到这样一批人,比起现有的用户,这些人对产品更感兴趣。”薛贵荣说。一个淘宝的实例是,某人参卖家原来推广的目标人群是产妇,但工程师通过挖掘数据之间的关联性后发现,针对孕妇群体投放的营销转化率更高。
B 需要具备的能力
数学及统计学相关的背景
就我们采访过的BAT三家互联网大公司来说,对于大数据工程师的要求都是希望是统计学和数学背景的硕士或博士学历。沈志勇认为,缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(Danger Zone)—一堆数字,按照不同的数据模型和算法总能捯饬出一些结果来,但如果你不知道那代表什么,就并不是真正有意义的结果,并且那样的结果还容易误导你。“只有具备一定的理论知识,才能理解模型、复用模型甚至创新模型,来解决实际问题。”沈志勇说。
计算机编码能力
实际开发能力和大规模的数据处理能力是作为大数据工程师的一些必备要素。“因为许多数据的价值来自于挖掘的过程,你必须亲自动手才能发现金子的价值。”郑立峰说。
举例来说,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉计算机处理大数据的方式。
对特定应用领域或行业的知识
在颜莉萍看来,大数据工程师这个角色很重要的一点是,不能脱离市场,因为大数据只有和特定领域的应用结合起来才能产生价值。所以,在某个或多个垂直行业的经历能为应聘者积累对行业的认知,对于之后成为大数据工程师有很大帮助,因此这也是应聘这个岗位时较有说服力的加分项。
“他不能只是懂得数据,还要有商业头脑,不论对零售、医药、游戏还是旅游等行业,能就其中某些领域有一定的理解,最好还是与公司的业务方向一致的,”就此薛贵荣还打了个比方,“过去我们说一些奢侈品店员势利,看人一眼就知道买得起买不起,但这群人恰恰是有敏锐度的,我们认为他们是这个行业的专家。又比如对医疗行业了解的人,他在考虑医疗保险业务时,不仅会和人们医院看病的记录相关,也会考虑饮食数据,这些都是基于对该领域的了解。”
C 大数据工程师的职业发展
如何成为大数据工程师
由于目前大数据人才匮乏,对于公司来说,很难招聘到合适的人才—既要有高学历,同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。
今年8月,阿里巴巴举办了一个大数据竞赛,把天猫平台上的数据拿出来,去除敏感问题后,放到云计算平台上交予7000多支队伍进行比赛,比赛分为内部赛和外部赛。“通过这个方式来激励内部员工,同时也发现外部人才,让各行业的大数据工程师涌现出来。”
颜莉萍建议,目前长期从事数据库管理、挖掘、编程工作的人,包括传统的量化分析师、Hadoop方面的工程师,以及任何在工作中需要通过数据来进行判断决策的管理者,比如某些领域的运营经理等,都可以尝试该职位,而各个领域的达人只要学会运用数据,也可以成为大数据工程师。
薪酬待遇
作为IT类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察,国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。颜莉萍表示,“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。”在美国,大数据工程师平均每年薪酬高达17.5万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。
职业发展路径
由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展,成为重要数据战略人才。”颜莉萍说。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。