① 学大数据需要什么学历 大数据都学什么
很多同学想知道学大数据需要什么学历,以下是一些相关信息的整理,希望能对同学们有所帮助。
学习大数据不需要学历在校大学生,社会闲游人士,等等都可以学习,但是入职大数据职位就一样了。入学大数据门槛不是很高,但是大数据对于数学要求比较高,因此高中生学习起来不是很适合,大专及大专以上学历学员经过培训就可以入职大数据。
就业也有保障,如果是本科的基本上给你签的就业协议都是13000起,如果你好好学了认真学了是可以达到这个薪资水平的,大数据招聘一般都是大专起,所以对学历还是有那么一点点的要求的。
大数据的学习,可以大致分为三个阶段:
阶段一,主要是学习大数据基础,主要是Java基础和Linux基础。
大数据的主要编程语言是Java,而主要的开发和运行在Linux环境当中完成,所以这两项基础必备。Java基础主要在Java SE、数据库方面,需要额外重视,而Linux,掌握基本的系统命令就能慢慢上手类 ,多用会越来越熟练。
阶段二,就是大数据技术组件框架的学习,这部分也是重点。
大数据技术体系庞杂,基础技术覆盖数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算(批处理、在线处理、实时流处理、内存处理)、多模态计算(图像、文本、视频、音频)、数据仓库、数据挖哗帆掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。
但是从企业应用的角度来说,主要是基于开源框架开发应用的多,所以就是主流的大数据技术框架的学习,包括Hadoop、Spark、Storm、Flink等一系列框架及其生态圈。
阶段三,是项埋卜目练手。
招聘面试乱液雹的时候,企业会很看重这方面,实战能力,能够基于具体的需求,去完成开发,给出合理的技术解决方案。
② 怎样进行大数据的入门级学习
1R programming
如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:
R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的 R basics
2Python
Think Python,Think
Stats,Think Bayes:这是Allen B. Downey写的著名的Think X
series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。
3Exploratory Data Analysis 和 Data Visualization
Exploratory Data
Analysis:John
Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。
4Machine Learning Data Mining
这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep
learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep
learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep
learning这两块就不荐书了。
③ 大数据分析工具有哪些,有什么特点
数据分析再怎么说也是一个专业的领域,没有数学、统计学、数据库这些知识的支撑,对于我们这些市场、业务的人员来说,难度真的不是一点点。从国外一线大牌到国内宣传造势强大的品牌,我们基本试用了一个遍,总结一句话“人人都是数据分析师”这个坑实在太大,所有的数据分析工具无论宣传怎样,都有一定的学习成本,尤其是要深入业务实际。今天就我们用过的几款工具简单总结一下,与大家分享。
1、Tableau
这个号称敏捷BI的扛把子,魔力象限常年位于领导者象限,界面清爽、功能确实很强大,实至名归。将数据拖入相关区域,自动出图,图形展示丰富,交互性较好。图形自定义功能强大,各种图形参数配置、自定义设置可以灵活设置,具备较强的数据处理和计算能力,可视化分析、交互式分析体验良好。确实是一款功能强大、全面的数据可视化分析工具。新版本也集成了很多高级分析功能,分析更强大。但是基于图表、仪表板、故事报告的逻辑,完成一个复杂的业务汇报,大量的图表、仪表板组合很费事。给领导汇报的PPT需要先一个个截图,然后再放到PPT里面。作为一个数据分析工具是合格的,但是在企业级这种应用汇报中有点局限。
2、PowerBI
PowerBI是盖茨大佬推出的工具,我们也兴奋的开始试用,确实完全不同于Tableau的操作逻辑,更符合我们普通数据分析小白的需求,操作和Excel、PPT类似,功能模块划分清晰,上手真的超级快,图形丰富度和灵活性也是很不错。但是说实话,毕竟刚推出,系统BUG很多,可视化分析的功能也比较简单。虽然有很多复杂的数据处理功能,但是那是需要有对Excel函数深入理解应用的基础的,所以要支持复杂的业务分析还需要一定基础。不过版本更新倒是很快,可以等等新版本。
3、Qlik
和Tableau齐名的数据可视化分析工具,QlikView在业界也享有很高的声誉。不过Qlik Seanse产品系列才在大陆市场有比较大的推广和应用。真的是一股清流,界面简洁、流程清晰、操作简单,交互性较好,真的是一款简单易用的BI工具。但是不支持深度的数据分析,图形计算和深度计算功能缺失,不能满足复杂的业务分析需求。
最后将视线聚焦国内,目前搜索排名和市场宣传比较好的也很多,永洪BI、帆软BI、BDP等。不过经过个人感觉整体宣传大于实际。
4、永洪BI
永洪BI功能方面应该是相对比较完善的,也是拖拽出图,有点类似Tableau的逻辑,不过功能与Tableau相比还是差的不是一点半点,但是操作难度居然比Tableau还难。预定义的分析功能比较丰富,图表功能和灵活性较大,但是操作的友好性不足。宣传拥有高级分析的数据挖掘功能,后来发现就集成了开源的几个算法,功能非常简单。而操作过程中大量的弹出框、难以理解含义的配置项,真的让人很晕。一个简单的堆积柱图,就研究了好久,看帮助、看视频才搞定。哎,只感叹功能藏得太深,不想给人用啊。
5、帆软BI
再说号称FBI的帆软BI,帆软报表很多国人都很熟悉,功能确实很不错,但是BI工具就真的一般般了。只能简单出图,配合报表工具使用,能让页面更好看,但是比起其他的可视化分析、BI工具,功能还是比较简单,分析的能力不足,功能还是比较简单。帆软名气确实很大,号称行业第一,但是主要在报表层面,而数据可视化分析方面就比较欠缺了。
6、Tempo
另一款工具,全名叫“Tempo大数据分析平台”,宣传比较少,2017年Gartner报告发布后无意中看到的。是一款BS的工具,申请试用也是费尽了波折啊,永洪是不想让人用,他直接不想卖的节奏。
第一次试用也是一脸懵逼,不知道该点那!不过抱着破罐子破摔的心态稍微点了几下之后,操作居然越来越流畅。也是拖拽式操作,数据可视化效果比较丰富,支持很多便捷计算,能满足常用的业务分析。最最惊喜的是它还支持可视化报告导出PPT,彻底解决了分析结果输出的问题。深入了解后,才发现他们的核心居然是“数据挖掘”,算法十分丰富,也是拖拽式操作,我一个文科的分析小白,居然跟着指导和说明做出了一个数据预测的挖掘流,简直不要太惊喜。掌握了Tempo的基本操作逻辑后,居然发现他的易用性真的很不错,功能完整性和丰富性也很好。不过没有宣传也是有原因的,系统整体配套的介绍、操作说明的完善性上还有待提升。
④ 大数据对于企业有哪些用处这五点你要知道!
天猫大数据对于企业开展卓有成效的营销活动有何价值?
什么是卓有成效?“所谓有效性,就是使能力和知识资源能够产生更多更好成果的一种手段。”――《卓有成效的管理者》
虽然说信息时代给我们提供了数不尽的便捷,同时由于信息的快速传播,获得资源的便利性和数量也不是以前可以相比的,但即便如此,一个企业获得的资源也是有一定数量的,那么企业要思考的就是如何用手里掌握的东西发挥最大的效用,这是非常重要的,也是上面提到的“卓有成效”。
第一点、大数据可以清楚的了解和把握用户的行为和特征。
这一点大家都应该听过,网上所流传的一些段子,像什么“新疆人买比基尼最多”“浙江人cap最小”这些都是基于大数据分析出来的,而且,像这种事情也没必要造假,可以说就像法庭上的证据一样,实实在在地摆在你面前。
很早就有企业规定了自己的企业文化,如果一些企业真的像他们所说的那样,“一切以顾客为中心”,那他们真的要注重大数据研究带来的成绩了,一个优秀的企业应该“比用户更了解用户”,时刻关注用户的选择情况然后企业才能够将自己的产品更好的推销出去。
第二点,精准信息推送,时刻把握用户注意层次,精准算法把握用户心理。
记得以前看过一篇文章,上面写的是有关于精准营销对企业未来造成的影响,可由于当时科技的不成熟,企业似乎不能做出他们想要的成绩,也就是没有足够的数据支撑他们的想法,导致“精准营销”的理念没有用在现实。
现在不一样了,大数据时代的到来为企业打开了新的世界,企业只需要一点点的付出就能够得到用户的特征情况,还有足够多的用算法计算出的准确分析,所以,现在的app在我们进入页面时就能够让我们看到想要的东西,以至于让我们长久的使用他们的产品,产生用户黏度。
第三点、企业可以找到重点关注的用户。
这个其实很简单,很多企业都在考虑如何消减自己的成本,以及如何找到最有潜力成为企业长期用户的人,而有了大数据,或许一切都不再是难题,一切都可以通过事实推演出来潜在实力用户。
用户必然会浏览网站,留下痕迹,关注用户关注的内容,看他们与你的公司产品是否符合;再找出用户与他人交流通信得出的内容,通过一些手段判断,通过这些情报进而分析,就可以得到企业潜在用户。
第四点、发现新市场和新趋势。
以大数据分析为基础,企业家可以更加轻松的得到未来的新市场有哪些我们要关注的事情,如果说在某一个时间内,一个新产品突然搜索指数上涨,而且保持一定时间的正常浮动范围,可能就有新的市场需求出现,哪里有需求,那就有商业,所以,大数据对于企业把握商业市场还是很有帮助的。
第四点、监控对手٩(๑^o^๑)۶
这也是企业生存重要的一个环节,最了解的永远都是你的对手,竞争对手在做什么,有什么新的战略要实施,这些事企业都想知道,如果能够精准的知道别的企业做了这什么,那么来自外部威胁的源头之一就可以忽略。
而且企业在运营的过程当中,观察对手的动向,针对性的做出回应,无疑会大大的增加企业的存活率。
第五点、企业通过大数据推出自己的品牌。
这一点很重要,品牌战略不是闹着玩的,新生代的品牌多如牛毛,除去老牌商家还有资本家的强势进入,一些小品牌很难生存下来,这也是正常的,那么如何通过大数据将自身品牌传递给大众就成为了关键的一步。
通过大数据分析用户特征,当下潮流重点,用户关注内容,正负面新闻等等一系列的东西,然后企业针对分析出的内容加以调整,快速有效的抓住消费者的核心。
为你的生活带来精彩,谢谢了(^~^)
⑤ 女生学大数据怎么样
大数据在IT行业中已经聚焦着很多人的眼光,当下不仅男生对大数据感兴趣,很多女生对大数据也很感兴趣,但是很多祥衫女生心里是没谱的,女生可以学好大数据吗?这自然是受男生更适合IT行业发展思维的影响。女生可以学好大数据吗?北大青鸟http://www.kmbdqn.cn/认为可以的。
之前很多人认为IT行业女生不适合进入,女生也根本不可能学好一门IT技术,但是当下这种言论屡屡谨闷腔被打脸,IT行业中女生人数在不断的增加,并且不少女生还成为了IT行业中CTO(首席技术官),21世纪的今天,不少女生已经在IT行业中大放异彩。
大数据属于IT技术中的一种,从没有人规定过女生不能学大数据,也没有人说过女生掌握不了大数据技术,关键是你敢于挑战吗?女生不去尝试下,你永远不知道你可不可以学好大数据。女生是可以学好大数据的,罩拦也许会比男生学大数据累一点点,但不是学不好。
不论男女做梦是学不好大数据的,还是得付出实践。女生要想学好大数据,那么首先得培养对大数据的兴趣,让自己有坚持学大数据的动力,其次找家靠谱的大数据培训机构,跟着专业的大数据培训机构老师脚踏实地的、按部就班的学习。
⑥ 运营方向--浅谈大数据 —记《不做无效的营销》小感触
还记得,应该是毕业那年,感觉,突然所有的建筑公司、地产公司,都把“大数据”挂在口边,那是我第一次对这个词感触这么深刻,建筑学专业出身的我,仿佛已经看到,进入有“大数据”的公司,就能够挖掘漏洞,找出流行的款式,设计最受欢迎的房子,拿不菲的奖金,那时候给我感觉,“大数据”=精差兄致机会,而这虚态袭个精致的机会,将伴我同行。
首先,我们得明确一点,什么是大数据。《不做无效的营销》给出一定的答复:无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。“网络”也提出大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
会发现,数据量的级别上涨之后,带来的效益和权重在几何增长,仿佛我们也能像书本中所说,像Netflix公司,用大数据捧红了《纸牌屋》,带来现象级别的收视率和宣传
而这些,正是运营版块的我们急需的资源,我们确实需要“大数据”来指导、纠正我们的动作,不断擦除画往错误方向的笔痕,走向胜利
而在前往胜利的道理上,如若不小心,“大数据”的三大误区,分分钟能把我们带入沟里。
①谈及者众,知其者寡
短时间的某个产品,或者某个行为动作爆火,街头街尾全在讨论,这时候,总是会以为,这就是“大数据”了,得分析,得琢磨,结果会发现,谈论的人是很多,真正分析出来一点点套路的人特别少。
②挂羊头卖狗肉
所有的公司或者推文,都讲这个词,我的##结论,是根据“大数据”研究出来的,特别有效,其实,所谓的大数据,估计可能就是上周一整周的上万条数据而已,并没有特别重大的代表意义,因为时效性太短,但是不知者,很容易被其误导,走入改公司设置的怪圈
③过度神话
总以为,靠近“大数据”分析出来的成果就是特别牛逼的,从分析数据到设立部门,全抬着“大数据”的口号,然后根据一堆计算方法和逻辑,得出结论,XXX会怎么样,会发现,结论和工作的方向完全不匹配,完全就是无用功,甚至还可能因为这个错误的结论,把公司的战略带跑偏
那么,既然这三个误区怎么明显,做完运营方向的我们,是如何使用“大数据”这把刀,尤其是在教育行业,怎么用?
我们都知道,所有的分析,都得建立在数据基础上,不能凭空去想象,而“大数据”给予教育板块的指导,应该会主要集中在两个方面,一个是教学层面,一个是市场层面。
先谈谈教学层面,“大数据”带来的第一个好处,就是个性化学习分析,可以发现,当班课的人数过多,老师对于一些孩子的掌控就会有偏差,但是大数据会帮我们,但我们用好“入门测”+“出门测”,几次课下来的数据,就能给予学生对应的个性化学习分析了,还能根据个性化的结果,指导孩子如何进行补救复习。
第二个好处,量化学习过程,因为我们有“VPS教材”+“答题器”,除了出入门测,我们还能把课堂上的情况,不断录入电脑,生成学生对应的课堂掌握情况,全方位的对学生学习情况给予对应的跟踪,有问题第一时间补救。
而第一个好处,第二个好处混合使用,就能够把“学生自画像”描摹出来,这样,每一个家长都能知道自己孩子的情况是怎样,应该怎么调整,而老师拿到这一份“自画像”,也能清楚孩子的问题,及时在课堂上或者课后给学生给予对应的讲解,让三方(家长、学生、老师)一起在“自画像”的环节下配合,给予学生最大的成长帮助
市场层面,“大数据”给予的帮助,就更加多了,主要集中在三个方向
①续班率。运营者总是能够拿到全部暑假或寒假的续班数据,以为就是大数据,感觉自己能写出一堆东西了,仔细分析了一下,啊,原来续班率低,是因为0期班和4期班续班率低影响了,得到粗狂的结论:明年不弄0期和4期班闭逗级了
其实,这样对待“大数据”,就进入前面所提的误区的第三个了,过渡神话。拿着大数据,得到浅薄的结论,还按照浅薄的结论,指点工作,就是过渡神话。当我们走出这个误区,多方向同比或者环比,然后思考,是什么照常这个情况?千万别主观认为,只有这样,才能摸清事实真相,真正帮助我们后期工作。举例而言:比如,某个老师的续班率低,很容易主观认为,是这个老师不负责任,那么就需要拿出具体的数据来,没有数据,都是空谈,最少需要从“大数据”里面实时帅选出来,是不是只有她续班率低,搭班老师如何,甚至是这个校区的老师如何,如果都非常的低,那么可能就不是老师的问题了,是校区大环境的问题,而这个大环境包括好多种,校区地理位置不好?上课不方便,离地铁公交站远?家长教育意识不强?楼上就有竞争机构……等等,而这样子分析,你会发现,你的思维不在停留在最基本的层面了,所以,这个才是真正的“大数据”给我们带来的好处,而不是说瞎想而已
②KPI设定。每一位运营者对KPI是又痛又恨,“我们已经努力了,我们无愧于心”书中所述,道出多少运营者的心声,而如果我们学会使用大数据,建立对应的评估体系,那么对KPI的设定,就不会再是无效的运营了。市场的数据(包括地理环境,学生人数,竞品机构,消费水平,重视教育等等),教师的数据(续班率,责任心,沟通家长频次,搭班老师的看法等等),对这些数据进行系统的评估,得出恰当结论,这些结论,将会指导我们在设定KPI时候,不会在盲目的来,不然,执行者在这么恶劣的综合环节下,还得完成几倍的目标任务,那么对于执行者的打击是非常之大的。
③营销跨界。所有人都知道,蹭热点,是一个快速传播口碑,带来流量的大好时机,可是,当我们,发现热点的“大数据”时候,已经有点迟了,蹭热点的成本过高,因为已经有好多机构再蹭,带来的收益并没有想象中的那么大了。那么我们可以另辟蹊径,蹭小热点,蹭小需求,让营销跨界,不再局限于教育行业。举个简单例子,夏天,最喜爱的活动中有一个是游泳,可是,游泳馆提供,洗发水、沐浴露的可能性是非常低的,而洗发水、沐浴露以及防水袋都是普遍游泳爱好者的需求,这就是我们需要的小数据,这就是我们需要的热点,假如,我们拿“防水袋”+“小包洗发水沐浴露”的方案去和游泳场地协商,换回特价班海报展架机会以及游泳场会员电话数据等资料,甚至我们还能在防水袋上印刷我们的机构标志以及特价班等我们需要印刷的信息,双赢结果,既能促进顾客舒适度,也能给我们带来曝光,这应该是一个我自我感觉可行的一个小小的营销跨界。
珍惜“大数据”,运用正确的方法,别再乱入误区,多想多思考,你的运营之路,会终将走得比目前更加顺利。
冯文位 广州新东方学校优能中学事业部
⑦ 一点点奶茶加盟和coco奶茶加盟比较,哪个品牌更好
您好,一点点奶茶和coco奶茶都闷谈是市场上名副其实的奶茶蚂芦碰大牌,成立时间都不短,在市场上都有一定的影响力,我们具体来分析一下问题!
一点点奶茶VS Coco都可奶茶
一点点奶茶分析:
一:始于台湾的品牌,在积累一定的品牌之后并不急于盲目的扩张,而是稳扎稳打,在自己的内功先练好再去竞争市场份额。这点很赞,不像有品牌就是为了跑马圈地快速圈钱。
二: 性价比高,10块8块就能喝到一杯热乎乎的奶茶,尤其是在冬天为你带来温暖,夏天也有冰凉鲜嫩的系列为你解暑解渴,悠哉悠哉。 从不大打广告都是靠用户口碑传播。
三: 主打年轻化时尚化人群,老少皆喜,童嫂无欺,马云曾说未来一定是属于年轻人的,赢得了年轻人,就赢得了未来,一点点奶茶战略做的很棒。
coco都可奶茶分析:
一:永远执行追加市场份额计划,门店数量来看,一点点的规模仅有COCO的一半,COCO依旧是奶茶市场的巨头。
二 :coco奶茶 地理位置选择很好, 有人流多的地方就有coco奶茶。 方圆15公里包围圈 形成三角形,每一个角都有一家COCO奶茶 ,附近15公里内一网打尽,除非你喝个奶茶要开车跑很远, 那样你的成本就太高了,土豪除外。
三: 差异化经营 coco奶茶一直在改变着战略, 其实他的红茶绿茶都很便宜, 只是为了吸引客户进来 , 来进一步消费他的精品价格略高的巧克力、咖啡等精品奶茶。
我们来看看一点点奶茶为什么受到大家欢迎?
一点点奶茶优势分析:
产品丰富回本快:
一点点奶茶小店产品有:香浓咖啡系列、特色果饮系列、慕斯沙冰系列、特色小吃系列等,主打产品有:招牌手拉奶茶、红豆仙草奶茶、北海道抹茶、香浓巧克力奶茶、皇室麦丁奶茶、咖啡恋奶等作为奶茶店的主打产品,一点点奶茶精选原料,严格控制出品时间以及制作工艺,经市场反映,一点点奶茶奶茶系列在众多城市,都是备受消费者青睐的抢手产品。品种多样 的一点点奶茶奶茶是您投资加盟的好选择,而且一点点奶茶奶茶加盟费用合理,回本快。
切合市场需求:
一点点奶茶奶茶加盟 赚钱势头不可挡,一点点奶茶奶茶结合市场,很准确的看好时下的流行,巧妙地结合在自己的品牌里面,而一点点奶茶每个细节都在这里体现,都能让他们感受到韩剧里那些小店的氛围,一 点点奶茶奶茶加盟费用哗裂相当合理,适合大部分中小型投资者!
加盟价格实惠:
一点点奶茶作为中国奶茶市场上细心经营的品牌,通过稳扎稳打,正在走向正规,起步腾飞发展,所有的一切都是低成本运营,确保一点点奶茶奶茶加盟价格实惠。
看到一点点奶茶这么受欢迎,还不动心?
望采纳,谢谢!
⑧ 大数据之道与术
记得曾听人说过,最重要的构建起自己的思维体系。现在隐隐约约能够有些理解,成长就是建立并不断完善自己思维体系的过程。
很久没写东西,但是对于最近的这几本书我觉得带给我蛮多惊喜,给了我不同的视角去看事情,需要将自己的一点点想法化成文字记录下来。仅对于大数据这块,浅谈一下自己想法。
作为一只小码农,兵来将挡水来码掩,一心扑在实现具体需求上,只注重技术实现,而没有从整体,站在更高的视角去看待数据问题。大数据不在于数据量大小,不在于使用什么具体的技术实现,而在于分析,在于解决问题,助力业务。
大数据时代,企业应该开启数据化运营来保证业务发展和用户增长。《增长黑客》一书中始终围绕着, 数据分析->提出想法->排定优先级->快速验证, 这四点在进行。用户在哪里高流失,热点功能,留存率,激活率等,只有数据才能实实在在反映公司的运营情况和产品的使用情况,用数据来作为产品的领航标。对于整体的数据分析来讲,如下四步:
数据分析 :如《决战大数据》中很令我豁然开朗的观点, 大数据就是尽可能还原用户当时的场景 。从用户当时的场景出发,去分析为什么用户会在这个点流失?为什么这个点转化率低?具体的术,不限于页面埋点,或者问卷调查等。用数据找出产品中体验不佳的问题点。
提出想法: 对于解决产品中分析出的问题,或者一些好的idea,可以拉上研发、产品、市场同事一起做头脑风暴,不同职责的人看问题的角度不一样,更可能会出现一些好的idea。必要时候,甚至可以请完全不同项目的人进来头脑风暴,激发灵感。
排定优先级: 对于上述的很多想法,肯定不可能在一个迭代里全部实现。可以从主方向相关度、实现成本、时间周期、带来效果等方面打分,评定需求优先级,来确定当前这个迭代周期该实现哪些。
快速验证: 互联网行业的快速迭代,对于确定好的需求就需要快速推出进行验证,是否有效,是否确实提升了用户留存等。当然对于改变来讲,都可能会带来未知的风险,不能保证效果是正还是负,所以可以使用A/B测试,确定部分效果后再推广。对于新的改变,一定要跟踪用户数据,对前后数据进行分析,产生了多大效果,一切应该以数据说话。
最后循环不断上面流程,坚持用数据去领航产品。
以上是从产品迭代去讲数据分析,但是回归到大数据技术呢?数据湖,数据平台,整合了整个公司的海量数据,这些在于公司的意义又该怎样。现在数据处理大致下面几步:
数据采集:
1. 从大数据浪潮之后,现在几乎每家公司都在疯狂收集数据,每个角落数据都不放过。但是用起来的却少之又少,最后发现数据指数级上升,成本高昂,却没产生该有的价值。在这里,我并不是反对数据收集,但是收集前需要对问题和数据做一些界定,这些数据对我业务真的有影响么?
2. 不要太过相信数据准确。特别是作为数据平台,你需要对接上游无数个数据源,同时需要将数据服务下游诸多系统。数据的准确性越来越重要,你并不能保证上游系统百分百的数据准确,所以请做好“脏”数据打算,不要过于乐观。
数据存储:
数据进来以后就需要存储。可能很多业务部门会各自都有一套数据处理框架,优点在于更加灵活,缺点在于大量的数据冗余,成本飞升和数据不一致等。所以稍大型公司内部基本会将基础数据统一,这也是数据湖的初衷。关于数据存储一块,可以考虑三层结构: 基础层,中间层,应用层 。其中基础层数据,统一维护一份,保证数据一致,并尽量保持数据的原始状态,防止数据失真。中间层,可以按照业务模块,数据再生状态,时间等维度生成多张大宽表,或者使用雪花模型等,对一模块提供服务,允许各个模块之间一定的数据冗余,提供适度灵活性。
当然我们收集数据,最终是为了分析和使用。对于当下趋势,越来越实时化。我们还需要放很大部分精力在存储的同时,考虑如何 快速索引 ,怎么保证我们能尽快的按照某些标签就能从海量数据中提取出我们需要的数据。一大团杂乱无序的数据,除了占服务器资源,没有任何意义。
数据应用:
如同前边产品中的数据分析一样,大公司和具体的数据建模的目的也是为了指导业务和商业。如果数据没有应用,没有去结合业务,那么数据本身也就没有什么意义。一个好的数据流程,应该如前所讲一样,是一个闭环。用数据应用指导产品,再通过产品收集自己需要的数据,丰富我们的数据。正如《刻意练习》中最重要的观点,反馈才是进步的动力,才能让自己看到哪里做得不够,哪里需要改进,而做数据也是一样。
对于数据开发人员,《决战大数据》里的 “混”,“通”,“晒” 还是很有思考的价值。“混”,与业务混在一起,了解业务,才能真正理解数据,提升数据敏感。“通”,数据之间需要连通才有价值,而在纷乱的数据中做到不同部门,甚至不同行业之间的数据串联在一起本身不管技术和沟通上都是一个大挑战,只有“通”,才能更好的还原用户当时的场景,甚至精确的预测下一步。“晒”需要把数据指标都晒出来,老板关心的不是指标,而是指标背后的why和how。计算出指标,还要更多的去想想能发现什么问题。
世间一切都是相同的,这也是为什么要构建自己的思维体系,以一应万。大数据分析这条道,同样也适用于个人,将个人看作一个产品,或者公司去做数据分析。那怎么用数据思维做个人管理?
数据收集: 知乎上有个问题,给我留下了很深的印象。看了那么多书,真的有用吗?我不敢说自己看过很多的书,但是仔细回想,曾经看过的书中内容确实大多都已记不住了。所以我慢慢在强迫自己去做一些读书笔记这样的事情。但是我所做的还远远不够,读书时,遇到喜欢的句子,醍醐灌顶的一段话,其实都可以加上备注和所思所想,记录下来。这就是一个最基本的数据收集阶段。
数据存储: 数据最终的目的是使用,并不是把数据收集回来就算完成目标。存储所对应的就是检索,能够在我们需要某个知识的时候,很快的从库里边调出这部分相关知识。所以对上一步收集回来的数据,可以通过 标签、知识范畴、场景、时间 等组合归类,便于我们快速的检索。(当然归纳碎片知识的时候,很多人会和我一样不知道该把这个知识归类到哪个标签上,其实是我们缺少对这个标签的具体和边界定义。正如一个思想所说,一个好的问题,就是具体完成后,答案就出来了)
数据应用: 对于生活中遇到的问题,我们求助于我们的知识库。但是这些知识都是没有经过检验的,而且整个社会一直处于动态变化中,所以我们应用这部分知识以后,还需要给给到反馈和反思。它是否适用,给我带来了什么样的影响,这个知识是不是需要怎么调整能更好适合我自己,再修改回自己的知识库。
命运二字,命中注定的某些东西无法更改,但是运这一项,财富,人际关系,知识和思考模式都是可以靠自己积累的。
建立完善自己的思维体系,会发现万物皆通。
⑨ 怎样进行大数据的入门级学习
记住学到这里可以作为你学大数据的一个节点。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapRece、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
⑩ 如何入门大数据
大数据
数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。
但从狭义上来看,我认为数据科学就是解决三个问题:
1. data pre-processing;(数据预处理)
2. data interpretation;(数据解读)
3.data modeling and analysis.(数据建模与分析)
这也就是我们做数据工作的三个大步骤:
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;
2、我们想看看数据“长什么样”,有什么特点和规律;
3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。
这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。
这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。
R programming
如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:
R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(http://cran.r-project.org/doc/contrib/usingR.pdf),stackoverflow上有tag-R的问题集(Newest ‘r’ Questions),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。
Data analysis and graphics using R:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。
但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:
Modern applied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)
Data manipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。
R Graphics Cookbook:想用R做可视化,就用这本书吧。150多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R是最容易做出最漂亮的图表的工具了。
An introction to statistical learning with application in R:这本书算是著名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。
A handbook of statistical analysis using R:这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。
Python
Think Python,Think Stats,Think Bayes:这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。
Python For Data Analysis: 作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。
Introction to Python for Econometrics, Statistics and Data Analysis:这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。
Practical Data Analysis: 这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。
Python Data Visualization Cookbook: 用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。
Exploratory Data Analysis 和 Data Visualization
Exploratory Data Analysis:John Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解EDA,推荐下一本:
Exploratory Data Analysis with MATLAB:这本书虽然标题带了个MATLAB,但实际上内容几乎没怎么讲MATLAB,只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于,这是我读过的讲EDA最系统的一本书,除了对visualization有不输于John Tucky的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的pattern,这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码,而且还提供了GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。
Visualize This:中译本叫“鲜活的数据”,作者是个“超级数据迷”,建立了一个叫http://flowingdata.com的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo(A Tour Through the Visualization Zoo)
Machine Learning & Data Mining
这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。
The Element of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。
Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。
其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。
还有一些印象比较深刻的书:
Big Data Glossary: 主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapRece,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。
Mining of Massive Datasets:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapRece的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。
Developing Analytic Talent: 作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapRece在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。
Past, Present and Future of Statistical Science:这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。
其它资料
Harvard Data Science:这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides: (https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing)和homeworks and solutions: (https://github.com/cs109/content)
PyData:PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧(DataTau/datascience-anthology-pydata · GitHub)
工具
R/Python/MATLAB(必备):如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。
SQL(必备):虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。
MongoDB(可选):目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。
Hadoop/Spark/Storm(可选): MapRece是当前最著名也是运用最广泛的分布式计算框架,由Google建立。Hadoop/Spark/storm都是基于MapRece的框架建立起来的分布式计算系统,要说他们之间的区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。一言以蔽之,如果数据是离线的,如果数据比较复杂且对处理速度要求一般,就Hadoop,如果要速度,就Spark,如果数据是在线的实时的流数据,就Storm。
OpenRefine(可选):Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。
Tableau(可选):一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。
Gephi(可选):跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。