A. 大数据数仓项目架构
云上数据仓库解决方案: https://www.aliyun.com/solution/datavexpo/datawarehouse
离线数仓架构
离线数仓特点
基于Serverless的云上数据仓库解决方案
架构特点
实时数仓架构
[图片上传失败...(image-ec3d9a-1629814266849)]
实时数仓架构特点
秒级延迟,实时构建数据仓库,架构简单,传统数仓平滑升级
架构特点
数据仓库的输入数据源和输出系统分别是什么?
输入系统:埋点产生的用户行为数据、javaEE后台产生的业务数据、个别公司有爬虫数据。
输出系统:报表系统、用户画像系统、推荐系统
1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
2)CDH:国内使用最多的版本,但 CM不开源,但其实对中、小公司使用来说没有影响(建议使用)10000美金一个节点 CDP
3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少
服务器使用物理机还是云主机?
1)机器成本考虑:
(1)物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,单台报价4W出头,惠普品牌。一般物理机寿命5年左右。
(2)云主机,以阿里云为例,差不多相同配置,每年5W
2)运维成本考虑:
(1)物理机:需要有专业的运维人员(1万*13个月)、电费(商业用户)、安装空调
(2)云主机:很多运维工作都由阿里云已经完成,运维相对较轻松
3)企业选择
(1)金融有钱公司和阿里没有直接冲突的公司选择阿里云(上海)
(2)中小公司、为了融资上市,选择阿里云,拉倒融资后买物理机。
(3)有长期打算,资金比较足,选择物理机。
根据数据规模大家集群
属于 研发部 /技术部/数据部,我们属于 大数据组 ,其他还有后端项目组,前端组、测试组、UI组等。其他的还有产品部、运营部、人事部、财务部、行政部等。
大数据开发工程师=>大数据组组长=》项目经理=>部门经理=》技术总监
职级就分初级,中级,高级。晋升规则不一定,看公司效益和职位空缺。
京东:T1、T2应届生;T3 14k左右 T4 18K左右 T5 24k-28k左右
阿里:p5、p6、p7、p8
小型公司(3人左右):组长1人,剩余组员无明确分工,并且可能兼顾javaEE和前端。
中小型公司(3~6人左右):组长1人,离线2人左右,实时1人左右(离线一般多于实时),组长兼顾和javaEE、前端。
中型公司(5 10人左右):组长1人,离线3 5人左右(离线处理、数仓),实时2人左右,组长和技术大牛兼顾和javaEE、前端。
中大型公司(10 20人左右):组长1人,离线5 10人(离线处理、数仓),实时5人左右,JavaEE1人左右(负责对接JavaEE业务),前端1人(有或者没有人单独负责前端)。(发展比较良好的中大型公司可能大数据部门已经细化拆分,分成多个大数据组,分别负责不同业务)
上面只是参考配置,因为公司之间差异很大,例如ofo大数据部门只有5个人左右,因此根据所选公司规模确定一个合理范围,在面试前必须将这个人员配置考虑清楚,回答时要非常确定。
IOS多少人 安卓多少人 前端多少人 JavaEE多少人 测试多少人
(IOS、安卓) 1-2个人 前端1-3个人; JavaEE一般是大数据的1-1.5倍,测试:有的有,有的没有。1个左右。 产品经理1个、产品助理1-2个,运营1-3个
公司划分:
0-50 小公司
50-500 中等
500-1000 大公司
1000以上 大厂 领军的存在
转自: https://blog.csdn.net/msjhw_com/article/details/116003357
B. 请大家帮忙想一个qc小组的名称
火眼忍者!
C. 学习小组的名字
1.璀璨星光
2.或者用小队人的名字,这样也蛮好的
3.夜行者
4..The best
5.夜翎
口号嘛……好好学习天天向上,Study harder and harder,Day day up
D. 大数据开发所在的部门名称
大数据事业部。
岗位职责:负责构建分布式大数据服务平台,包含大数据存储,离线/实时计算,实时查询,大数据系统运维等工作。基于大数据平台完成各类统计和开发任务,承担数据抽取、清洗、转化等数据处理。熟悉业务形态,参与需求分析和方案设计。协助承担架构性体系工作,配合技术实施方案、交流材料的编写。从事大数据相关技术研究,跟进大数据技术发展方向。
大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
E. 小组组名
我自己想的,七骥(霁)→可通奇迹,期冀的意思,骥也是千里马的意思,指你们七个是千里马!祝学习进步! seven dream high 英文版的,最近看的韩剧《dream high 》感觉不错,加上seven之后不加复数是指你们有同一个梦想,学习进步,取的好成绩。
个人觉得还行的,先锋队
以下是网上找的
敢死队 FBI : F=friend B=best I=I 最好的朋友
风若 凌冬 圣杰 闻声 高阳 气魄 知能 菲扬 紫治 光耀 新清 金浅 宁谢 潜新 摄宵 愈笃 深蓝 寿强 贵果 冰壶 修远 新若 善御 鼎寒 晓然 沙欧 言盛 省衫 习安 净智 顾引 宏朗 晋鹏 平旦 延望 光运 健翎 寿道 波浩 云龙 后波 领衔主演!
0801组名
永远的first 书海拾贝 阳光先锋
纯真年代 理想彩虹
0802组名
希望之翼 天之娇 梦想之星 梦幻之旅
棒棒堂 梦之翼
0803组名
快乐家族 成长部落 极地阳光 .风华组 阳光精灵
超越自我 晴天娃娃
0804组名
励志小组 至上励合 炫舞小组 奋进小组
梦之翼 梦翼小组 开心小组 奋斗小组 天天向上小组
0805组名
梦幻队 炫舞队 福娃 彩云队 龙的传人 东方神起
胜翼组 勇往之前 胜利组 唯我独尊 超越小组
0806组名
梦翼队 先锋队 天使队 我们是奇迹队 快乐小组
放飞希望队 我能行队 成功队 幻想童年队 天才队
0807组名
扬帆筱筱 天天向上 勇攀高峰 光炫星空 穿越时空
紫冰银河 智之飞跃 星河队 金鹰队
以上是全部,希望有所帮助,祝学习进步
F. 【科普】企业中,大数据部门的常见组成
在IT公司里,大数据部门的成员,一般可分为4种:(以房子为例)
先用一张图,帮助大家理解一下~~
出道题目,我们公司的大数据部门,目前有这些岗位,你能一一推测出他们的所在位置吗?
【数据应用工程师】、【数据可视化工程师】、【数据可视化设计师】、【数据平台工程师】、【算法工程师】、【数据分析师】
建房子地基(埋在地下)的那群人
他们就是 平台组/架构组 的那群人,他们负责搭建一套大数据的平台架构体系。一般你肉眼看不到他们的产出,但是当某一堵墙壁歪了的时候,或者你进屋打水但水龙头却流不出来水的时候,你就会意识到他们工作的重要性。
平台组的常见发展路径 :
平台初期,很多公司会用自己的服务器搭一个 私有集群 ,将数据维护起来,开始构建数据平台的第一步。这个,也是原始的大数据平台。(当然,现在有很多公司也是直接上云服务器)
当平台进入高速发展期,考虑到不断扩充的数据量和服务器的维护成本上升,很多公司会迁移平台到 云服务 上,比如阿里云,华为云。云服务的选择要解决的是选择平台所提供的服务,成本,数据通道的维护。【我们公司目前正处于这一阶段,选择了云服务。当前,经过考量也正在由阿里云迁移到华为云】
还有一个阶段,你发现云服务的费用太高,虽然省了你很多事,或者是考虑到敏感数据的安全问题(当然,私有集群也不是百分百安全),然后又开始往 私有集群 迁移。这时候,鉴于数据规模,你大概需要一个靠谱的团队,设计网络布局、设计运维规范、架设监控、建立机房,值班团队走起7*24小时随时准备出台。
至此,产生了平台组,真的大数据平台来了 。
建屋子(砌墙盖瓦)的那群人 :
应用组 的那群人,他们负责建设各类系统/应用。他们搬砖砌墙,建好房子,还要铺设各类管道线路,把地基里面的数据抽出来,放在房子里,让用户们推开门就可以享用。
应用组,有哪些应用? :
这块不太好讲。不过,为了尽量让大家看懂,用 从大到小的思路 尝试下:
在整个社会层面,大数据已应用于各行各业,比如:金融行业/地产行业/零售行业/医疗行业/农业/物流行业/城市管理等等……有哪一个行业,可以脱离数据而生存?有哪一个行业可以不依赖数据而发展?
那么,在一个企业中,数据必然是无法避免的会应用到,不管是1个员工的皮包公司,还是10万员工的跨国集团。so,我们来讲讲具体有哪些应用呢?
一般而言,数据应用分为3类:分别是面向企业内部, 面向企业外部以及面向用户这三种。
这里,鉴于今天的主题,我们只讲 面向企业内部 的大数据应用。
进入正题了:
企业内部产品中,可以从2个角度来看待具体有哪些应用:
策略类 的方向较多,常见的有:
这些有时候会有部分或全部不划在大数据部门下面,但都需要比较规范的数据基础,以及着重与利用数据分析调整产品策略。
做企业内部的大数据应用产品,常常有些心酸的地方:
屋子里面的人 :
产品组 的那群人,主要是一群产品经理(我们公司,目前就半个,由一个分析师兼职着,所以,我们公司没有产品组哦),负责数据类的应用产品设计。他们和上面建房子的工程师们,是紧密的团队关系。鉴于上面对数据应用产品已做了很多阐述,关于他们工作产出的应用具体有哪些,这里就不再赘述。
讲一讲, 数据产品经理 的从业人员得有几个素质:
屋子外面的人 :
分析组 的那群人,一般会有3类:数据分析师、算法工程师 (类似数据挖掘) 、数据科学家 (我们公司没有) 。他们工作的日常:为你提取一份EXCEL数据、制作一张报表数据、用算法模型分析一个问题、训练出一套算法模型等等工作,但不局限于此。
他们常常需要与各个部门打交道,接待很多业务的数据需求,与业务关系紧密。在一些公司,分析组不一定都设置在大数据部门下,他们可能分散在不同的业务部门,为各自部门服务。但是,他们终究也是需要从大数据平台来获取所需的业务数据,做分析处理,得到相关结论~
据我所知,我们公司的业务部门,(好像)也是有自己的分析人员。
简单概括一下这些职位的特点:
【数据分析师】
业务线,负责通过数据分析手段发现和分析业务问题,为决策作支持。
【算法工程师】/【数据挖掘工程师】
偏技术线,负责通过建立模型、算法、预测等提供一些通用的解决方案,当然也有针对某业务的。
【数据科学家】
数据科学家是使用专业知识构建机器学习模型,再以此做出预测并对关键业务问题进行解答的专家。数据科学家仍然需要对数据进行清洗、分析以及可视化处理,这一点和数据分析师是一致的。不过数据科学家在专业技能方面有者更深的研究,涉猎范围也更广,同时他们也能够对机器学习模型进行训练与优化。
至此,整篇文章,已经讲差不多了。
最后总结下,本质上,围绕房子的这4拨人,做的是同一件事情: 提供数据服务 。
完结~
G. 数学建模小组,大数据小组,组名要怎么取,求一个狂羁而不失风度的组名
可以叫 狂羁而不失风度
H. 什么是大数据时代
大数据时代
(巨量资料(IT行业术语))
编辑
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
产生背景
编辑
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数
大数据时代来临
据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。[1]
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”[2]
影响
编辑
大数据
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。[3]
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。[2]
在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。[4]
“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……[1]
截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。[5] 每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。
这样的趋势会持续下去。我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。[5]
大数据的精髓
大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。[6]
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制);
B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
数据价值
大数据时代,什么最贵?
十年前,葛大爷曾说过,“21世纪什么最贵?”——“人才”,深以为然。只是,十年后的今天,大数据时代也带来了身价不断翻番的各种数据。由于急速拓展的网络带宽以及各种穿戴设备所带来的大量数据,数据的增长从未停歇,甚至呈井喷式增长。[7]
一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万……
这些庞大数字,意味着什么?
它意味着,一种全新的致富手段也许就摆在面前,它的价值堪比石油和黄金。
事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。
让我们一起来看看——他们是怎么做的。
这些数据都能干啥。具体有六大价值:
●1、华尔街根据民众情绪抛售股票;
●2、对冲基金依据购物网站的顾客评论,分析企业产品销售状况;
●3、银行根据求职网站的岗位数量,推断就业率;
●4、投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;
●5、美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;
●6、美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。[1]
可视化
“数据是新的石油。”亚马逊前任首席科学家Andreas Weigend说。Instagram以10亿美元出售之时,成立于1881年的世界最大影像产品及服务商柯达正申请破产。
大数据是如此重要,以至于其获取、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题[1] 。
“当时时变幻的、海量的数据出现在眼前,是怎样一幅壮观的景象?在后台注视着这一切,会不会有接近上帝俯视人间星火的感觉?”
这个问题我曾请教过刘建国,中国著名的搜索引擎专家。刘曾主持开发过国内第一个大规模中英文搜索引擎系统“天网”。
要知道,刘建国曾任至网络的首席技术官,在这样一家每天需应对网民各种搜索请求1.7亿次(2013年约为8.77亿次)的网站中,如果只是在后台静静端坐,可能片刻都不能安心吧。网络果然在提供搜索服务之外,逐渐增添了网络指数,后又建立了基于网民搜索数据的重要产品“贴吧”及网络统计产品等。
刘建国没有直接回答这个问题,他想了很久,似乎陷入了回忆,嘴角的笑容含着诡秘。
倒是有公司已经在大数据中有接近上帝俯视的感觉,美国洛杉矶就有企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。
在数据可视化呈现方面,我最新接收到的故事是,一位在美国思科物流部门工作的朋友,很聪明的印度裔小伙子,被Facebook高价挖角,进入其数据研究小组。他后来惊讶地发现,里面全是来自物流企业、供应链方面的技术人员和专家,“Facebook想知道,能不能用物流的角度和流程的方式,分析用户的路径和行为。”
I. 好听的群名逗比沙雕 特别沙雕的群名称很长很长的那种
现在的人很多都有着逗比、沙雕的灵魂,最直接的体现就是那些五花八门的群名称和群名片。有的人的群名称都起的非常有特色,而且不容易撞。改一个逗比、沙雕的群名称,感觉群聊都更有意思了,分分钟戏精附体!本站为您手机整理了一些好玩、逗比还很长的群名称!
1.马云遗落在民间的女儿们
2.中年少女养生唠嗑群
3.权威认证迷妹团
4.大学生金钱交易所
5.单身狗保护协会
6.老年交流中心
7.鱼塘养殖技术交流群
8.有福同享,有难退群
9.沙雕植发在线咨询
10.红包快递公司
11.北清得不到的学生群
12.高级应援组织
13.空巢老人的晚年生活
14.不到00斤不改群名
15.坐在盘丝洞里吃外卖
16.性感沙雕在线唠嗑
17.油头小分队
18.我和我的五个神经室友
19.防脱发研究小组
20.懒猪技术养殖中心
21.收购万达讨论群
22.浪漫之满屋沙雕
23.仙女驻凡大使馆
24.佳丽三千交流群
25.小姨小姑暴富队
26.清华北大落榜生
27.脱单进度条0/6
28.富贵人家洗浴中心
29.爷爷和七个小矮人
30.大数据逃课小组
31.当代恶臭少男的噩梦
32.维密天使线下交流群
33.素质教育漏网之鱼
34.火鸡面螺蛳粉之家
35.重金求子俱乐部
36.阿里巴巴董事会讨论组
37.未来富婆高级养生会所
38.仙女养殖基地
39.神经病院五号房
40.夕阳红广场劲舞团
41.怡红院头牌交流群
42.国服喷子群
43.盒子贩卖所
44.芭比之魅力公主学院
45.某不知名人气组合
46.十个村的希望
47.西九龙重案组
48.江南皮革厂员工群
49.中国少年先疯队
50.一群多么哇塞的菇凉
51.马云重点扶持处
J. 什么是大数据时代
大数据时代
(巨量资料(IT行业术语))
编辑
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
中文名
大数据时代
外文名
Big data
提出者
麦肯锡
类 属
科技名词
目录
1 产生背景
2 影响
▪ 大数据
▪ 大数据的精髓
▪ 数据价值
▪ 可视化
3 特征
4 案例分析
5 产业崛起
6 提供依据
7 应对措施
产生背景
编辑
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数
大数据时代来临
据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。[1]
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”[2]
影响
编辑
大数据
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。[3]
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。[2]
在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。[4]
“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……[1]
截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。[5] 每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。
这样的趋势会持续下去。我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。[5]
大数据的精髓
大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。[6]
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制);
B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
数据价值
大数据时代,什么最贵?
十年前,葛大爷曾说过,“21世纪什么最贵?”——“人才”,深以为然。只是,十年后的今天,大数据时代也带来了身价不断翻番的各种数据。由于急速拓展的网络带宽以及各种穿戴设备所带来的大量数据,数据的增长从未停歇,甚至呈井喷式增长。[7]
一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万……
这些庞大数字,意味着什么?
它意味着,一种全新的致富手段也许就摆在面前,它的价值堪比石油和黄金。
事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。
让我们一起来看看——他们是怎么做的。
这些数据都能干啥。具体有六大价值:
●1、华尔街根据民众情绪抛售股票;
●2、对冲基金依据购物网站的顾客评论,分析企业产品销售状况;
●3、银行根据求职网站的岗位数量,推断就业率;
●4、投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;
●5、美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;
●6、美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。[1]
可视化
“数据是新的石油。”亚马逊前任首席科学家Andreas Weigend说。Instagram以10亿美元出售之时,成立于1881年的世界最大影像产品及服务商柯达正申请破产。
大数据是如此重要,以至于其获取、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题[1] 。
“当时时变幻的、海量的数据出现在眼前,是怎样一幅壮观的景象?在后台注视着这一切,会不会有接近上帝俯视人间星火的感觉?”
这个问题我曾请教过刘建国,中国著名的搜索引擎专家。刘曾主持开发过国内第一个大规模中英文搜索引擎系统“天网”。
要知道,刘建国曾任至网络的首席技术官,在这样一家每天需应对网民各种搜索请求1.7亿次(2013年约为8.77亿次)的网站中,如果只是在后台静静端坐,可能片刻都不能安心吧。网络果然在提供搜索服务之外,逐渐增添了网络指数,后又建立了基于网民搜索数据的重要产品“贴吧”及网络统计产品等。
刘建国没有直接回答这个问题,他想了很久,似乎陷入了回忆,嘴角的笑容含着诡秘。
倒是有公司已经在大数据中有接近上帝俯视的感觉,美国洛杉矶就有企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。
在数据可视化呈现方面,我最新接收到的故事是,一位在美国思科物流部门工作的朋友,很聪明的印度裔小伙子,被Facebook高价挖角,进入其数据研究小组。他后来惊讶地发现,里面全是来自物流企业、供应链方面的技术人员和专家,“Facebook想知道,能不能用物流的角度和流程的方式,分析用户的路径和行为。”
特征
编辑
数据量大(Volume)
第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
类型繁多(Variety)
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低(Value)
第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
速度快、时效高(Velocity)
第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。[2]
案例分析
编辑
个案一
你开心他就买你焦虑他就抛[2]
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。
霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。
这一招收效显著——当年第一季度,霍廷的公司获得了7%的收益率。
个案二
国际商用机器公司(IBM)估测,这些“数据”值钱的地方主要在于时效。对于片刻便能定输赢的华尔街,这一时效至关重要。曾经,华尔街2%的企业搜集微博等平台的“非正式”数据;如今,接近半数企业采用了这种手段。
●“社会流动”创业公司在“大数据”行业生机勃勃,和微博推特是合作伙伴。它分析数据,告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容,备受广告商热爱。
●通过乔希·詹姆斯的Omniture(著名的网页流量分析工具)公司,你可以知道有多少人访问你的网站,以及他们呆了多长时间——这些数据对于任何企业来说都至关重要。詹姆斯把公司卖掉,进账18亿美元。
●微软专家吉拉德喜欢把这些“大数据”结果可视化:他把客户请到办公室,将包含这些公司的数据图谱展现出来——有些是普通的时间轴,有些像蒲公英,有些则是铺满整个画面的泡泡,泡泡中显示这些客户的粉丝正在谈论什么话题。
●“脸谱”数据分析师杰弗逊的工作就是搭建数据分析模型,弄清楚用户点击广告的动机和方式。
处理和分析工具
用于分析大数据的工具主要有开源与商用两个生态圈。
开源大数据生态圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。
2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。
3、NoSQL,membase、MongoDb
商用大数据生态圈:
1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。
产业崛起
编辑
越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。具体有以下三大案例:
1、2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
2、联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
3、而最为积极的还是众多的IT企业。麦肯锡在一份名为《大数据,是下一轮创新、竞争和生产力的前沿》的专题研究报告中提出,“对于企业来说,海量数据的运用将成为未来竞争和增长的基础”,该报告在业界引起广泛反响。
IBM则提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”
在国内,网络已经致力于开发自己的大数据处理和存储系统;腾讯也提出2013年已经到了数据化运营的黄金时期,如何整合这些数据成为未来的关键任务。
事实上,自2009年以来,有关“大数据” 主题的并购案层出不穷,且并购数量和规模呈逐步上升的态势。其中,Oracle对Sun、惠普对Autonomy两大并购案总金额高达176亿美元,大数据的产业价值由此可见一斑。[1-2]
提供依据
编辑
大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界[1-2] 。
大数据虽然孕育于信息通信技术的日渐普遍和成熟,但它对社会经济生活产生的影响绝不限于技术层面,更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉做出。
事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
最让人吃惊的例子是,社交媒体监测平台DataSift监测了Facebook(脸谱) IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动。
这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例之一,此外还有谷歌通过网民搜索行为预测流感爆发等例子。不仅在商业方面,大数据在社会建设方面的作为同样令人惊叹,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等的蓬勃兴起,都与大数据技术与应用的发展息息相关。
“大数据”可能带来的巨大价值正渐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策,这样的思维方式,可以预见,将推动一些习惯于靠“差不多”运行的社会发生巨大变革。
应对措施
编辑
一个好的企业应该未雨绸缪,从现在开始就应该着手准备,为企业的后期的数据收集和分析做好准备,企业可以从下面六个方面着手,这样当面临铺天盖地的大数据的时候,以确保企业能够快速发展,具体为下面六点。
目标
几乎每个组织都可能有源源不断的数据需要收集,无论是社交网络还是车间传感器设备,而且每个组织都有大量的数据需要处理,IT人员需要了解自己企业运营过程中都产生了什么数据,以自己的数据为基准,确定数据的范围。
准则
虽然每个企业都会产生大量数据,而且互不相同、多种多样的,这就需要企业IT人员在现在开始收集确认什么数据是企业业务需要的,找到最能反映企业业务情况的数据。
重新评估
大数据需要在服务器和存储设施中进行收集,并且大多数的企业信息管理体系结构将会发生重要大变化,IT经理则需要准备扩大他们的系统,以解决数据的不断扩大,IT经理要了解公司现有IT设施的情况,以组建处理大数据的设施为导向,避免一些不必要的设备的购买。
重视大数据技术
大数据是最近几年才兴起的词语,而并不是所有的IT人员对大数据都非常了解,例如如今的Hadoop,MapRece,NoSQL等技术都是2013年刚兴起的技术,企业IT人员要多关注这方面的技术和工具,以确保将来能够面对大数据的时候做出正确的决定。
培训企业的员工
大多数企业最缺乏的是人才,而当大数据到临的时候,企业将会缺少这方面的采集收集分析方面的人才,对于一些公司,特别是那种人比较少的公司,工作人员面临大数据将是一种挑战,企业要在平时的时候多对员工进行这方面的培训,以确保在大数据到来时,员工也能适应相关的工作。
培养三种能力
Teradata大中华区首席执行官辛儿伦对新浪科技表示,随着大数据时代的到来,企业应该在内部培养三种能力。第一,整合企业数据的能力;第二,探索数据背后价值和制定精确行动纲领的能力;第三,进行精确快速实时行动的能力。
做到上面的几点,当大数据时代来临的时候,面临大量数据将不是束手无策,而是成竹在胸,而从数据中得到的好处也将促进企业快速发展。
望采纳,谢谢