① 从谷歌流感趋势谈大数据分析的光荣与陷阱
从谷歌流感趋势谈大数据分析的光荣与陷阱
本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。?
一、谷歌流感趋势:未卜先知?
“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。
也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。有了这两周,人们就可以有充足的时间提前预备,避免中招。多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。
此一时,彼一时。2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。
2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。Lazer等学者穷追不舍。他们的估算表明,GFT预测的2013-2014季的流感发病率,仍然高达CDC报告值的1.3倍。并且,前面发现的系统性误差仍然存在,也就是过去犯的错误如今仍然在犯。因为遗漏了某些重要因素,GFT还是病得不轻。
为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?从大数据的收集特征和估计方法的核心,我们可以探究一二。
二、新瓶装旧酒:过度拟合
大数据时代的来临,为数据收集带来了深刻变革。海量数据、实时数据、丰富多样的非结构数据,以前所未有的广度进入了人们的生活。但是不变的是,在统计分析方法上,数据挖掘(Data mining)仍然是统计分析的主要技术。而数据挖掘中最引人注目的过度拟合(overfitting)问题,由于下文提到的各类陷阱的存在,远远没有解决。
我们先用一个故事来解释何为过度拟合。假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。该校宣称,在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷;到他们学校来学习就能成为世界上最厉害的警察。但是这所学校有个古怪,就是从不教授犯罪心理学。
象牙塔的教学方式是这样的:将人群随机分为十组,每组都是既有普通人又有小偷。学员可以观察到前九组所有人,也知道谁是普通人谁是小偷。学员要做的是,根据自己从前九组中了解到的小偷特征,从第十组中找出小偷。比如学员从前九组观察到小偷更喜欢在给孩子买尿布的时候也买啤酒,那么在第十组观察到有人在买尿布时也买啤酒,就作为一个嫌疑条件。完成这个过程之后,学校再将人群打散重新分成十组,如此循环往复,之后学校进行测试。测试方式就是再次将人群随机分为十组,看谁能最快最准根据前九组的信息找出第十组的小偷。冠军即象牙塔最棒警察,可以派到社会上抓小偷了。
一段时间后,问题来了:象牙塔最棒警察在象牙塔校内总能迅速找到小偷,可一旦出了象牙塔, 该警察就老犯错抓、该抓不抓的错误。他抓小偷的表现,甚至比从来没有来象牙塔学习的人还要差。
在这个故事里,象牙塔最棒警察就相当于根据大数据的数据挖掘方法、机器学习之后挑选出来的最优模型。小偷相当于特定问题需要甄选出的对象,比如得流感的人、不干预就会自杀的人、赖账的人。前九组的人就相当于用于训练模型的训练数据;第十组人则相当于检验训练结果的检验数据。不教授犯罪心理学就意味着抓小偷并不需要理解小偷为什么会成为小偷,类似于在数据分析中只关心相关关系而不关注因果关系。训练最佳警察的过程,就类似于运用机器学习技术, 采用训练数据来训练模型,然后采用检验数据来选择模型,并将预测最好的模型作为最佳模型,用于未来的各类应用中 。
最后,警察在象牙塔内能快速抓小偷而校外不能,就是过度拟合问题。由于在学校通过多次重复练习,学员小偷的特征已经烂熟于心,因此无论怎么随机分,都能快速找到小偷并且不出错;这就相当于训练模型时,由于已经知道要甄选人群的特征,模型能够对样本内观测值作出很好的拟合。由于象牙塔学校判断小偷的标准主要看外部特征而不去理解内在原因,比如小偷常戴鸭舌帽,那么当社会人群里的小偷特征与象牙塔人群有很大差别时,比如社会上的小偷更常戴礼帽,在象牙塔内一抓一个准的鸭舌帽标准,到社会就变成一抓一个错了。也就是说,在样本内预测很好的模型,到样本外预测很差。 这,就是过度拟合的问题。
从过度拟合角度,可以帮助我们理解为什么GFT在2009年表现好而之后表现差。在2009年,GFT已经可以观察到2007-2008年间的全部CDC数据,也就是说GFT可以清楚知道CDC报告的哪里发病率高而哪里发病率低。这样,采用上述训练数据和检验数据寻找最佳模型的方法时标准就很清晰,就是不惜代价高度拟合已经观察到的发病率。 Lazer 等人发现,GFT在预测2007-2008年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的5000万搜索词去拟合1152个数据点的情况。
2009年之后,该模型面对的数据就真正是未知的,这时如果后来的数据特征与2007-2008年的数据高度相似,那么GFT也该可以高度拟合CDC估计值。但现实是无情的,系统性误差的存在,表明GFT在一些环节出了较大偏差而不得不面对过度拟合问题。
从上面的故事可以看到,产生过度拟合有三个关键环节。第一,象牙塔学校认定本校知道所有普通人与所有小偷的特征,也就等于知道了社会人群特征。第二,象牙塔学校训练警察,不关心小偷的形成原因,而关注细致掌握已知小偷的特征。第三,象牙塔学校认为,不论时间如何变化,本校永远能保证掌握的普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校的训练而发生改变。
在大数据这个新瓶里,如果不避开下面的三个陷阱,就仍然可能装着数据挖掘带来的过度拟合旧酒:大数据自大、算法演化、看不见的动机导致的数据生成机制变化。
三、大数据分析的挑战
(一)陷阱一:“大数据自大”
Lazer等学者提醒大家关注 “大数据自大(big data hubris)”的倾向,即认为自己拥有的数据是总体,因此在分析定位上,大数据将代替科学抽样基础上形成的传统数据(后文称为“小数据”)、而不是作为小数据的补充。
如今,大数据确实使企业或者机构获取每一个客户的信息、构成客户群的总体数据成为可能,那么说企业有这样的数据就不需要关心抽样会有问题吗?
这里的关键是,企业或者机构拥有的这个称为总体的数据,和研究问题关心的总体是否相同。《数据之巅》一书记载了下面这个例子:上世纪三十年代,美国的《文学文摘》有约240万读者。如果《文学文摘》要了解这个读者群的性别结构与年龄结构,那么只要财力人力允许,不抽样、直接分析所有这240万左右的数据是可行的。但是,如果要预测何人当选1936年总统,那么认定“自己的读者群”这个总体和“美国选民”这个总体根本特征完全相同,就会差之毫厘谬以千里了。事实上,《文学杂志》的订户数量虽多,却集中在中上层,并不能代表全体选民。与此相应,盖洛普根据选民的人口特点来确定各类人群在样本中的份额,建立一个5000人的样本。在预测下届总统这个问题上,采用这个小数据比采用《文学文摘》的大数据,更准确地把握了民意。
在GFT案例中,“GFT采集的搜索信息”这个总体,和“某流感疫情涉及的人群”这个总体,恐怕不是一个总体。除非这两个总体的生成机制相同,否则用此总体去估计彼总体难免出现偏差。
进一步说,由于某个大数据是否是总体跟研究问题密不可分,在实证分析中,往往需要人们对科学抽样下能够代表总体的小数据有充分认识,才能判断认定单独使用大数据进行研究会不会犯“大数据自大”的错误。
(二)陷阱二:算法演化
相比于“大数据自大”问题,算法演化问题(algorithm dynamics)就更为复杂、对大数据在实证运用中产生的影响也更为深远。我们还是借一个假想的故事来理解这一点。假定一个研究团队希望通过和尚在朋友圈发布的信息来判断他们对风险的态度,其中和尚遇到老虎的次数是甄别他们是否喜欢冒险的重要指标。观察一段时间后该团队发现,小和尚智空原来遇到老虎的频率大概是一个月一次,但是从半年前开始,智空在朋友圈提及自己遇到老虎的次数大幅增加、甚至每天都会遇到很多只。由于大数据分析不关心因果,研究团队也就不花心思去追究智空为什么忽然遇到那么多老虎,而根据历史数据认定小智空比过去更愿意冒险了。但是研究团队不知道的情况是:过去智空与老和尚同住,半年前智空奉命下山化斋;临行前老和尚交代智空,山下的女人是老虎、遇到了快躲开。在这个故事里,由于老和尚的叮嘱,智空眼里老虎的标准变了。换句话说,同样是老虎数据,半年前老虎观测数量的生成机制,和半年后该数据的生成机制是不同的。要命的是,研究团队对此并不知情。
现实中大数据的采集也会遇到类似问题,因为大数据往往是公司或者企业进行主要经营活动之后被动出现的产物。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法、让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要,但是在数据生成机制方面,却会出现使用者搜索的关键词并非出于使用者本意的现象。
这就产生了两个问题:第一,由于算法规则在不断变化而研究人员对此不知情,今天的数据和明天的数据容易不具备可比性,就像上例中半年前的老虎数据和半年后的老虎数据不可比一样。第二,数据收集过程的性质发生了变化。大数据不再只是被动记录使用者的决策,而是通过算法演化,积极参与到使用者的行为决策中。
在GFT案例中,2009年以后,算法演化导致搜索数据前后不可比,特别是“搜索者键入的关键词完全都是自发决定”这一假定在后期不再成立。这样,用2009年建立的模型去预测未来,就无法避免因过度拟合问题而表现较差了。
(三)、陷阱三:看不见的动机
算法演化问题中,数据生成者的行为变化是无意识的,他们只是被页面引导,点出一个个链接。如果在数据分析中不关心因果关系,那么也就无法处理人们有意识的行为变化影响数据根本特征的问题。这一点,对于数据使用者和对数据收集机构,都一样不可忽略。
除掉人们的行为自发产生系统不知道的变化之外,大数据的评估标准对人们行为的影响尤为值得关注。再以智空为例。假定上文中的小和尚智空发现自己的西瓜信用分远远低于自己好友智能的西瓜信用分。智空很不服气,经过仔细观察,他认为朋友圈言论可能是形成差异的主因。于是他细细研究了智能的朋友圈。他发现,智能从不在朋友圈提及遇到老虎的事,而是常常宣传不杀生、保护环境、贴心灵鸡汤,并定期分享自己化斋时遇到慷慨施主的事。虽然在现实中,他知道智能喜好酒肉穿肠过、也从未见老和尚称赞智能的化斋成果。智空茅塞顿开,从此朋友圈言论风格大变,而不久后他也满意地看到自己的西瓜信用分大幅提高了。
如今,大数据常常倚重的一个优势,是社交媒体的数据大大丰富了各界对于个体的认知。这一看法常常建立在一个隐含假定之上,就是人们在社交媒体分享的信息都是真实的、自发的、不受评级机构和各类评估机构标准影响的。但是,在互联网时代,人们通过互联网学习的能力大大提高。如果人们通过学习评级机构的标准而相应改变社交媒体的信息,就意味着大数据分析的评估标准已经内生于人们生产的数据中,这时,不通过仔细为人们的行为建模,是难以准确抓住的数据生成机制这类的质变的。
从数据生成机构来看,他们对待数据的态度也可能发生微妙的变化。例如,过去社交媒体企业记录保存客户信息的动机仅仅是本公司发展业务需要,算法演化也是单纯为了更好地服务消费者。但随着大数据时代的推进,“数据为王”的特征越来越明显,公司逐渐意识到,自己拥有的数据逐渐成为重要的资产。除了可以在一定程度上给使用者植入广告增加收入之外,还可以在社会上产生更为重要的影响力。这时就不能排除数据生成机构存在为了自身的利益,在一定程度上操纵数据的生成与报告的可能性。比如,在Facebook等社交媒体上的民意调查,就有可能对一个国家的政治走向产生影响。而民意调查语言的表述、调查的方式可以影响调查结果,企业在一定程度上就可以根据自身利益来操纵民意了。
简而言之,天真地认为数据使用者和数据生成机构都是无意识生产大数据、忽略了人们行为背后趋利避害的动机的大数据统计分析,可能对于数据特征的快速变化迷惑不解,即便看到模型预测表现差,也难以找到行之有效的克服方法。
四、前车之鉴
目前,我国高度重视大数据发展。2015年8月31日,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。《纲要》认为,大数据成为推动经济转型发展的新动力(310328,基金吧)、重塑国家竞争优势的新机遇,和提升政府治理能力的新途径。《纲要》指出,2018年底前,要建成国家政府数据统一开放平台,率先在信用、交通、医疗等重要领域实现公共数据资源合理适度向社会开放。与此相应,近年来多地成立了大数据管理局、业界学界对于大数据的分析利用也予以热烈回应。因此,了解大数据分析的优势与陷阱,对我国的经济发展和实证研究具有极其重要的意义;而GFT项目折射出的大数据使用中可能存在的机会与问题,都值得关注。
(一) 防范“大数据自大”带来的风险
GFT案例表明,如果认为大数据可以代替小数据,那么过度拟合问题可以带来巨大的估计误差。这一点在“大众创业、万众创新”的今天尤其需要关注。这是因为大数据作为目前“创新”最闪亮的新元素被高度推崇的,而我国经济处于转型时期的特征,使企业或者机构面对的微观数据不断发生动态变化。如果在数据挖掘中忽略这些变化,往往要面临过度拟合带来的损失。
例如,我国P2P网贷行业采用的数据体量虽然大多达不到大数据要求的海量数据,但是不少企业热衷采用爬虫等技术从社交媒体挖掘信息用于甄别客户。这些平台健康状况,就可能与过度拟合的严重程度密不可分。 根据中国P2P网贷行业2014年度运营简报和2015年上半年的运营简报,在图一我们可以推算2006年到2004年间和2015年1-5月间月均新增问题平台数,并与2015年6月新增问题平台数作比较。[1]
新增问题平台的大幅增加原因虽然有多方面,但是从数据分析的角度看,由于还没有合法的数据共享机制,P2P平台在甄别客户质量时,往往只依靠自身渠道和从社交媒体等挖掘的数据,并采用数据挖掘方法建立相应建立模型。在数据分析中,不少P2P平台往往疏于查考自身样本的代表性、也忽略宏观经济数据和其他微观数据所包含的信息。由于互联网金融公司出现时间短、又主要成长于经济繁荣期,如果单单依赖有限的数据渠道,数据挖掘与机器学习过程对新常态下个体行为没有足够的认识,在经济下行时仍然根据历史数据而低估逾期率,导致高估平台健康状况,最终不得不面对问题平台不断增加的局面。
(二) 大数据和小数据齐头并进大势所趋
大数据和小数据各有优劣。简而言之,小数据通常不会假定该数据就是总体,因此收集数据前往往需要确定收集数据的目标、根据该目标设计的问卷或者收集方法、确定抽样框。在数据采集后,不同学者往往可以通过将新收集数据与不同数据的交叉验证,来评估数据的可信度。小数据在收集上有变量定义清晰、数据生成机制基本可控、检验评估成本相对较低等优点,但是缺点是数据收集成本高,时间间隔长、颗粒度较粗。
大数据的优势就包括数据体量大、收集时间短、数据类型丰富,颗粒度很细。但是,由于大数据往往是一些企业和机构经营活动的附带产品,因此并不是通过精心论证的测度工具生成。另外,由于大数据的体量很大,交叉验证数据的可信度、不同学者采用相同数据独立研究以检验数据的前后一致性等工作难度较大。这些特点意味着大数据本身未必有科学研究要求的那样准确、可靠,在数据分析中就需要对大数据适合研究的问题有较清晰的认识。
在与小数据互为补充推动研究与认知方面,大数据大有可为。将大数据与小数据相结合,可以大大提高数据的颗粒度和预测精度。比如对CDC流感发病率的预测研究发现,将GFT采用的大数据和CDC的历史数据相结合的模型,其预测能力比单独运用大数据或者小数据要好很多。
大数据往往可以实时生成,对于观察特定社区的动态具有小数据无可替代的优势。比如,美国在“九一一”之后,出于快速准确估计在某个特定小社区活动的人口的需要而启动了“工作单位和家庭住址纵向动态(LEHD)”项目,该项目将人口普查数据、全国公司数据、个人申请失业保险、补贴、纳税等记录联通,可以对社区在短时间内的“新陈代谢”作出较为全面的刻画。
这类的数据结合研究,对于了解我国社会经济状况的动态变化会十分重要。一个可能的应用是,将城市人口、工作状态、性别、年龄、收入等小数据采集的信息,和实时产生的交通状况相结合,来预测人们的出行特征,来解决城市交通拥堵、治理雾霾等问题。另一个可能的应用是,推动人民银行征信中心个人征信系统数据和民间征信系统大数据的结合,建立高质量的中国个人征信体系。
另外,我国经济处于转型时期,有不少政策亟需快速评估政策果效。以小数据为基础,利用大数据数据量丰富的优势,可以通过互联网做一些随机实验,来评估一些政策的效果,也是可能的发展方向。
在过去的十多年中,我国在通过非官方渠道采集小数据、特别是微观实证数据方面取得了长足进展。在多方努力下,更多经过严格科学论证而产生的数据可被公众免费获得并用于研究。例如,北京大学的“中国健康与养老追踪调查”、“中国家庭追踪调查”,都由经济、教育、健康、社会学等多领域的专家协同参与问卷的设计和数据采集的质控。在这些努力下,小数据的生成机制更为透明,交叉验证调查数据的可信度等实证研究的必要步骤也更为可行。
但是,目前在小数据的收集和使用、政府和有关机构的小数据开放运用方面,我国还有很大推进空间。只有在对涉及我国基本国情的小数据进行充分学习研究之后,我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握,是评估大数据质量、大数据可研究问题的关键,对推进大数据产业健康发展有举足轻重的作用。
因此在政策导向上,为要实现大数据、小数据相得益彰推动经济发展的目标,在促进发展大数据的同时也要大力发展小数据相关产业,推动小数据相关研究与合作,使大数据与小数据齐头并进、互为补充。
(三)提高大数据使用的透明度,加强对大数据质量的评估
大数据面临的透明度问题远比小数据严重。在GFT案例中,Lazer等人指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据、也没有解释这类数据是如何搜集的。我国大数据相关企业的数据,也鲜有学者可以获得并用于做研究的例子。
与透明度相关的就是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。因此利用大数据的研究难以形成合力,只能处于案例、个例的状态。
另外还要注意到,如果数据生成机制不清晰,研究结论难以复制,而算法演化也表明,最终数据往往成为使用者和设计者共同作用的结果。这种数据生成的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据的透明化、公开化,我们才能在大数据产业发展之初,建立健康的数据文化。
因此,在大数据时代,为了更好利用大数据,需要采取相关措施,增加在大数据生成过程的透明度方面的努力。例如,采取措施推进数据生成企业在妥善处理隐私信息后,定期公布大数据随机抽样数据、要求数据生成企业及时公布数据算法的变更,鼓励采用大数据的研究实现可复制性、便于交叉验证等。
五、结语
目前有些流行观点认为,在大数据时代,技术容许人们拥有了总体因此抽样不再重要、另外由于数据挖掘术的进展,只需关心相关关系而不必再关心因果关系。而GFT的实例表明,即便谷歌公司用于GFT计算的是数十亿的观测值,也不能认为谷歌公司拥有了流感人群的总体。误认为数据体量大就拥有了总体,就无法谦卑结合其他渠道的小数据,得到更为稳健的分析结论。而GFT估计的偏误原因,从来都离不开人们的主动的行为-- 无论是谷歌公司自己认为的GFT的流行导致更多人使用该搜索、还是Lazer等人认为的算法变化、丢弃异常值。因此,不明白数据生成机理变化的原因而只看相关关系的后果,于谷歌是GFT的计算偏误丢了脸,而对热情地投身于采用大数据到创新、创业中的中国民众和相关机构来说,则可能是不得不面对事先没有预备的重大经济损失。
以上是小编为大家分享的关于从谷歌流感趋势谈大数据分析的光荣与陷阱的相关内容,更多信息可以关注环球青藤分享更多干货
② 大数据的价值及商业模式探寻
大数据的价值及商业模式探寻
大数据的价值谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。 大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,目前已进入大数据时代,但现在的硬件明显已跟不上数据发展的脚步。 以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。 虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。 未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。
大数据的商业模式
国内网络广告投放正从传统的面向群体的营销转向个性化营销,从流量购买转向人群购买。虽然市场大环境不好,但是具备数据挖掘能力的公司却倍受资本青睐。 大数据是一个很好的视角和工具。从资本角度来看,什么样的公司有价值,什么样的公司没有价值,从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力。而这几个能力正是资本关注的点。 移动互联网与社交网络兴起将大数据带入新的征程,互联网营销将在行为分析的基础上向个性化时代过渡。创业公司应用“大数据”告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容等,这正好切中了广告商的需求。 社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。 实际上,将用户群精准细分,直接找到要找的用户正是社交内容背后数据挖掘所带来的结果。而通过各种算法实现的数据信息交易,正是张文浩为自己的社交数据挖掘公司设计的盈利模式。目前,这家仅仅五六个人的小公司拿到了天使投资。未来的市场将更多地以人为中心,主动迎合用户需求,前提就是要找到这部分人群。 在移动互联网领域,公司从开发者角度找到数据挖掘的方向,通过提供免费的技术服务,帮助开发者了解应用状况。
③ google为广告厂商创造了什么价值
这是纯营销方面的东西,是营销中一个研究方向,和传播联系起来关系并不大,当然你可以写写长尾市场传播策略什么的,你把上面的东西看懂了在找导师说去,写导师看不懂的东西好处就是很容易过,因为他根本挑不出问题来。
TheLongTail:长尾理论
TheLongTailEffect:长尾效应
一、“长尾”的由来及含义:
根据维基网络,长尾(TheLongTail)这一概念是由“连线”杂志主编ChrisAnderson在2004年十月的“长尾”一文中最早提出,用来描述诸如亚马逊和Netflix之类网站的商业和经济模式。
“长尾”实际上是统计学中PowerLaws和帕累托(Pareto)分布特征的一个口语化表达。
举例来说,我们常用的汉字实际上不多,但因出现频次高,所以这些为数不多的汉字占据了上图广大的红区;绝大部分的汉字难得一用,它们就属于那长长的黄尾。
Chris认为,只要存储和流通的渠道足够大,需求不旺或销量不佳的产品共同占据的市场份额就可以和那些数量不多的热卖品所占据的市场份额相匹敌甚至更大。
二、“长尾”的定义:
“长尾”至今尚无正式定义,ChrisAnderson认为,最理想的长尾定义应解释“长尾理论”的三个关键组成部分:
热卖品向niches的转变
富足经济(theeconomicsofabundance)
许许多多小市场聚合成一个大市场
目前最接近的定义是:
“长尾实现的是许许多多小市场的总和等于,如果不是大于,一些大市场”_JasonFoster
“长尾就是当籍籍无名的变成无处不在的时候你可以得到的”_EricAkawie
“长尾就是80%的过去不值得一卖的东西”_Greg
“长尾讲述的是这样一个故事:以前被认为是边缘化的、地下的、独立(艺人?)的产品现
在共同占据了一块市场份额,足以可与最畅销的热卖品匹敌”_BobBaker
最佳口号:
“涓涓细流,汇聚成河”—JoshuaWood
“终结二八定律!”—EricEtheridge
“无物不销,无时不售!”—JimTreacher
“一个小数乘以一个非常大的数字等于一个大数!”—RajeshJain
三、成功的“长尾”案例:
1、Google是一个最典型的“长尾”公司,其成长历程就是把广告商和出版商的“长尾”商业化的过程。
数以百万计的小企业和个人,此前他们从未打过广告,或从没大规模地打过广告。他们小得让广告商不屑,甚至连他们自己都不曾想过可以打广告。但Google的AdSense把广告这一门槛降下来了:广告不再高不可攀,它是自助的,价廉的,谁都可以做的;另一方面,对成千上万的Blog站点和小规模的商业网站来说,在自己的站点放上广告已成举手之劳。
Google目前有一半的生意来自这些小网站而不是搜索结果中放置的广告。数以百万计的中小企业代表了一个巨大的长尾广告市场。这条长尾能有多长,恐怕谁也无法预知。
2、亚马逊:
一个前亚马逊公司员工精辟地概述了公司的“长尾”本质:现在我们所卖的那些过去根本卖不动的书比我们现在所卖的那些过去可以卖得动的书多得多。
此外还有很多,诸如维基网络、Netflix等等。
四、长尾的启示:
1、对一些公司来说,长尾理论是对二八定律的颠覆。在全新的商业模式下,公司的利润不再依赖传统的20%的”优质客户”,而是许许多多原先被忽视的客户,他们数量庞大,足则正以让你挣得盆满钵满;从公司产品的角度分析,拳头产品主打市场的老套路将趋末路;
2、许多市场面临新的契机,长尾电视、长尾音乐、长尾设计还有什么是或盯粗拖着长尾的?很多,想想看?
3、一衫镇批博客、播客将从这“长尾”中受益。(中国情况特殊,不在此结论中)
4、长尾中将诞生许许多多的微中心,甚至不排除一些微中心成长成新的中心,如Google。
5、中心永远都会有,它们并不会因为微中心的崛起就被“去掉”。
转自:
长尾理论挑战二八定律
近日在AdAge上看到北美广播巨头纷纷有大动作,心想莫非失落的媒体卷土重来?开始关注并尝试着写一篇观察出来。在纷繁复杂的相关行业信息中搜索的过程中,碰到Podcasting(中文暂时有部分尝鲜者译为“播客”)这个新概念,基于RSS技术的Podcasting和Blog如出一辙,只是信息载体不同于Blog的文字而是声音,广播厂商利用此技术让受众能够轻松下载想听的内容到便携式音乐设备,方便随时收听;另一方面,卫星广播推出订阅服务,将一些更深入的内容,更独家的访问作为收费服务,创造了一定规模的固定忠实用户,对于广告主和媒体公司而言,其蕴涵巨大商机。
原来新时期的广播行业已经慢慢褪去大众媒体的光彩,摇身一变针对固定细分市场的分众媒体。XM和Siruis纷纷推出更细分更专业的广播频道,而新的广播公司通过传媒巨子的合作也粉墨登场。融合了互联网技术后,广播行业呈现出一股新气象。
追根溯源,必然会有理论依据支撑行业现象。于是,长尾理论出现,和二八定律产生直接冲突。所谓长尾理论(TheLongTail),从统计学中一个形状类似“恐龙长尾”的分布特征的口语化表述演化而来。查阅维基网络有关“长尾”的条目,得知由一杂志主编ChrisAnderson于去年十月提出,他认为,只要存储和流通的渠道足够大,需求不旺或销量不佳的产品共同占据的市场份额就可以和那些数量不多的热卖品所占据的市场份额相匹敌甚至更大。
举一个市场的例子,亚马逊网上书店成千上万的商品书中,一小部分畅销书占据总销量的一半,而另外绝大部门的书虽说个别销量小,但凭借其种类的繁多积少成多,占据了总销量的另一半。从“长尾理论”模型图中可以发现,红色区域和蓝色区域的面积大约相等。
《当代广告》和《广告和促销》两本原版专业教材让我记住了二八定律,不仅作用于营销市场。同样适用于生活中的一些存在竞争的情况。百分之二十的消费者购买百分之八十的某一类商品,而百分之八十的消费者只购买另外百分之二十的商品,厂商便称那百分之二十的消费者为”品牌忠诚者“,其数量的增加必然带动另外百分之八十的”品牌摇摆者“的数量,并保持二八比例不变。传统营销手段受制于薄弱的技术和高昂的成本,即使NIKE推出制订运动鞋的服务,也是基于大规模生产的基础和高出一般水平的价格,而互联网技术的不断发展,让我们看到了二八定律失效的可能性。
国内的三大门户网站,加上新进的TOM、QQ,和中华网、新华网一起构成网络新闻信息的供应主力部队,那么散落在各个BSP(博客服务供应商)上难以计算的博客们是不是就是那条长长的信息尾巴呢?主力网络媒体毕竟规模有限,而博客们的队伍则继续壮大,两者不同的地方只在于访问率(类比市场销量,加以思考)而已。再偏门再边缘的信息也有需要,因此我们可以说,长长的尾巴里有那些红色区域所不能满足我们的东西。换言之,如果技术的成熟和成本的保证得以完成,二八定律在互联网相关产业上便宣告失效。
窄告广在国内的异军突起是个很好的例子,窄告靠的不只是噱头十足的概念,而是创始人张向宁在万网时期就开始酝酿的上下文广告盈利模式。主流网络广告的形式不外乎横幅式、弹出式、背投式、浮动式等冲击眼球的动感模式,大部分广告主都是知名品牌和实力厂家,而上下文广告很好的运用了同网页内容的相关性和点击计费的收费模式,给予成千上万小企业和个人工作室有效推广自己到达目标受众,提高营销效率。窄告作为中国上下文广告的代表,成功占领大半主流网络媒体,如今每月收入100万元,良好的发展趋势成了同类产品GoogleAdsense本地化的最大障碍。当然,后者在欧美市场的成功同样和窄告在中国市场的爆发是同样道理,随着”长尾“越拖越长,上下文广告前景一片光明。
从目前来看,传统营销市场还是二八定律的天下,而以RSS技术为基础的Blog和Podcasting,搜索引擎广告,上下文广告,还有网上拍卖行业、网上招聘行业,公关危机在线解决方案都能够从”长尾理论“中获益。
转自:
挖掘Blog长尾的广告价值
Google最早发现了众多小站作为广告平台的价值,利用GoogleAdsense几乎将整个互联网都变成了Google的广告平台。Blog的普及让这个平台得到了更大程度的扩展,挖掘这条越来越长的尾巴的广告价值也成了很多人关注的市场机会。
根据Sohu的Blog调查数据,有19.6%的Blogger愿意与Blog服务商分享广告收益,显然通过Blog广告获取收益会颇为吸引人。而Qumana曾经做过一个调查,虽然有不少Blogger都接受在Blog中放置广告,但能够靠Blog来赚钱的blogger还只占较低的比例,我想除了Blog本身的访问量较低,读者较少点击广告等原因外,广告与文章的相关性较低也是一个重要的影响因素。
在Qumana的调查中,使用GoogleAdsense的blogger占了绝大多数。尽管GoogleAdsense是依据Google强项的分词和搜索进行相关匹配显示与blog内容相关的广告,但由于Blogger对于所显示的广告内容没有任何的选择和决定权,因此可能造成相关性匹配程度并不高,或者出现广告内容是blogger所不喜欢的公司(比如抵制日货的blogger网站上出现日货广告)等等情况。于是,一些新公司开始进入这一市场,为blogger提供可自主定制的广告内容。比如Qumana的Adgenta以及FeedWeaver,它们都可以让blogger们自行决定每篇文章的关键字,或者说tag,使文章与广告的相关性更强,也可以让blogger有权根据自己对读者特征的理解而决定广告的内容,从而可能让广告更吸引读者,也获取更高的广告收益,而且这些广告不仅仅可以在blog上显示,也可以添加到RSS中。
Qumana近日还发布了新版的Blogging客户端工具,让用户在本地书写blog的同时就可以方便地选择发布的广告内容、形式、位置等等,为blogger的广告发布提供了更快捷方便的方式。如果Qumana的广告内容足够丰富,收益分享的信誉良好,日后应该能够吸引到不少blogger加盟。
Blogger这条长长的尾巴的价值,在国外已经得到越来越多人的重视,而国内的广告业还在执着于门户网站的广告投放,什么时候会有国内的Blog广告网络出现呢?
转自:
长尾霍霍互联网:二八定律失效?
曾读过一位英国登山者所写的《触及巅峰》(TouchingtheVoid)的书么?讲述两名英国登山者在秘鲁安第斯山脉的历险故事。让人兴奋的并不是这本书的内容,而是它成功登上《纽约时报》的图书畅销榜、并被改编成电影记录片背后的故事——这本书出版于1988年,成功却在10年之后。
这10年间发生了什么?是什么力量使它重返市场?在技术的加速发展和创新的不断涌动下,互联网发生了不可思议的变革。
一本已被遗忘的书凭借互联网再度火起来—亚马逊网站将其列在同类新书的选择参考之列,并附上了其他读者的评价留言,使这本早被湮没在茫茫书海中的作品再次有了面对读者的机会。这机会不再昙花一现,而是将永远持续,其发行销售的渠道将被无限延伸下去。
2004年10月,《连线》杂志主编ChrisAnderson在一篇文章中,首次提出了一个“长尾理论”(Thelongtail)来解释这一现象:只要渠道足够大,非主流的、需求量小的商品销量也能够和主流的、需求量大的商品销量相匹敌。这是对传统的“二八定律”的彻底叛逆。
尽管听上去有些学术的味道,但事实上这不难理解——人类一直在用二八定律来界定主流,计算投入和产出的效率。它贯穿了整个生活和商业社会。这是1897年意大利经济学家帕累托归纳出的一个统计结论,即20%的人口享有80%的财富。当然,这并不是一个准确的比例数字,但表现了一种不平衡关系,即少数主流的人(或事物)可以造成主要的、重大的影响。以至于在市场营销中,为了提高效率,厂商们习惯于把精力放在那些有80%客户去购买的20%的主流商品上,着力维护购买其80%商品的20%的主流客户。
在上述理论中被忽略不计的80%就是长尾。ChrisAnderson说:“我们一直在忍受这些最小公分母的专制统治我们的思维被阻塞在由主流需求驱动的经济模式下。”但是人们看到,在互联网的促力下,被奉为传统商业圣经的“二八定律”开始有了被改变的可能性。这一点在媒体和娱乐业尤为明显,经济驱动模式呈现从主流市场向非主流市场转变的趋势。
亚马逊网站的一位员工表示,许多从前传统渠道卖不动的书,在这里的销量很好。亚马逊为窄众群体提供了个性化的选择机会,对需求量小的商品进行了精细的划分,从而延展了渠道。这种“无物不销,无时不售”的模式为消费者提供了无限制的多样性选择。相对于传统的人为界定的有限选择,这种无限制性的选择更侧重于从客户的需求出发,注重客户的体验。
这种细分也使得苹果公司的iTunes在线音乐商店获得了巨大的成功。如果消费者只想听一首歌曲,为何要强迫其去购买整张CD呢?两年前,苹果正是看透了这一商机,在网站上为用户提供正版单曲销售。就是这99美分和15美元的差距,使得苹果目前已经卖出了5亿首单曲,同时其MP3播放器iPod的销售量也借此在不断攀升。
根据用户不同的需求做文章的不仅仅是苹果公司。为了应对iTunes的99美分策略,同样觊觎这个市场的雅虎推出了6.99美元包月、60美元包年的下载策略。对此,《华尔街日报》专栏作家沃尔特·莫斯博格评价说:“如果用户有60美元的零花钱,想尝试一下音乐下载服务,且所使用的播放器也不是iPod,那么雅虎或许是一个最好的选择。”其实,雅虎早在两年前就已经开始下手,为进军英国市场,收购了当地人气旺盛的音乐网站Dotmusic.com和游戏网站GamesDomain.co.uk。
在互联网商业模式破晓时分,曾有人提出过一个“微支付”的概念,即通过为用户提供下载音乐和游戏服务盈利,但在当时并没有得以实现。随着互联网技术和模式的不断成熟,以及在互联网上创业的中小企业越来越多,这个曾经破灭的希望再度被人们拾起。雅虎目前已经实现了这种微支付体系。
这种通过“小钱赚大钱”的商业模式在电子商务领域也获取了成功。eBay就是一个经典的例子。作为一家线上拍卖网站,eBay开创了一种买主同时也是卖主的史无前例的商业模式,让数量众多的小企业和个人通过它的平台进行小件商品的销售互动,从而创造了惊人的交易量和利润。它的成功让人们看到,只要将尾巴拖得足够长,就会聚沙成塔,产生意想不到的惊人效果。
Google的成功就在于它找到并铸就了一条长尾。以占据了Google半壁江山的AdSense为例,它面向的客户是数以百万计的中小型网站和个人—对于普通的媒体和广告商而言,这个群体的价值微小得简直不值一提,对他们所能提供的那点钱更是看不上眼。但是Google通过为其提供个性化定制的广告服务,将这些数量众多的群体汇集起来,形成了非常可观的经济利润。目前,Google的市值已超过800亿美元,被认为是“最有价值的媒体公司”,远远超过了那些传统的老牌传媒。
符合长尾理论的许多市场呈现出新的契机,互联网为其发展提供了温床。掀起电信及媒体运营革命浪潮的VoIP、IPTV等产业或许就是下一批长尾的受益者。而对于博客、播客等社会性软件而言,长尾理论或许也是其寻找商业模式的一个良好的理论支点。
长尾霍霍,一场变革暗涌。(编译|李洋)
转自:
ChrisAnderson的长尾理论
说在前面
时下关于长尾的文章很多,但似乎很多人的理解都不一致。刚刚读过Chris关于LongTail的那篇文章,给了我很多启发。(Chris正在准备关于长尾的书,将于2006年5月出版。)
长尾的渊源
对于如何抓住长尾市场,Chris提出了三项法则:
Rule1:让所有的东西都可以获得。(Makeeverythingavailable)
Rule2:将价格减半,现在让它更低。(Cutthepriceinhalf.Nowlowerit.)
Rule3:帮我找到它!(Helpmefindit!)
需要指出的是,Chris所谓的长尾是基于互联网技术的出现以及针对传媒业来说的。之所以存在长尾,是因为传统企业难以照顾到的那部分消费者的需求,可以被重新挖掘而产生商机。
同样的,自从Chris提出长尾以后,很多学者以及从业人士都开始了对此开始了研究。一个名为NicholasCarr’sBlog的作者Carr提出了一个概念:HeadPhake。其中的Phake是Fake的委婉说法。HeadPhake就是“伪主流”的意思。在既然有长尾(LongTail),就有头部(Head),也就是那些主流商品。而互联网的技术可以将那些不是主流的商品(如歌曲)与主流商品(歌曲)放在一起,形成消费者一种“误解”,以为那也是主流。如果这些非主流很好的话,就自然而然成为主流。这就是互联网的伟大之处。
超女是长尾现象吗?
根据Chris的观点,我认为超女并不是所谓的长尾现象。如何判定什么是长尾现象尚没有一个标准。但是,一个基本的原则就是长尾就是那些由于传统商业的限制,以及消费者自身的约束,而忽略的那些市场需求。超女虽然说满足了中国那种已久的民主情结,但超女原本可以很早就出现的,而不是受到了现实世界的约束。这样,我们可以说超女的成功是抓住了民众的心理,是市场操作的成功。它的消费群体长期以来并没有被忽视,而只是商家没有提供一个像超女这样的形式去抓住他们。
长尾第一,品牌第二?
对于长尾的出现,一些朋友提出了品牌的作用将受到削弱,这多是因为当前传统的营销并没有抓住那些被忽略的群体和需求。我想看完Chris的文章后,我们就会发现这种理解是错误的。传统市场由于成本的约束,譬如一家音像店不可能为了区区几个顾客的需求而让一些非主流的CD上架,商家只能专注那些足够规模的需求,品牌在此发挥了作用。而由于互联网技术的出现,一些未被开发的需求可以被利用了,也就是长尾可以被利用了,这是品牌的作用依然关键。为什么会有人去苹果的iTune下载歌曲,这就是苹果的品牌效应。因此,长尾和品牌不是矛盾的,而是两个不同类别的概念。长尾或者说长尾理论告诉我们,通过技术可以将那些“缝隙市场(NicheMarkets)”再次整合起来,形成利润来源。而品牌是一种产品受到关注的方式。同样的,既然有利润就会有竞争,长尾如果利润空间足够吸引人的话,在这些市场的竞争也许可能比主流市场的竞争更为激烈。而谁能够获胜?依然是那种能够形成独特并持久的“顾客-品牌关系”的公司。
结语
④ 谷歌拥有如此多样的产品组合,它的核心价值是什么
谷歌有十大价值观:
1、以用户为中心,其他一切水到渠成。
2、心无旁骛、精益求精。
3、快比慢好。
4、网络的民主作风。
5、获取信息的方式多种多样,不必非要坐在台式机前。
6、不做坏事也能赚钱。
7、信息永无止境。
8、信息需求,没有国界。
9、没有西装革履也可以很正经。
10、没有最好,只有更好。
谷歌创始人之一拉里·佩奇指出:“完美的搜索引擎需要做到确解用户之意,且返用户之需”。就搜索技术的现状而言,我们需要通过研究、开发和革新来实现长远的发展。谷歌致力于成为这一技术领域的开拓者。尽管 谷歌已是全球公认的业界领先的搜索技术公司,但其目标是为所有信息搜寻者提供更高标准的服务。
在谷歌,要求工程师们每周都花一天时间在个人感兴趣的项目上。这种近乎强制性的要求造成Google News之类链桥的新服务品种出现,根据Nielsen NetRatings的数前唤轮据显示,这项服务每个月都能吸引710万浏览者,同时也导致了社区网络站点Orkut的出现,已经被整合到整个搜索网站之中。
谷歌里的每一个人都充满了故事:与你共进午餐的人或许发明了你在使用的编程语言;坐在你隔壁的同事或许为你的研究生课程编写过教材;和你一起打台球的那个人或许开发过你的桌面浏览器。
公司还提供免费的班车和渡轮服务接载雇员上班,这些交通工具都有无线互联网服务,方便员工在上慧信下班时也可以工作。
⑤ 谷歌公司的核心品牌价值观是什么
谷歌有十大价值观:
1、以用户为中心,其他一切水到渠成。
2、心无旁骛、精益求精。
3、快比慢好。
4、网络的民主作风。
5、获取信息的方式多种多样,不必非要坐在台败猜式机前。
6、不做碧敏坏事也能赚钱。
7、信息察慧型永无止境。
8、信息需求,没有国界。
9、没有西装革履也可以很正经。
10、没有最好,只有更好。
(5)谷歌公司收集的数据有什么价值扩展阅读
谷歌经营的主要业务:
1、谷歌搜索引擎。Google搜索引擎主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。
2、Google Play应用商店。2014年,谷歌计划面向中国市场上推出Google Play应用商店,希望藉此在中国市场获得更大的影响力。在当前中国市场上,约有一半用户使用了谷歌的Android移动操作系统。
3、Google Video。2005年1月25日,谷歌公司推出Google Video服务,该服务可以通过谷歌网站搜索网络上的各种视频文件,或播出的电视节目。Google Video根据关键词提供相关的视频内容下载或播放连接,并提供视频内容的预览画面。
4、Google Answers。2002年4月,谷歌启动了名为“Google Answers”的新服务。Google Answers是传统搜索功能的扩展-用户不用自己搜索内容,他们请专家搜索然后付费。顾客问问题,并为问题提供一个相应的价钱,然后研究者们回答他们的问题。
⑥ 大数据是什么有什么价值作用
“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。
大数据的应用其实早已渗透到人们生活中的并段厅方方面面:亚马逊运用大数据为客户推荐商品信息,阿里用大数据成立了小微金融服务集团,而谷歌更是计划用大数据接管世界??当下,很多行业都开始增加对大数据的需求。大数据时代不仅处理着海量的数据,同时也加工、传播、分享它们。不知不觉中,数据可视化已经遍布我们生活的每一个角落,毕竟普通用户往往更关心结果的展示。伴随去年底网络地图采用LBS定位春运的可视化大数据,就引起了学界对新闻创新和大数据可视化的热议。
1、根据销售费习惯以及需求为其推荐更加适合的产品,因此相关服务的企业可以利用大数据进行精准营销,从而实现双赢互利的作用;
2、当企业遇到瓶颈或者行业遭遇困境的时候,中小微企业可以利用大数据快速反应做好服务转型;
3、企业战略布局以及资源配置的环节,可以通过大数据找到更加贴近事实的一句,同时对于面临互联网压力之下必须转型的传统企业提供与时俱进的契机。
企业组织利用相关数据和分析,可以帮助它们实现降低成本、提高效率、开发新产品、做出更明智的业务决策等等目标。下面是一些关于大数据应用目前已经可以解决的问题:
1、及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元;
2、为成千上万的快递车辆规划实时交通路线,躲避拥堵;
3、分析所有SKU,以利润最大化为目标来定价和清理库存;
4、根据客户的购买习惯,为其推送他可能感兴趣的优惠信息;
5、从大量客户中快速识别出金牌客户;
6、使用点击流分析和数据挖掘来规避欺诈行为。
一、技术价值
大数据,根本上与数学、统计学、计算机学、数据学等基本理论知识无法分割,技术水平突飞猛进给数字领域带来最直接的跃进。
App研发应用、数据库编写应用等促进人类社会技术进步的价值都来源于大数据的发明和运营。
大数据不仅创造了新的计算方式、技术处理方式,更加为其他技术的研发、应用和落地提供基础,例如人工智能等。
大数据中客户与企业进行交易的数据,是大数据技术价值的核心映射。客户的交易行为通过企业内部系统留存,基本以“事后”数据为主。
交易数据是推进企业数据驱动业务,与客户联系沟通、获得有效和分析数据的初级门槛,无论大数据获取能力如何发展,直接的交易信息永远都是第一有效和值得关注的。
淘宝的交易分析报告中提到,大额买单后的重购次单和同店重购次单比例分别为25.0%和16.8%,要明显高于普通买单的18.8%和10.7%,则表示在首次买单获取了对卖家服务和商品质量的信任后,次单完全存在放大金额的可能,并且比普通买单的可能要高得多。
由此引导卖家增进服务、坚守质量,并适时推出捆绑推荐,以求同类商品同店大额下单的几率。
只有有了大数据的处理技术,交易行为才能够得到记录分析,企业的大数据技术研发、应用和落地才能拥有基础,以开发更新更适合时代的企业产业。
目前有很多传统企业盲目行走大燃哗数据的道路,但其实大数据技术能力并没有建立起来,真正获得了有效数据并得以分析利用的就很少,很多该做的“埋点”没有做,数据的统计也缺乏技术支撑。
这时大数据的技术价值就会显得尤为重要,且是所有价值的基础,一梁塌,全屋倒。
无法自主革新的企业会求助一些以提供大数据服务为产品的新型公司,也就催生了各种大数据公司雨后春笋般的出现,至于这些公司如何为传统转型服务在后面会提到。
二、商业价值
在实际的升级运行中,习惯于传统经营的企业也许经常会为这样几个基础的问题感到困惑:如何提升运营现状?目标客群是谁?有哪些特点?与竞品相比竞争优势在哪?现有经营问题又是什么?
而这些看似简单的问题背后却隐藏着海量数据的分析挖掘:客流数据、经营数据、以往活动相关数据、场内店铺绝隐信息、竞品数据,类此种种的深入透析才能帮助企业画像潜客、分析经营、建立会员体系、策划活动执行。
单就运营而论,数据作为一种度量方式,能够真实的反映运营状况,帮助企业进一步了解产品、了解用户、了解渠道进而优化运营策略。
⑦ 大数据的七大核心价值
移动互联时代 大数据的应用价值
随着大数据的发展,企业也越来越重视数据相关的开发和应用,从而获取更多的市场机会。一方面,大数据能够明显提升企业数据的准确性和及时性;此外还能够降低企业的交易摩擦成本;更为关键的是,大数据能够帮助企业分析大量数据而进一步挖掘细分市场的机会,最终能够缩短企业产品研发时间、提升企业在商业模式、产品和服务上的创新力,大幅提升企业的商业决策水平,降低了企业经营的风险。
一、大数据助企业挖掘市场机会探寻细分市场
大数据能够帮助企业分析大量数据而进一步挖掘市场机会和细分市场,然后对每个群体量体裁衣般的采取独特的行动。获得好的产品概念和创意,关键在于我们到底如何去搜集消费者相关的信息,如何获得趋势,挖掘出人们头脑中未来会可能消费的产品概念。用创新的方法解构消费者的生活方式,剖析消费者的生活密码,才能让吻合消费者未来生活方式的产品研发不再成为问题,如果你了解了消费者的密码,就知道其潜藏在背后的真正需求。大数据分析是发现新客户群体、确定最优供应商、创新产品、理解销售季节性等问题的最好方法。
在数字革命的背景下,对企业营销者的挑战是从如何找到企业产品需求的人到如何找到这些人在不同时间和空间中的需求;从过去以单一或分散的方式去形成和这群人的沟通信息和沟通方式,到现在如何和这群人即时沟通、即时响应、即时解决他们的需求,同时在产品和消费者的买卖关系以外闷告闹,建立更深层次的伙伴间的互信、双赢和可信赖的关系。
大数据进行高密度分析,能够明显提升企业数据的准确性和及时性;大数据能够帮助企业分析大量数据而进一步挖掘细分市场的机会,最终能够缩短企业产品研发时间、提升企业在商业模式、产品和蚂罩服务上的创新力,大幅提升企业的商业决策水平。因此,大数据有利于企业发掘和开拓新的市场机会;有利于企业将各种资源合理利用到目标市场;有利于制定精准的经销策略;有利于调整市场的营销策略,大大降低企业经营的风险。
企业利用用户在互联网上的访问行为偏好能为每个用户勾勒出一副“数字剪影”,为具有相似特征的用户组提供精确服务满足用户需求,甚至为每个客户量身定制。这一变革将大大缩减企业产品与最终用户的沟通成本。例如:一家航空公司对从未乘过飞机的人很感兴趣(细分标准是顾客的体验)。而从未乘过飞机的人又可以细分为害怕飞机的人,对乘飞机无所谓的人以及对乘飞机持肯定态度的人(细分标准是态度)。在持肯定态度的人中,又包括高收入有能力乘飞机的人(细分标准是收入能力)。于是这家航空公司就把力量集中在开拓那些对乘飞机持肯定态度,只是还没有乘过飞机的高收入群体。通过对这些人进行量身定制、精准营销取得了很好的效果。
二、大数据提高决策能力
当前,企业管理者还是更多依赖个人经验和直觉做决策,而不是基于数据。在信息有限、获取成本高昂,而且没有被数字化的时代,让身居高位的人做决策是情有可原的,但是大数据时代,就必须要让数据说话。
大数据能够有效的帮助各个行业用户做出更为准确的商业决策,从而实现更大的商业价值,它从诞生开始就是站在决策的角度出发。虽然不同行业的业务不同,所产生的数据及其所支撑的管理形态也千差万别,但从数据的获取,数据的整合,数据的加工,数据的综合应用,数据的服务和推广,数据处理的生命线流程来分析,所有行业的模式是一致的。
这种基于大数据决策的特点是:一是量变到质变,由于数据被广泛挖掘,决策所依据的信息完整性越来越高,有信息的理性决策在迅速扩大,拍脑袋的盲目决策在急剧缩小。二是决策技术含量、知识含量大幅度提高。由于云计算出现,人类没有被海量数据所淹没,能够高效率驾御海量数据,生产有价值的决策信息。三是大数据决策催生友梁了很多过去难以想象的重大解决方案。如某些药物的疗效和毒副作用,无法通过技术和简单样本验证,需要几十年海量病历数据分析得出结果;做宏观经济计量模型,需要获得所有企业、居民以及政府的决策和行为海量数据,才能得出减税政策最佳方案;反腐倡廉,人类几千年历史都没解决,最近通过微博和人肉搜索,贪官在大数据的海洋中无处可藏,人们看到根治的希望等等。
如果在不同行业的业务和管理层之间,增加数据资源体系,通过数据资源体系的数据加工,把今天的数据和历史数据对接,把现在的数据和领导和企业机构关心的指标关联起来,把面向业务的数据转换成面向管理的数据,辅助于领导层的决策,真正实现了从数据到知识的转变,这样的数据资源体系是非常适合管理和决策使用的。
在宏观层面,大数据使经济决策部门可以更敏锐地把握经济走向,制定并实施科学的经济政策;而在微观方面,大数据可以提高企业经营决策水平和效率,推动创新,给企业、行业领域带来价值。
三、大数据创新企业管理模式,挖掘管理潜力
当下,有多少企业还会要求员工像士兵一样无条件服从上级的指示?还在通过大量的中层管理者来承担管理下属和传递信息的职责?还在禁止员工之间谈论薪酬等信息?《华尔街日报》曾有一篇文章就说,NO。这一切已经过时了,严格控制,内部猜测和小道消息无疑更会降低企业效率。一个管理学者曾经将企业内部关系比喻为成本和消耗中心,如果内部都难以协作或者有效降低管理成本和消耗,你又如何指望在今天瞬息万变的市场和竞争环境下生存、创新和发展呢?
我们试着想想,当购物、教育、医疗都已经要求在大数据、移动网络支持下的个性化的时代,创新已经成为企业的生命之源,我们还有什么理由还要求企业员工遵循工业时代的规则,强调那种命令式集中管理、封闭的层级体系和决策体制吗?当个体的人都可以通过佩戴各种传感器,搜集各种来自身体的信号来判断健康状态,那样企业也同样需要配备这样的传感系统,来实时判断其健康状态的变化情况。
今天信息时代机器的性能,更多决定于芯片,大脑的存储和处理能力,程序的有效性。因而管理从注重系统大小、完善和配合,到注重人,或者脑力的运用,信息流程和创造性,以及职工个性满足、创造力的激发。
在企业管理的核心因素中,大数据技术与其高度契合。管理最核心的因素之一是信息搜集与传递,而大数据的内涵和实质在于大数据内部信息的关联、挖掘,由此发现新知识、创造新价值。两者在这一特征上具有高度契合性,甚至可以标称大数据就是企业管理的又一种工具。因为对于任何企业,信息即财富,从企业战略着眼,利用大数据,充分发挥其辅助决策的潜力,可以更好地服务企业发展战略。
大数据时代,数据在各行各业渗透着,并渐渐成为企业的战略资产。数据分析挖掘不仅本身能帮企业降低成本:比如库存或物流,改善产品和决策流程,寻找到并更好的维护客户,还可以通过挖掘业务流程各环节的中间数据和结果数据,发现流程中的瓶颈因素,找到改善流程效率,降低成本的关键点,从而优化流程,提高服务水平。大数据成果在各相关部门传递分享,还可以提高整个管理链条和产业链条的投入回报率。
四、大数据变革商业模式催生产品和服务的创新
在大数据时代,以利用数据价值为核心,新型商业模式正在不断涌现。能够把握市场机遇、迅速实现大数据商业模式创新的企业,将在IT发展史上书写出新的传奇。
大数据让企业能够创造新产品和服务,改善现有产品和服务,以及发明全新的业务模式。回顾IT历史,似乎每一轮IT概念和技术的变革,都伴随着新商业模式的产生。如个人电脑时代微软凭借操作系统获取了巨大财富,互联网时代谷歌抓住了互联网广告的机遇,移动互联网时代苹果则通过终端产品的销售和应用商店获取了高额利润。
纵观国内,以金融业务模式为例,阿里金融基于海量的客户信用数据和行为数据,建立了网络数据模型和一套信用体系,打破了传统的金融模式,使贷款不再需要抵押品和担保,而仅依赖于数据,使企业能够迅速获得所需要的资金。阿里金融的大数据应用和业务创新,变革了传统的商业模式,对传统银行业带来了挑战。
还有,大数据技术可以有效的帮助企业整合、挖掘、分析其所掌握的庞大数据信息,构建系统化的数据体系,从而完善企业自身的结构和管理机制;同时,伴随消费者个性化需求的增长,大数据在各个领域的应用开始逐步显现,已经开始并正在改变着大多数企业的发展途径及商业模式。如大数据可以完善基于柔性制造技术的个性化定制生产路径,推动制造业企业的升级改造;依托大数据技术可以建立现代物流体系,其效率远超传统物流企业;利用大数据技术可多维度评价企业信用,提高金融业资金使用率,改变传统金融企业的运营模式等。
过去,小企业想把商品卖到国外要经过国内出口商、国外进口商、批发商、商场,最终才能到达用户手中,而现在,通过大数据平台可以直接从工厂送达到用户手中,交易成本只是过去的十分之一。以我们熟悉的网购平台淘宝为例,每天有数以万计的交易在淘宝上进行,与此同时相应的交易时间、商品价格、购买数量会被记录,更重要的是,这些信息可以与买方和卖方的年龄、性别、地址、甚至兴趣爱好等个人特征信息相匹配。运用匹配的数据,淘宝可以进行更优化的店铺排名和用户推荐;商家可以根据以往的销售信息和淘宝指数进行指导产品供应、生产和设计,经营活动成本和收益实现了可视化,大大降低了风险,赚取更多的钱;而与此同时,更多的消费者也能以更优惠的价格买到了更心仪的产品。
维克托曾预言2020年,大数据时代就会真正来临。在那个时候,最经常会用到的应用就是个性化生活所需要的,尤其是智能手机的应用。
五、大数据让每个人更加有个性
对个体而言,大数据可以为个人提供个性化的医疗服务。比如,我们的身体功能可能会通过手机、移动网络进行监控,一旦有什么感染,或身体有什么不适,我们都可以通过手机得到警示,接着信息会和手机库进行对接或者咨询相关专家,从而获得正确的用药和其他治疗。
过去我们去看病,医生只能对我们的当下身体情况做出判断,而在大数据的帮助下,将来的诊疗可以对一个患者的累计历史数据进行分析,并结合遗传变异、对特定疾病的易感性和对特殊药物的反应等关系,实现个性化的医疗。还可以在患者发生疾病症状前,提供早期的检测和诊断。早期发现和治疗可以显著降低肺癌给卫生系统造成的负担,因为早期的手术费用是后期治疗费用的一半。
还有,在传统的教育模式下,分数就是一切,一个班上几十个人,使用同样的教材,同一个老师上课,课后布置同样的作业。然而,学生是千差万别的,在这个模式下,不可能真正做到“因材施教”。
如一个学生考了90分,这个分数仅仅是一个数字,它能代表什么呢?90分背后是家庭背景、努力程度、学习态度、智力水平等,把它们和90分联系在一起,这就成了数据。大数据因其数据来源的广度,有能力去关注每一个个体学生的微观表现:如他在什么时候开始看书,在什么样的讲课方式下效果最好,在什么时候学习什么科目效果最好,在不同类型的题目上停留多久等等。当然,这些数据对其他个体都没有意义,是高度个性化表现特征的体现。同时,这些数据的产生完全是过程性的:课堂的过程,作业的情况,师生或同学的互动情景而最有价值的是,这些数据完全是在学生不自知的情况下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的日常学习与生活,因此它的采集也非常的自然、真实。
在大数据的支持下,教育将呈现另外的特征:弹性学制、个性化辅导、社区和家庭学习、每个人的成功大数据支撑下的教育,就是要根据每一个人的特点,释放每一个人本来就有的学习能力和天分。
此外,维克托还建议中国政府要进一步补录数据库。政府以前提供财政补贴,现在可以提供数据库,打造创意服务。在美国就有完全基于政府提供的数据库,如为企业提供机场、高速公路的数据,提供航班可能发生延误的概率,这种服务这可以帮助个人、消费者更好地预测行程,这种类型的创新,就得益于公共的大数据。
六、智慧驱动下的和谐社会
美国作为全球大数据领域的先行者,在运用大数据手段提升社会治理水平、维护社会和谐稳定方面已先行实践并取得显着成效。
近年来,在国内,“智慧城市”建设也在如火如荼的开展。截止去年底,我国的国家智慧城市试点已达193个,而公开宣布建设智慧城市的城市超过400个。智慧城市的概念包含了智能安防、智能电网、智慧交通、智慧医疗、智慧环保等多领域的应用,而这些都要依托于大数据,可以说大数据是“智慧”的源泉。
在治安领域,大数据已用于信息的监控管理与实时分析、犯罪模式分析与犯罪趋势预测,北京、临沂等市已经开始实践利用大数据技术进行研判分析,打击犯罪。
在交通领域,大数据可通过对公交地铁刷卡、停车收费站、视频摄像头等信息的收集,分析预测出行交通规律,指导公交线路的设计、调整车辆派遣密度,进行车流指挥控制,及时做到梳理拥堵,合理缓解城市交通负担。
在医疗领域,部分省市正在实施病历档案的数字化,配合临床医疗数据与病人体征数据的收集分析,可以用于远程诊疗、医疗研发,甚至可以结合保险数据分析用于商业及公共政策制定等等。
伴随着智慧城市建设的火热进行,政府大数据应用已进入实质性的建设阶段,有效拉动了大数据的市场需求,带动了当地大数据产业的发展,大数据在各个领域的应用价值已得到初显。
七、大数据如何预言未来?
著名的玛雅预言,尽管背后有着一定的天文知识基础,但除催生了一部很火的电影《2012》外,其实很多人的生活尚未受到太大的影响。现在基于人类地球上的各种能源存量,以及大气受污染、冰川融化的程度,我们获取真的可以推算出按照目前这种工业生产、生活的方式,人类在地球上可以存活的年数。《第三次工业革命》中对这方面有很深入的解释,基于精准预测,发现现有模式是死路一条后,人类就可以进行一些改变,这其实就是一种系统优化。
这种结合之前情景研究,不断进行系统优化的过程,将赋予系统生命力,而大数据就是其中的血液和神经系统。通过对大数据的深入挖掘,我们将会了解系统的不同机体是如何相互协调运作的,同样也可以通过对他们的了解去控制机体的下一个操作,甚至长远的维护和优化。从这个角度讲,基于网络的大数据可以看作是人类社会的神经中枢,因为有了网络和大数据人类社会才开始灵活起来,而不像以前那么死板。基于大数据,个体之间相互连接有了基础,相互的交互过程得到了简化,各种交易的成本减少很多。厂家等服务提供方可以基于大数据研发出更符合消费者需求的服务,机构内部的管理也更为细致,有了血液和神经系统的社会才真的拥有生命活力。
结语
透过以上这些行业典型的大数据应用案例和场景,不难悟出大数据的典型的核心价值。大数据是看待现实的新角度,不仅改变了市场营销、生产制造,同时也改变了商业模式。数据本身就是价值来源,这也就意味着新的商业机会,没有哪一个行业能对大数据产生免疫能力,适应大数据才能在这场变革中继续生存下去。
当下,正处于数据大爆发的时代,如何获取这些数据并对这些数据进行有效分析就显得尤为重要。各种企业机构之间的竞争非常残酷。如何基于以往的运行数据,对未来的运行模式进行预测,从而提前进行准备或者加以利用、调整,对很多企业机构其实是一种生死存亡的问题。这样一种情况同样适用于国家级别。正因为这一点,目前无论是在企业级别还是国家级别都开始研究、部署大数据。
可见,大数据应用已经凸显出了巨大的商业价值,触角已延伸到零售、金融、教育、医疗、体育、制造、影视、政府等各行各业。你可能会问这些具体价值实现的推动者有哪些呢?就是所谓的大数据综合服务提供商,从实践情况看,主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商三个角色,分别向大数据的应用者提供大数据服务、解决方案和数据资源。
未来大数据还将彻底改变人类的思考模式、生活习惯和商业法则,将引发社会发展的深刻变革,同时也是未来最重要的国家战略之一。
⑧ 谷歌重视数据分析的原因
因为在实际工作中无论是专业的数据分析岗位,还是运营、产品等岗位都开始关注从业者的数据分析能力,运营需要通过数据分析来解决流量、用户烂伍盯增长问题,产品需要利用数据分析解决业务增长需求。
无论你处于什么岗位,具备数据分析思维后,可以利用数据挖掘业务价值,也可以更宏观的审视公司业务创造更高的个人价值。目前国内橘段的饥和很多公司中,数据分析岗位的职责划分其实还不是很清晰。业务有问题了,找数据分析师;数据有问题,找数据分析师;运营有问题,找数据分析师;产品有问题,还找数据分析师。
⑨ 谷歌账号下载数据有什么用
你好!Google会将你的数据上拆世传到云端进行保存,当你在胡御渣另一个平台登陆后这些数据裤悄你可以调用。希望这个回答对你有帮助,祝你生活愉快!谢谢