导航:首页 > 网络数据 > 大数据傲慢

大数据傲慢

发布时间:2023-09-10 18:57:21

㈠ 如何理解传统数据与大数据之间的区别

针对大数据带给教育的机遇与挑战,与读者深入探讨和分享大数据与传统数据的区别,及其行业落地的进展情况。

二、大数据时代潜藏的教育危机

“不得不承认,对于学生,我们知道得太少”——这是卡耐基·梅隆大学(Carnegie Mellon University)教育学院研究介绍中的一句自白,也同样是美国十大教育类年会中出镜率最高的核心议题。这种对于学生认识的匮乏,在21世纪之前长达数百甚至上千年的教育史中并没有产生什么消极的效应,但却在信息技术革命后的近十年来成为教育发展的致命痼疾。

“过去,对于学生来说,到学校上学学习知识具有无可辩驳的重要性,而那是因为当时人们能够接触知识的渠道太少,离开学校就无法获取成体系的知识”斯坦福大学教授Arnetha Ball在AERA(美国教育研究会)大会主旨发言中说道,“但是,互联网的普及将学校的地位从神坛上拉了下来。”Ball的担心不无道理。根据Kids Count Census Data Online发布的数据,2012年全美在家上学(Home-Schooling)的5-17岁学生已达到197万人,相对逐年价下降的出生人口,这一人口比重十分可观。

与此同时,应运而生的则是内容越来越精致的网上课堂,而创立于2009年并迅速风靡全球的可汗学院(Khan Academy)正是其中的杰出代表。从知名学府的公开课到可汗学院,这种网络学习模式受到热捧恰恰证明了:人们对于学习的热情并没有过去,但是人们已经极端希望与传统的学院式授课模式告别。一成不变,甚至“目中无人”的传统集体教学模式在适应越来越多元化、也越来越追求个性化的学生群体时显得捉襟见肘。

可汗学院模式不但支持学生自主选择感兴趣的内容,还可以快速跳转到自己适合的难度,从而提高了学习的效率。学习者没有学习的压力,时长、时机、场合、回顾遍数都可以由自己控制。

可以想象,如果可汗学院的模式进一步发展,与计算机自适应(CAT)的评估系统相联系,让使用者可以通过自我评估实现对学习进度的掌握以及学习资料的精准获取,那么它将形成互联网产品的“闭环”,其优势与力量将是颠覆性的。

而如果传统教育的课程模式不革新,课堂形态不脱胎换骨,教师角色与意识不蜕变,那么学校的存在就只有对现代化学习资源匮乏的学生才有意义;而对于能够自主获得更适宜学习资源的学生来说,去学校可能只是为了完成一项社会角色赋予的义务,甚至谈不上必要性,也就更谈不上愉快的体验或兴趣的驱使了。

大数据的研究可以帮助教育研究者重新审视学生的需求,通过高新的技术以及细致的分析找到怎样的课程、课堂、教师是能够吸引学生的。但问题在于,社会发展给予教育研究者的时间窗口并不宽裕,因为有太多人同样在试图通过大数据挖掘设法瓜分学生们有限的精力与注意力。而且从某种程度上,他们做得远比教育研究者更有动力与诚意。

首当其冲的是游戏的设计者——青少年是其主要消费群体。撇开驰名世界的暴雪公司(Blizzard Entertainment),美国艺电公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等国际巨鳄不谈;即使是国内的盛大网络,第九城市,巨人科技,淘米网络等游戏公司,亦都早已组建了专业实力强劲的“用户体验”研究团队。他们会通过眼动跟踪,心律跟踪,血压跟踪,键盘与鼠标微操作速率等各种微观行为来研究如何让玩家在游戏中投入更多的时间,更加愿意花真实世界的钱来购买虚拟世界的物品。什么时候应该安排敌人出现,敌人应当是什么级别,主人公需要耗费多少精力才能够将其击败,这些变量都得到了严格的设计与控制,原因只有一个——大数据告诉游戏创作者,这样的设计是最能够吸引玩家持续游戏的。

其次是电影视频、青春小说等链式文化产业。为什么在网站上看视频会一个接一个,无法停止,因为它会根据该账号的历史浏览记录推算出其喜欢看什么样的视频,喜欢听什么类型风格的歌,并投其所好;而畅销网络小说看似并没有“营养”,但里面的遣词造句、语段字数,故事起伏设定,甚至主人公性格的类型都是有相关研究进行支持——读者往往并不喜欢结构严密、精心设计的剧情——这就是为什么情节千篇一律的韩剧受人追捧的原因,他们通过收视率的反复研究,挖掘到了观众最需要的那些元素,并且屡试不爽。

此外还有许多更强大的研究者,比如电子商务,总能通过数据找到你可能愿意购买的商品——他们甚至知道买尿片的父亲更愿意买啤酒。

这些领域看似与我们教育者并无特别关联,但是他们与我们最关心的对象——学生却有着千丝万缕的联系。数百年甚至数十年前,学生并不会面对如此多的诱惑,学校在其生活中占据极大比重,对其影响也最为显着,因此教育者对于学生的控制总是有着充分的自信。但是,当不同的社会机构与产品开始争夺学生的注意力时,教育者的自信就只能被认为是一种无法认清形势的傲慢了——因为在这场“学生争夺战”中,传统学校看上去实在缺乏竞争力。

即使教育研究者愿意放下身段,通过大数据的帮助来悉心研究学生的需求与个性。但是人才的匮乏也是非常不利的一点因素——相比于商业环境下对研究实效的追逐,教育研究的缓慢与空洞显得相形见绌。在互联网企业纷纷抛出“首席数据官”的头衔,向各种数据科学狂人抛出橄榄枝,并且在风险投资的鼓舞下,动辄以百万年薪进行延聘时,大数据研究的前沿阵地必然仍是在互联网行业中最轰轰烈烈地开战。

分析形势后的姿态,以及投入的力度与强度,或许是教育领域在进入大数据研究时最先需要充分考虑的两个先决条件。

三、谁在为大数据欢呼:一场关于“人性”研究的启蒙

孜孜不倦地观测、记录、挖掘海量的数据,有朝一日终会推导出或简约或繁复的方程,以此得以在自然科学的历史丰碑上留名——数百年来,这种对数据的崇拜早已成为了物理学家、化学家、生物学家、天文地理学家们的信念。而牛顿,贝叶斯,薛定谔等一代代巨匠的伟业也揭示了数据对于科学发现的无限重要价值。

相形之下,社会科学领域的研究就要惨淡地多——他们同样看重数据,同样追求统计与分析的“程序正义”,同样勤勤恳恳地设计实验与调研,去寻找成千上万的被试,同样像模像样地去嵌套方程……但是几乎很少有研究结果能够得到普遍的承认,不管是社会学、心理学、经济学、管理学还是教育学。

当然,社会科学领域的研究者们遇到的困难是显而易见的:“人性”与“物性”是不同的,物质世界比较稳定,容易寻找规律;而由人组成的社会极其善变,难以总结。从数据的角度来说,人的数据不如物的数据那么可靠:

首先是人不会像物那样忠实地进行回应:谁知道一个人填写的问卷有多少是注意力不集中填错的、语文水平不高理解错的、还是压根没打算讲真话?此外,人与人本身的差距也大于物与物的差距:两个化学组成相同的物质表现出各种性质几乎是完全一样的,但即使是两个基因完全相同的双胞胎也会因为不同的人生经验,而表现出大相径庭的行为特征。

但这些都还并不关键,最最重要的是:人无法被反复研究。人不是牛顿的木块,不是伽利略的铅球,不是巴普洛夫的狼狗,人不会配合一次次从斜坡上被滑下来,一次次从比萨塔顶被扔下来,一次次流着口水干等着送肉来的铃声。而我们知道,在“科学”的三个标准中,首当其冲的就是“可重复验证”。

换句话说,我们可以获得的关于“人性”的数据不够大,不够多,不够随时随地,因此我们无法从数据中窥见人性。2002年诺贝尔经济学奖授予心理学家丹尼尔?卡尼曼(Daniel Kahneman)时,似乎标示着社会科学领域已经接受了这样一种事实:人类的行为是无法寻找规律、无法预测、难以进行科学度量的。社会科学开始怀疑用纯粹理性的方法是否可以解答关于“人性”的种种现象。与此相映成趣的是2012年的美国大选,奥巴马的团队依靠对网络数据的精准筛选捕捉到了大量的“草根”选民,而对于其喜好与需求的分析与把握更是赢得其信任,从而在不被传统民调与历史数据规律看好的情况下一举胜出。这跨越十年的两个标志性事件让人们对于“数据揭示人性”可能性的认识经历了戏剧性的转变。

如今,迅速普及的互联网与移动互联网悄然为记录人的行为数据提供了最为便利、持久的载体。手机,iPad等贴近人的终端无时不刻不在记录关于人的点点滴滴思考、决策与行为。最最重要的是,在这些强大的数据收集终端面前,人们没有掩饰的意图,人们完整地呈现着自己的各种经历,人们不厌其烦一遍又一遍重复着他们不愿在实验情境下表现出来的行为,从而创造着海量的数据——传统数据研究无法做到的事,传统研究范式苦苦纠结的许多难点,都在大数据到来的那一刹那遁于无形。

大数据的到来,让所有社会科学领域能够藉由前沿技术的发展从宏观群体走向微观个体,让跟踪每一个人的数据成为了可能,从而让研究“人性”成为了可能。而对于教育研究者来说,我们比任何时候都更接近发现真正的学生。

㈡ 网友拿出证据,天猫超市大数据是否存在“杀熟”

这是一个发生在2020年3月8日的一件事,在天猫3·8活动期间,由于“新人专享价”的标识没有正常显示,造成了很多用户产生同款商品不同价的误解,被广大网友认为了大数据“杀熟”。当然,这个问题也得到了官方很快的修复,不过在天猫超市,只要是88VIP用户,始终都可以在结算的时候,获得9.5折的优惠,因此不存在所谓的大数据杀熟。

因此调查的结果显示出,在遭遇到“大数据杀熟”之后,一般很难维护自己的正常权益,主要是由于“大数据杀熟”具有隐蔽性,维权的时候很难取证,因此维权道路举步维艰。而过半数的调查者都存在被“大数据杀熟”的经历,但因为经营者通常会以不同的商品型号和不同的套餐优惠程度或是配置,或是时间点等理由进行辩解,同时又不对外公布他们具体采用的算法、规则和数据,因而当消费者们在遇到这些类似问题的时候,很难找到证据来证明。

㈢ 大数据时代,怎样更"开心"的活着

知足者常乐

㈣ “大数据”如何接地气

“大数据”如何接地气

8月19日,国务院常务会议通过《关于促进大数据发展的行动纲要》,提出要通过促进大数据发展,提升创业创新活力和社会治理水平。在上述国务院常务会议中,大数据被定义为“基础性战略资源”。促进大数据发展,有利于推动大众创业、万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势。《纲要》强调,使开放的大数据成为促进创业创新的新动力。让各类主体公平分享大数据带来的技术、制度和创新红利。
1.产业 开放:数据创业全面爆发
案例:
在日前举行的“云上贵州”大数据商业模式大赛总决赛上,涌现了很多实用的大数据应用。其中,获得一等奖的“东方祥云”项目设想为全国15万座水电站、水库提供免费来水预报,帮助合理调度用水,据估算可为这些单位信息化改革节省90%的成本。
《纲要》提出,使开放的大数据成为促进创业创新的新动力。对此,阿里云总裁胡晓明表示,这将极大地推动数据经济的发展。他认为,在数据处理技术时代,数据就是生产力。“数据创业会在明年全面爆发,会有更多的人参与到为政府、企业提供数据服务、数据能力、数据交易、数据撮合中来。”
网络、阿里淘宝和支付宝、腾讯qq微信、银行业、移动运营商、公交卡、各种手机App……在各行各业,许多有价值的大数据潜力正待挖掘。今年5月,成立仅一个月的贵阳大数据交易所推出的《2015年中国大数据产业白皮书》显示,预计到2020年,中国大数据产业市场规模将超过这个市场去年规模的10倍,由2014年的767亿元扩大至8228.81亿元。
“中国的大数据时代才刚刚开始,各路群雄创新商业模式、抢占战略高地。传统产业中藏有海量的宝贵数据,只是没有利用起来。”清华大学数据科学研究院执行副院长韩亦舜说。
大数据的“新玩法”可谓超乎想象,但大数据的利用价值远不止如此。以中国公路物流行业为例,其市场价值已达亿万元级,而90%以上运力为个体车主,空驶率达30%以上,大数据应用可以充分利用物流资源。
中国工程院院士、中国互联网协会理事长邬贺铨表示,硬件、软件和服务三者之和,也仅仅是狭义的大数据产业,广义的大数据产业的范围和规模都更大。通过大数据挖掘的服务,大数据可以利用在各行各业,提高生产效率,支撑节能降耗,促进经济发展,因此广义的大数据产业的产值,更多地体现在工业、农业、交通运输、建筑等产业中。事实上,大数据分析在社会福利和民生服务上的效益很显著,并不是简单地用GDP可以衡量的。这是我国实现跨越式发展的宝贵机会。
“大数据加速了信息技术向传统产业渗透,成为新产业革命的重要引擎。”邬贺铨表示。
2.政府 共享:消除信息孤岛
案例:
8月17日,河北省承德市政府与神州数码签署市民融合服务平台及企业融合服务平台战略合作协议。至此,神州数码与近40个城市签署智慧城市战略合作协议,形成了一系列卓有成效的解决方案,成为中国市场领先的“智慧城市专家”。
事实上,在我国,各级政府的交通、医疗、就业、市政、民政等各个部门都拥有大量的统计数据,但由于没有共享机制和价值挖掘,这些数据一直在“沉睡”。“已有的数据首先要使用起来,发现闲置的价值;那些原本没有,但事实证明对自己有用的数据要赶紧采集、挖掘新价值。”韩亦舜说。
此次《纲要》提出,要推动政府信息系统和公共数据互联共享,消除信息孤岛,加快整合各类政府信息平台,避免重复建设和数据“打架”,增强政府公信力,促进社会信用体系建设。优先推动交通、医疗、就业、社保等民生领域政府数据向社会开放,在城市建设、社会救助、质量安全、社区服务等方面开展大数据应用示范,提高社会治理水平。
神州数码董事局主席郭为指出,此次通过的《纲要》强调消除信息孤岛,实际上就是要求将分散在各个部门的政府服务及公共服务进行统一,这些服务和大数据将来都有助于大数据领域企业的发展。郭为分析说,此举还会对大众创业、万众创新带来明显的推动力。在政府数据开放的要求和规则下,大数据领域的企业可以通过城市公共信息服务平台汇集城市的各类基础性数据,通过平台实现数据共享。以此为基础,广大年轻人和创业者就可以利用政府开放数据和其他相关开放数据,开发出成千上万为百姓民生服务的丰富多彩的应用产品,进一步营造大众创业、万众创新的氛围。
“数据既具有一般资产的价值,又具备一般资产不具备的属性。”韩亦舜说,“一般资产你有了,我就没有;把我的给了你,我就没有了。但数据不一样,把我的数据给了你,我的数据还在,这就决定了大数据时代需要人们的心胸更开阔。大数据时代,1+1产生的价值将会被无限放大,远远大于2,数据的叠加会发生化学反应。”
“美国将大数据分析作为国家战略来推动,政府带头进行数据开放。美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。中国很多部门拥有的数据互不沟通,很难共享,导致信息不完整或重复收集等。因此,中国需要有国家层面的大数据战略、开放数据的措施及法规等。”邬贺铨说,政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,重视数据挖掘。
3.法制 安全:要防止数据被滥用
案例:
2012年2月16日,《纽约时报》刊登了一篇题为《这些公司是如何知道您的秘密的》的报道。文中介绍了这样一个故事:一天,一位男性顾客怒气冲冲地来到一家折扣连锁店向经理投诉,因为该店竟然给他还在读高中的女儿邮寄婴儿服装和孕妇服装的优惠券。但随后,这位父亲与女儿进一步沟通发现,自己女儿真的已经怀孕了。
这一故事,经常被作为大数据挖掘能力的典型例证。但在专业人士看来,这一案例体现出的并不是大数据的“聪慧”,而是大数据的“傲慢”,个人隐私并没有得到足够尊重。
“我今天上淘宝网购物,淘宝有我个人数据,我的行为数据是属于淘宝还是属于我?目前国际法律认为这个数据属于消费者。淘宝可以用,可用于提升用户体验,但如果淘宝把该数据卖给第三方就不行。”百分点董事长苏萌说,但如果淘宝卖出的不是原始数据而是其分析结果,这种第三方分享的形式在美国目前大部分市场上是认可的,如IBM等企业也在利用这些数据为第三方提供服务。
但有业内人士认为,大数据在涉及交换、分析、挖掘时,个人信息是无法直接过滤的。这些个人隐私数据散落在中介、银行、保险、航空公司等机构间,危险性可能不大。但如果被共享之后,又被系统整合、相互印证的话,消费者的个人基本信息,甚至性格、爱好以及生活轨迹等信息将被他人一览无余,很多普通人将变成“透明人”。
韩亦舜认为,目前,隐私问题存在着利己主义的悖论。“举例来讲,上海跨年夜发生的踩踏事件,技术上可以看到人流的变化趋势,是完全可以预警、预防的,悲剧的发生直接关系着数据伦理问题。数据安全或者保护数据就一定对吗?这里也有一个伦理问题。”
“在美国,一些公司把‘底层’的详细个体数据去除掉,这样能规避掉一些隐私和安全问题。”清华大学苏州研究院大数据中心副主任赵勇表示,从大数据监管来说,“最适合的是政府”。上海已成立大数据局,这是对数据管理的专业政府机构。最核心的管理是从法制上界定“数据拥有者是谁”“使用者是谁”“使用权限如何定义”“谁是受益者”等。

以上是小编为大家分享的关于“大数据”如何接地气的相关内容,更多信息可以关注环球青藤分享更多干货

㈤ 拼多多利用大数据优势侵害用户利益,用户斥责黄峥缺乏基本道德观


近日YOUNG 财经 接到读者投稿,讲述其作为一名普通用户在拼多多平台上购物时,被引诱开通会员卡、累计消费积分的黑幕,同时购买的有“运费险”的店铺商品在退货时,平台不为其退运费。在最后他发问:拼多多董事长黄峥发布2021年度致股东信中表示,辞任董事长后,自己将结合个人兴趣,致力于食品科学和生命科学领域的研究,并着眼于拼多多未来的长远发展,“去摸一摸10年后路上的石头”。但一个缺乏基本道德观的人,同时也是拥有足够资本的人,进入食品科学和生命科学领域,会不会是一颗中国 社会 的定时炸弹?

以下为拼多多用户的口述实录:

作为使用拼多多的买家,初期我在拼多多上拼单网购,感觉能够选到一些我需要的物美价廉的小商品,而且沟通过的商家多数也挺靠谱,便支付并开通了平台提供的省钱月卡。

成为月卡会员后,在我有购买小商品的需求时,也会习惯性的打开拼多多平台,在上面选购商品。因为月卡规则中有“消费金额满额赠积分”,慢慢地我发现,由于我购买的次数增加、累计金额增加后,拼多多平台给我这个月卡会员的积分门槛也随之增加。例如:当我一天购物只有三四十元的时候,平台会提示我消费满48元赠10积分;当我买几样稍贵些商品的时候,平台赠10积分的要求变为100-200元左右;如果我连续几天不再消费大金额,平台的积分门槛随之下降。这些是很明显的,拼多多平台利用掌握的客户消费习惯的大数据,引诱和捆绑客户。作为弱势的消费者,也只能听之任之。

截图由用户提供

由于我挑选小商品及拼多多上商家比较审慎,所以周边的亲朋好友们建议我开个小店,帮他们挑选实用的小商品,省去他们在平台上浏览挑选的时间,也免去他们会遇到不淑商家的麻烦。这也就是我会在拼多多平台上购物逐渐增多的原因。拼多多发现我的购物习惯的改变,将之前下单数量对应积分数的规则也随之悄悄地改变,我被要求满足800-1000元不等的消费金额后,赠10积分。拼多多做到这样,我也没有过多的在意。

拼多多承诺月卡会员的另一条福利,是当月购买15单,单价满足25元时,在这15单里随机免一单,免单的金额,会以平台优惠券的形式发放给会员,会员可以在下一个订单支付时使用。我在4月当月已拼385单满足平台条件后,系统显示我已免一单,金额是28.9元,

但是我却没有收到任何的此金额的优惠券,向平台客服反映多次无果,在线客服的回复永远是机器人式的套话,终于有个电话客服与我对话了,她告诉我,她会向相关部门反映,三天内答复我,当时是4月24日,直到今天5月5日,我未接到拼多多官方客服的来电解释。

接下来,拼多多平台更是利用其大数据优势,在我退货时,克扣我的运费。因为是帮别人选商品,担心由于个人的喜好,或是产品质量问题,我都会选择有运费险的商家,但是当我退货成功后,平台却不通过我的运费补贴申请。

我与拼多多在线客服沟通多次,他们均以让我投诉商家为由,答非所问,回避问题。

显而易见在拼多多这个平台上顷盯,无论是商家还是买家,都是处于弱势的。我拨打拼多多官方客服电话,接通后是录音让你等待,我等待了近20分钟,没有任何真人接听,或是看到客户来电后的任何回复。

互联网的时代,涌现出众多连接消费者与商家的电商平台,的确拓展了商家的市场,也为消费者提供了更多选择的机会。但是众多平台中也有一些利用其技术优势,控制入驻商家,在抽取商家经营利润的同时,对消费者的信息进行多维度的利用,以达到其获得更高利益的目的。国家监管部门基于对这些不良互联网大拆电商平台的治理,2019年实施了《电子商务保护法》,但是即使在国家加大对互联网电商平台监管的同时,拼多多作为中国排名居前的电商平台,却对消费者使用“大数据杀熟”,遇到投诉,傲慢的将责任推给入驻商家,雀仿和意在将消费者的不满引向商家,制造矛盾。不仅侵害消费者利益,还会扰乱正常的 社会 秩序,行为很恶劣。

本人作为一个具有本科学历,并在一线城市工作和生活的消费者,在权益受到拼多多官方侵害时,都无力应对,那么被拼多多瞄准的下沉市场的农产品供应商家们,在“享受”拼多多提供电商平台服务的时候,大概率也是对拼多多的不公平待遇,只能听之任之了。

我一个人遇到的侵害是28.9元的产品,和10元的运费。根据《中国互联网络发展状况统计报告》显示,截止2020年12月,中国网民规模约9.89亿。我国网络购物用户规模约7.82亿。在拼多多发布的2020年第四季度及全年财报中:截至2020年底,拼多多年活跃买家数达7.884亿,成为中国用户规模最大的电商平台。四季度,拼多多APP平均月活跃用户数达7.199亿,单季新增7650万。截至2020年底,拼多多年成交额(GMV)为16676亿元,同比增长66%,拼多多营收增长146%至265.477亿元。不知道拼多多营收的265.477亿元中,是多少个28.9元和10元的无德无良的收入组成的呢?

拼多多董事长黄峥发布2021年度致股东信中表示,辞任董事长后,自己将结合个人兴趣,致力于食品科学和生命科学领域的研究,并着眼于拼多多未来的长远发展,“去摸一摸10年后路上的石头”。一个缺乏基本道德观的人,同时也是拥有足够资本的人,进入食品科学和生命科学领域,会不会带来新的问题?

㈥ 大数据时代,科技走到了宗教尽头

大数据时代,科技走到了宗教尽头

这是一个人人都言“大数据”的时代,然“大数据”存在于何处?影响于何处?难免,普通大众被席卷而来的“大数据”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“大数据”的局限性。

渗透时刻,无处不在的大数据

大数据可能是时下最吸引眼球的话题之一。从通过鲜花与安全套销量比分析不同城市的浪漫指数到发现深处内陆的新疆人民反而比基尼销量第一,从为节能减排做贡献到德国国家队利用大数据技术搜集球员信息征战世界杯到根据敌方机场起降信号,一分钟内分析出起降批次,战斗机型号等细节,再到获得获第86届奥斯卡金像奖最佳原创剧本奖的《她》,剧本内主角和人工智能系统之间感情逐渐加深直到爱上彼此,大数据给人带来无尽遐想,带来无限精彩的可能。

就像马云所说的那样,人类已经从IT时代走向DT时代。阿里巴巴集团数据委员会长车品觉在他的著作《决战大数据》里面也强调了两个重要观点:其一,大数据彻底消除了“样本偏差”(sample bias)。“样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得”;其二,大数据时代的相关性分析可以创造以前无法想象的场景。极端情况下,线上数据的积累,可以形成个人的”线上人格”,影响乃至控制人的线下行为。

傲慢是罪,保持一颗敬畏之心

大数据前景如此美好,竟让我无言以对。然而,傲慢是罪。“智慧果”让人类拥有了智慧,但同时也让离开伊甸园的人类从此无法摆脱傲慢的原罪。从“通天塔”到在“地上建立天国”,失去敬畏之心的人类往往给自己造成巨大伤害。大数据时代,同样应该保持一颗敬畏之心,认识到以下三点。

一、样本偏差始终存在,大数据没有超越统计学

什么是样本偏差?这方面最精彩的例子来自二战。其简化版本是,英国皇家空军苦恼于德军凶猛的防空炮火,想通过加强飞机装甲降低战斗机损耗率。但受制于飞机载重,只能在部分部位加强装甲。为此,他们求助于一位统计学家。在仔细观察成功返回机场飞机上的着弹痕迹后,专家给出了出人意料的结论:在没有着弹痕迹的部位加装装甲。面对质疑,统计学家只回答了一句话。“那些部位着弹的飞机都坠落了”。可见,统计学永远是个手艺活,没有两把刷子是要害死人的。

本质上来说,统计学就是用部分推测整体,用过去预测未来的理论体系。其最大的弱点在于部分推测整体时,样本偏差会让结论失效。那么,在大数据时代,是否真的来到了天堂,没有样本偏差的困扰了?答案显然是否定的。从现象上来看,即使在大数据时代,数据与应用场景也会有严重割裂。拿情人节鲜花和安全套比率这个例子来说,基于“你懂得”的原因,很多安全套消费发生在线下,线上无法获取该数据。因为技术手段或商业模式本身的限制,线上系统能采集到的数据只是完整场景中的一部分,不是全部数据。再比如新疆人民比基尼销量第一的例子。数据分析人员如果不能意识到真实场景中,新疆的比基尼销售量主要集中线上(线下传统渠道销量很少或者基本没有?)但其它省份比基尼销售主要在线下(线上销量占比8%~10%)就会得出错误的结论。同时,在新疆,淘宝天猫的网上销量基本代表了真实的网上销量。但在北上广这些一线城市,京东的线上销量已经和淘宝天猫相当,只考虑阿里系的数据,会严重低估真实销量。

从理论上分析,数据与应用场景的割裂本质上就是样本偏差。因为技术或者利益的原因,大数据时代搜集的数据也不能完全覆盖应用场景的各个环节,所取得的数据仍然是部分,不是全部。最后,从哲学层面来说,即使以后技术有了长足的进步,解决数据与场景的割裂问题,同时也有了完美的商业模式可以让竞争对手乐意互相分享数据,样本偏差仍然会存在。其核心在于,人类虽然有能力认识客观世界的所有规律,但客观世界本身并不是静止的,而是在不断运动当中。过去的数据,一定不能体现客观世界未来的发展规律。“刻舟求剑”的理念不符合实际。从这个角度上来说,“黑天鹅”事件的本质就是样本偏差。技术再先进,商业模式再精妙,也不能解决这个问题。所以说,即使在大数据时代,人们还是应该有敬畏之心,在这个时代,科技确实游走到了宗教边缘。

二、大数据结论是统计学意义上的整体性结论,并不是针对个体

任何基于统计学的理论分析和结论都是整体性的。阿西莫夫在他的著作《基地》里完美的阐述了这一观点。哈利.谢顿以银河系里2000万星球上百亿亿居民为研究对象,成功创建了心理历史学,并以此成功预测了银河帝国会经历长达三万年的黑暗野蛮时期和银河第二帝国的出现。但无法用该理论预测个体。所以它无法预言变异人骡的出现。若非第二基地的存在,整个复兴计划险些失控。《失控》也描述了类似的现象。深海里的鱼群作为一个整体,行为规律非常容易预测。但单个个体行为毫无规律,难以预测。淘宝/天猫的“千人千面”是大数据时代的重要尝试。其核心基于大数据,为淘宝/天猫客户展现个性化搜索结果。该项目核心细节并不为外人所知,但基于理论分析,可以做出合理的推测。首先,淘宝/天猫搜集的数据一定不是所谓的“全量数据”,现有条件下,很多与顾客购买兴趣相关的核心数据无法被搜集。其次,即使模型准确率能达到99%,对于一个上亿规模的平台来说,也有近千万的客户会有比较差的用户体验。基于此,“千人千面”个性化程度必须做合理化约束,否则,理想越美好,现实就会越骨感。

三、相关性始终不是因果,这方面应用陷阱和机会一样多

相关性分析是数据分析利器,同时又是最容易引入问题的地方。相关并不是因果。统计数据显示,冰淇淋销量上升时,水中溺死人数会迅速上升,两者之间呈现极强的正相关。那么冰淇淋消费会引起人溺死吗?答案显然是否定的。只是天气炎热会同时增加冰淇淋消费和人们水上活动的几率。一个更有说服力的例子是某个时期的统计数据显示,白酒价格和牧师收入之间有极强的正相关。难道牧师群体们一个个都是“酒肉穿肠过,佛祖心中留”?答案也是否定的,其真实原因只是因为通货膨胀同时导致了白酒价格和牧师收入水平上涨。在大数据时代,相关与因果的混淆可能导致的问题会远超以往。大数据时代,数据极为充分,计算能力极强,可以发现以往无法发现的相关性。这是大数据时代让人兴奋的地方。但同时,相关性与因果性的辨别难度极大提升。一旦判断失误,会引起极大的问题。譬如说,目前阿里小贷引以为豪的信用判别模型与自动放款。假设目前信用模型相关性失效,“即通货膨胀率长期稳定,白酒价格和牧师收入不再强相关”,那通过现有模型筛选的主体的真实信用等级会有极大风险,后果不堪设想。以上分析纯粹基于理论层面,并不指向某个具体项目,但随着大数据技术的进步,辨别相关性与因果性的难度会越来越大,风险也会越来越高。

这个世界最让人理解的就是它是不可理解的。这个世界最让人难以理解的就是它又是可以理解的。大数据时代,我们需要有一颗敬畏之心。傲慢是罪。

以上是小编为大家分享的关于大数据时代,科技走到了宗教尽头的相关内容,更多信息可以关注环球青藤分享更多干货

㈦ 【微科云】大数据=数据大Out!

在信息喷涌而来的当下
你的秘密,都不再是秘密!
你想要的书,亚马逊懂你!
你的喜好,Facebook最懂!
你负责做自己,Linkedin负责猜你可能熟悉的TA!
…………………………
而这一切的一切都离不开
大数据

你还以为
大数据=数据大?
图样图森破
(too young too smpie)

那大数据究竟是什么鬼?
来吧!【微科云】带你揭开大数据的神秘面纱!

数据:能用电脑处理

数字:通过人工处理

先来看一段科普视频呗~
https://v.qq.com/iframe/preview.html?vid=p03026a40u9&width=500&height=375&auto=0
(建议在WiFi的情况下观看)

①Volume 数量大

数据的体量大!有多大?相当于N个1T大小的云盘!(1T=1024G!)1T多大不知道?1G流量总知道吧!

②Variety 种类多

涵盖文字、图片、视频、日志等,只有你想不到,没有它找不到!

③Value 价值大

别小看这堆杂七杂八的数据!它们的商业价值可以帮企业盈利哦~!

④velocity 速度快

处理速度快,目前可以用大数据处理的数据增多,于是失业后吃土的家里蹲也增多了~!

①全部数据 不是随机样本

重要的不在于数据数量的多少,随机性越大!调查的准确性越高!美国早年花了13年才算出人口普查的结果。有了大数据,管你人口是1亿还是13亿?瞬间出结果!

②混杂性 不精准

比如谷歌,其强大的翻译功能,集合了杂乱的数据,即使你不懂英语,也不用担心~!

③相关性 不是因果关系

举例: 收入和幸福的关系
-因果关系:当收入<2万美元,钱的多少通常会影响幸福指数;
-相关关系:当收入>2万美元,钱的多少与是否幸福木有关系。

把时间轴定格在20世纪,当SRAS病毒席卷当时的西班牙,确诊至少需要半个月的时间,半个月的时间并不长,但对确诊的患者却很漫长~而谷歌早早公布的预测数据和2个月后疾控中心的预测数据,近97%的结果不谋而合,大数据的威力,令人叹为观止!

①李彦宏 大数据开启智能时代

提起大数据,网络公司创始人、董事长兼首席执行官【李彦宏】在“大数据开启智能时代”的演讲中说“最近几年,人工智能为什么这么火?最主要的一个原因就是因为大数据……”

2016年的跨年演讲上,提起人工智能,罗胖称:真正最重要的战场转移到了大数据。

网络运用大数据成功“探测景区热力图”

【热力指数】反映景点的人气热度及所在城市的热度排名。
网络地图把热力图应用到日常出行,通过位置聚类,计算景区内聚类的人群密度和人流速度,综合计算出聚类地点的热度,从而将结果体现在“热力指数”中。

聚类的定义

将物理或抽象对象的集合分成由类似的对象组成的多个类别的过程,被称为聚类。

刘强东 大数据与电商

谈到大数据和电商的结合能够为社会创造的价值,刘强东相信大数据会提升零售业的效率。京东就成功尝试利用大数据分析提升物流的效率。

②马化腾 大数据生态

腾讯定位清晰,马化腾希望未来和合作伙伴一起,就只做一件事:

连接!连接!连接!
希望能和大家共建整个大数据的生态。

而微科云把将大数据应用到呼叫中心
有了微科云,BOSS和客服们,再也不用担心客户投诉的困扰,报表生成的耗时、数据安全的困扰……

以语音辨识为基础的各种应用,由于辨识准确率的突破,结合大数据分析应用,已成为目前金融、保险、政府及各大企业的关注重点。

利用语音转写为文字,透过智能搜索分析,检测通话中的关键词,对内容进行分类、聚类等逻辑分析,提供来电原因分析、可视化全质检、电销业务分析及挖掘客户需求等服务。

微科云专注于语音大数据分析应用导入及相关软件开发,结合最先进的辨识引擎及分析平台,推出全套解决方案,为行业内的技术领头羊之一。

语音辨识的基础技术包括特征提取、比对匹配及模型优化3个方面。

在实际应用中,语音辨识分析应用以语音转文字STT(Speech to Text)为主,即大词库连续性语音分析。是指针对连续性的语音输入进行辨识,将其由语音翻转成文字型式存储。

在大词库语音分析应用中,需要按用户的常用词句及话术,建立特定的比对大词库。由于本应用是词库比对,所以不同的行业,需要使用不同的比对词库,微科云极大的优势之一是自有专业的团队、完整的分析设备及工具,能按客户需求,随时按产品及服务内容的变化,修改调整比对词库,以保障恰当的辨识率。

质检、培训及现场管理为呼叫中心运营的3大支柱。在质检系统中找到问题、然后在培训中强调改善,以提高运营管理的效率,成为管理的核心基础。 作为业内最先进的质检系统,语音识别质检具有下列的功能特性:

-所有录音进行语音转文字分析,将录音结果以文本方式同时展现,提高质检效率。

-逻辑方式描述质检规则,进行正向质检,分析客服人员是否按服务要求,进行产品介绍、核身及相关条款说明等等。

-逻辑方式,侦测服务态度,进行负向质检,分析客服人员是否有傲慢、反问、不耐烦等行为以提高服务品质。

-按不同违规程度及发生时间,优先处理重大事件。

-按不同质检规则、组织架构、违规程度、发生时段弹性展现报表,进行精细管理。

语音识别电销改善应用

语音分析在银行电销领域的主要应用为信用卡分期业务,进行方式为3大部分:

-话术分解,将销售过程分为5大主题:建立关系、促发需求、产品说明、异议处理及成交确认。以逻辑方式,描述交流内容,进行聚类,规范坐席人员的交流内容及时间分配,进行话术标准化。

-客户标签,按客户交流内容,对客户进行分类,例如疑问型、谨慎型、实际需求型、保守型等。按用户的标签,投其所好进行交流。

-销售阶段流失分析,了解在每个阶段潜在用户拒绝理由及比例,进行针对性分析及设计挽留话术,以提高成功率。

-无形中督导坐席认真工作;坐席每天的通话内容均会出现在第2天分类的报表里
-提高销售业绩,增加公司收入
-增加坐席信心,提高坐席收入并降低流动率
-分析拒绝的理由,决定下次接触政策,例如进行微信或EDM接触而非直接翻打
-作为银行大数据分析的部分来源,以了解消费倾向、产品定位等信息
……
…………

更多详情扫码咨询小助手或搜索(wechat号:Wellcloud01)

阅读全文

与大数据傲慢相关的资料

热点内容
javaweb面试 浏览:4
qq空间说说点不进去 浏览:772
nodejscms系统 浏览:822
追星数据组是什么东西 浏览:3
文件的格式怎么建立 浏览:529
免费yoosee苹果下载 浏览:447
网络大国与大数据 浏览:770
怎么学plc的编程 浏览:643
javadnf辅助源码 浏览:973
什么app可以画二维图像 浏览:125
手机如何设置副路由器设置密码 浏览:592
如何让已经压缩的文件恢复 浏览:344
网络atm取款支出是什么意思 浏览:942
ios查看wifi密码插件 浏览:742
win10因蓝屏 浏览:322
app病毒是如何植入的 浏览:384
hadoop文件系统查看 浏览:317
热门app免流都有哪些 浏览:619
cad怎么转换mpgis文件 浏览:631
win10照片不能用了 浏览:878

友情链接