导航:首页 > 网络数据 > 传统数据与大数据

传统数据与大数据

发布时间:2024-01-21 02:41:58

Ⅰ 如何理解传统数据与大数据之间的区别

针对大数据带给教育的机遇与挑战,与读者深入探讨和分享大数据与传统数据的区别,及其行业落地的进展情况。

二、大数据时代潜藏的教育危机

“不得不承认,对于学生,我们知道得太少”——这是卡耐基·梅隆大学(Carnegie Mellon University)教育学院研究介绍中的一句自白,也同样是美国十大教育类年会中出镜率最高的核心议题。这种对于学生认识的匮乏,在21世纪之前长达数百甚至上千年的教育史中并没有产生什么消极的效应,但却在信息技术革命后的近十年来成为教育发展的致命痼疾。

“过去,对于学生来说,到学校上学学习知识具有无可辩驳的重要性,而那是因为当时人们能够接触知识的渠道太少,离开学校就无法获取成体系的知识”斯坦福大学教授Arnetha Ball在AERA(美国教育研究会)大会主旨发言中说道,“但是,互联网的普及将学校的地位从神坛上拉了下来。”Ball的担心不无道理。根据Kids Count Census Data Online发布的数据,2012年全美在家上学(Home-Schooling)的5-17岁学生已达到197万人,相对逐年价下降的出生人口,这一人口比重十分可观。

与此同时,应运而生的则是内容越来越精致的网上课堂,而创立于2009年并迅速风靡全球的可汗学院(Khan Academy)正是其中的杰出代表。从知名学府的公开课到可汗学院,这种网络学习模式受到热捧恰恰证明了:人们对于学习的热情并没有过去,但是人们已经极端希望与传统的学院式授课模式告别。一成不变,甚至“目中无人”的传统集体教学模式在适应越来越多元化、也越来越追求个性化的学生群体时显得捉襟见肘。

可汗学院模式不但支持学生自主选择感兴趣的内容,还可以快速跳转到自己适合的难度,从而提高了学习的效率。学习者没有学习的压力,时长、时机、场合、回顾遍数都可以由自己控制。

可以想象,如果可汗学院的模式进一步发展,与计算机自适应(CAT)的评估系统相联系,让使用者可以通过自我评估实现对学习进度的掌握以及学习资料的精准获取,那么它将形成互联网产品的“闭环”,其优势与力量将是颠覆性的。

而如果传统教育的课程模式不革新,课堂形态不脱胎换骨,教师角色与意识不蜕变,那么学校的存在就只有对现代化学习资源匮乏的学生才有意义;而对于能够自主获得更适宜学习资源的学生来说,去学校可能只是为了完成一项社会角色赋予的义务,甚至谈不上必要性,也就更谈不上愉快的体验或兴趣的驱使了。

大数据的研究可以帮助教育研究者重新审视学生的需求,通过高新的技术以及细致的分析找到怎样的课程、课堂、教师是能够吸引学生的。但问题在于,社会发展给予教育研究者的时间窗口并不宽裕,因为有太多人同样在试图通过大数据挖掘设法瓜分学生们有限的精力与注意力。而且从某种程度上,他们做得远比教育研究者更有动力与诚意。

首当其冲的是游戏的设计者——青少年是其主要消费群体。撇开驰名世界的暴雪公司(Blizzard Entertainment),美国艺电公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等国际巨鳄不谈;即使是国内的盛大网络,第九城市,巨人科技,淘米网络等游戏公司,亦都早已组建了专业实力强劲的“用户体验”研究团队。他们会通过眼动跟踪,心律跟踪,血压跟踪,键盘与鼠标微操作速率等各种微观行为来研究如何让玩家在游戏中投入更多的时间,更加愿意花真实世界的钱来购买虚拟世界的物品。什么时候应该安排敌人出现,敌人应当是什么级别,主人公需要耗费多少精力才能够将其击败,这些变量都得到了严格的设计与控制,原因只有一个——大数据告诉游戏创作者,这样的设计是最能够吸引玩家持续游戏的。

其次是电影视频、青春小说等链式文化产业。为什么在网站上看视频会一个接一个,无法停止,因为它会根据该账号的历史浏览记录推算出其喜欢看什么样的视频,喜欢听什么类型风格的歌,并投其所好;而畅销网络小说看似并没有“营养”,但里面的遣词造句、语段字数,故事起伏设定,甚至主人公性格的类型都是有相关研究进行支持——读者往往并不喜欢结构严密、精心设计的剧情——这就是为什么情节千篇一律的韩剧受人追捧的原因,他们通过收视率的反复研究,挖掘到了观众最需要的那些元素,并且屡试不爽。

此外还有许多更强大的研究者,比如电子商务,总能通过数据找到你可能愿意购买的商品——他们甚至知道买尿片的父亲更愿意买啤酒。

这些领域看似与我们教育者并无特别关联,但是他们与我们最关心的对象——学生却有着千丝万缕的联系。数百年甚至数十年前,学生并不会面对如此多的诱惑,学校在其生活中占据极大比重,对其影响也最为显着,因此教育者对于学生的控制总是有着充分的自信。但是,当不同的社会机构与产品开始争夺学生的注意力时,教育者的自信就只能被认为是一种无法认清形势的傲慢了——因为在这场“学生争夺战”中,传统学校看上去实在缺乏竞争力。

即使教育研究者愿意放下身段,通过大数据的帮助来悉心研究学生的需求与个性。但是人才的匮乏也是非常不利的一点因素——相比于商业环境下对研究实效的追逐,教育研究的缓慢与空洞显得相形见绌。在互联网企业纷纷抛出“首席数据官”的头衔,向各种数据科学狂人抛出橄榄枝,并且在风险投资的鼓舞下,动辄以百万年薪进行延聘时,大数据研究的前沿阵地必然仍是在互联网行业中最轰轰烈烈地开战。

分析形势后的姿态,以及投入的力度与强度,或许是教育领域在进入大数据研究时最先需要充分考虑的两个先决条件。

三、谁在为大数据欢呼:一场关于“人性”研究的启蒙

孜孜不倦地观测、记录、挖掘海量的数据,有朝一日终会推导出或简约或繁复的方程,以此得以在自然科学的历史丰碑上留名——数百年来,这种对数据的崇拜早已成为了物理学家、化学家、生物学家、天文地理学家们的信念。而牛顿,贝叶斯,薛定谔等一代代巨匠的伟业也揭示了数据对于科学发现的无限重要价值。

相形之下,社会科学领域的研究就要惨淡地多——他们同样看重数据,同样追求统计与分析的“程序正义”,同样勤勤恳恳地设计实验与调研,去寻找成千上万的被试,同样像模像样地去嵌套方程……但是几乎很少有研究结果能够得到普遍的承认,不管是社会学、心理学、经济学、管理学还是教育学。

当然,社会科学领域的研究者们遇到的困难是显而易见的:“人性”与“物性”是不同的,物质世界比较稳定,容易寻找规律;而由人组成的社会极其善变,难以总结。从数据的角度来说,人的数据不如物的数据那么可靠:

首先是人不会像物那样忠实地进行回应:谁知道一个人填写的问卷有多少是注意力不集中填错的、语文水平不高理解错的、还是压根没打算讲真话?此外,人与人本身的差距也大于物与物的差距:两个化学组成相同的物质表现出各种性质几乎是完全一样的,但即使是两个基因完全相同的双胞胎也会因为不同的人生经验,而表现出大相径庭的行为特征。

但这些都还并不关键,最最重要的是:人无法被反复研究。人不是牛顿的木块,不是伽利略的铅球,不是巴普洛夫的狼狗,人不会配合一次次从斜坡上被滑下来,一次次从比萨塔顶被扔下来,一次次流着口水干等着送肉来的铃声。而我们知道,在“科学”的三个标准中,首当其冲的就是“可重复验证”。

换句话说,我们可以获得的关于“人性”的数据不够大,不够多,不够随时随地,因此我们无法从数据中窥见人性。2002年诺贝尔经济学奖授予心理学家丹尼尔?卡尼曼(Daniel Kahneman)时,似乎标示着社会科学领域已经接受了这样一种事实:人类的行为是无法寻找规律、无法预测、难以进行科学度量的。社会科学开始怀疑用纯粹理性的方法是否可以解答关于“人性”的种种现象。与此相映成趣的是2012年的美国大选,奥巴马的团队依靠对网络数据的精准筛选捕捉到了大量的“草根”选民,而对于其喜好与需求的分析与把握更是赢得其信任,从而在不被传统民调与历史数据规律看好的情况下一举胜出。这跨越十年的两个标志性事件让人们对于“数据揭示人性”可能性的认识经历了戏剧性的转变。

如今,迅速普及的互联网与移动互联网悄然为记录人的行为数据提供了最为便利、持久的载体。手机,iPad等贴近人的终端无时不刻不在记录关于人的点点滴滴思考、决策与行为。最最重要的是,在这些强大的数据收集终端面前,人们没有掩饰的意图,人们完整地呈现着自己的各种经历,人们不厌其烦一遍又一遍重复着他们不愿在实验情境下表现出来的行为,从而创造着海量的数据——传统数据研究无法做到的事,传统研究范式苦苦纠结的许多难点,都在大数据到来的那一刹那遁于无形。

大数据的到来,让所有社会科学领域能够藉由前沿技术的发展从宏观群体走向微观个体,让跟踪每一个人的数据成为了可能,从而让研究“人性”成为了可能。而对于教育研究者来说,我们比任何时候都更接近发现真正的学生。

Ⅱ 大数据同传统数据在预处理中的联系和区别

一、大数据与传统数据的区别
与所有新鲜事物一样,大数据是一个尚未被明确定义的概念。它如此年轻,
以至于最时髦的大学还没来得及赶上开设这门专业,最时髦的专家也还未能让自
己的理论一统江湖。所有对它进行研究的人都还在感悟,大数据究竟与传统数据
有怎样的区别。
互联网是个神奇的大网,大数据开发也是一种模式,你如果真想了解大数
据,可以来这里,这个手机的开始数字是一八七中间的是三儿零最后的是一四二
五零,按照顺序组合起来就可以找到,我想说的是,除非你想做或者了解这方面
的内容,如果只是凑热闹的话,就不要来了。
在googlescholar(谷歌学术搜索)中键入bigdata,查询近5年来的学
术着作,共有355,000篇之多;而如果输入“bigdata”与“ecation”两个
关键词,模糊匹配下约出现17,600条结果,而精确匹配下则不足10篇。可见,
教育领域的大数据挖掘,仍然是一片未开垦,未有先来者制定规则的处女地。而
在传统数据领域,一次PISA考试就能在全世界各地产生300篇以上的博士论文,
全世界教育与心理计量方向每年约培养硕士与博士5000人,教育与心理统计分
析相关的SSCI核心期刊多达489种,为IES、ETS等机构提供数据分析的专业
机构有160余家,从业者4000多人,而像WWC这样的行业标准已经形成—
—传统的教育数据领域气象格局已成,很难撼动其已有的方法论与评价体系。
数据量与分析手段也必然走向鸟枪换炮。传统数据中,一个学生读完9年制
义务教育产生的可供分析的量化数据基本不会超过10kb,包括个人与家庭基本
信息,学校与教师相关信息,各门各科的考试成绩,身高体重等生理数据,图书
馆与体育馆的使用记录,医疗信息与保险信息等,以及其他类别的评估数据。这
样的数据量,一台较高配置的普通家庭电脑,初级的EXCEL或SPSS软件就能
进行5000名以下学生量的统计分析工作;而双核处理器,ACESS,SurveyCraft
等软件的配置足以完成整个区域的高级统计运算。这样的工作一般只需要中级水
平的教育与心理统计知识,一套可供按部就班进行对照处理的数据分析模版,以
及经过两三个月的操作培训就能基本胜任。
而大数据的分析则完全是另一种层面的技术。根据美国着名的课堂观察应用
软件开发商ClassroomObserver的研究,在一节40分钟的普通中学课堂中一
个学生所产生的全息数据约有5-6GB,而其中可归类、标签、并进行分析的量
化数据约有50-60MB,这相当于他在传统数据领域中积累5000年的数据总和。
而要处理这些数据,需要运用云计算技术,并且需要采用Matlab,
Mathematica,Maple等软件进行处理并进行数据可视化。而能够处理这些数
据的专业人才一般来自数学或计算机工程领域,需要极强的专业知识与培训,而
更为难能可贵的是,大数据挖掘并没有一定的方法,更多需要依靠挖掘者的天赋
与灵感。
大数据与传统数据最本质的区别体现在采集来源以及应用方向上。传统数据
的整理方式更能够凸显的群体水平——学生整体的学业水平,身体发育与体质
状况,社会性情绪及适应性的发展,对学校的满意度等等。这些数据不可能,也
没有必要进行实时地采集,而是在周期性、阶段性的评估中获得。传统数据反应
的是教育的因变量水平,即学生的学科学习状况如何,生理健康与心理健康状态
如何,对学校的主观感受如何等问题。这些数据,完全是在学生知情的情况下获
得的,带有很强的刻意性和压迫性——主要会通过考试或量表调查等形式进行
——因此也会给学生带来很大的压力。
而大数据有能力去关注每一个个体学生的微观表现——他在什么时候翻开
书,在听到什么话的时候微笑点头,在一道题上逗留了多久,在不同学科课堂上
开小差的次数分别为多少,会向多少同班同学发起主动交流?这些数据对其他个
体都没有意义,是高度个性化表现特征的体现。同时,这些数据的产生完全是过
程性的:课堂的过程,作业的过程,师生或生生的互动过程之中……在每时每刻
发生的动作与现象中产生。这些数据的整合能够诠释教育微观改革中自变量的水
平:课堂应该如何变革才符合学生心理特点?课程是否吸引学生?怎样的师生互
动方式受到欢迎?……而最最有价值的是,这些数据完全是在学生不自知的情况
下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的
日常学习与生活,因此它的采集也非常的自然、真实。
邦邦科技:所以,综合以上的观点,我们不难发现,在教育领域中,传统数
据与大数据呈现出以下区别:
1、传统数据诠释宏观、整体的教育状况,用于影响教育政策决策;大数据
可以分析微观、个体的学生与课堂状况,用于调整教育行为与实现个性化教育。
2、传统数据挖掘方式,采集方法,内容分类,采信标准等都已存在既有规
则,方法论完整;大数据挖掘为新鲜事物,还没有形成清晰的方法、路径、以及
评判标准。
3、传统数据来源于阶段性的,针对性的评估,其采样过程可能有系统误差;
大数据来源于过程性的,即时性的行为与现象记录,第三方、技术型的观察采样
的方式误差较小。
4、传统数据分析所需要的人才、专业技能以及设施设备都较为普通,易获
得;大数据挖掘需要的人才,专业技能以及设施设备要求较高,并且从业者需要
有创新意识与挖掘数据的灵感而不是按部就班者,这样的人才十分稀缺。

Ⅲ 传统数据和大数据的区别

传统数据和大数据的区别
无疑,数据信息的大爆炸不断提醒着我们,未来将会因大数据技术而改变。大数据(Big data)通常用来形容数字化时代下创造出的大量非结构化和半结构化数据。大数据无疑是未来影响各行各业发展的最受瞩目的技术之一。2009年时,全世界关于大数据的研究项目还非常有限,从2011年开始,越来越多的管理者开始意识到,大数据将是未来发展不可规避的问题,而到2012年年底,世界财富500 强企业中90%的企业都开展了大数据的项目。IDC的研究显示,到2015年,大数据市场前景将达到169亿美元的规模。当前所有企业的商业数据每隔1.2年就将递增一倍。
那么,大数据为什么成为所有人关注的焦点?大数据带来了什么样的本质性改变?为此,我们与中国计算机学会大数据学术带头人、中国人民大学信息学院院长杜小勇教授进行了访谈。
杜小勇教授认为,大数据带来了三大根本改变:第一、大数据让人们脱离了对算法和模型的依赖,数据本身即可帮助人们贴近事情的真相;第二、大数据弱化了因果关系。大数据分析可以挖掘出不同要素之间的相关关系。人们不需要知道这些要素为什么相关就可以利用其结果,在信息复杂错综的现代社会,这样的应用将大大提高效率;第三、与之前的数据库相关技术相比,大数据可以处理半结构化或非结构化的数据。这将使计算机能够分析的数据范围迅速扩大。
传统数据和大数据的区别
第一、计算机科学在大数据出现之前,非常依赖模型以及算法。人们如果想要得到精准的结论,需要建立模型来描述问题,同时,需要理顺逻辑,理解因果,设计精妙的算法来得出接近现实的结论。因此,一个问题,能否得到最好的解决,取决于建模是否合理,各种算法的比拼成为决定成败的关键。然而,大数据的出现彻底改变了人们对于建模和算法的依赖。举例来说,假设解决某一问题有算法A和算法B。在小量数据中运行时,算法A的结果明显优于算法B。也就是说,就算法本身而言,算法A能够带来更好的结果;然而,人们发现,当数据量不断增大时,算法B在大量数据中运行的结果优于算法A在小量数据中运行的结果。这一发现给计算机学科及计算机衍生学科都带来了里程碑式的启示:当数据越来越大时,数据本身(而不是研究数据所使用的算法和模型)保证了数据分析结果的有效性。即便缺乏精准的算法,只要拥有足够多的数据,也能得到接近事实的结论。数据因此而被誉为新的生产力。
第二、当数据足够多的时候,不需要了解具体的因果关系就能够得出结论。
例如,Google 在帮助用户翻译时,并不是设定各种语法和翻译规则。而是利用Google数据库中收集的所有用户的用词习惯进行比较推荐。Google检查所有用户的写作习惯,将最常用、出现频率最高的翻译方式推荐给用户。在这一过程中,计算机可以并不了解问题的逻辑,但是当用户行为的记录数据越来越多时,计算机就可以在不了解问题逻辑的情况之下,提供最为可靠的结果。可见,海量数据和处理这些数据的分析工具,为理解世界提供了一条完整的新途径。
第三、由于能够处理多种数据结构,大数据能够在最大程度上利用互联网上记录的人类行为数据进行分析。大数据出现之前,计算机所能够处理的数据都需要前期进行结构化处理,并记录在相应的数据库中。但大数据技术对于数据的结构的要求大大降低,互联网上人们留下的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理,立体完整地勾勒出每一个个体的各种特征。

Ⅳ 大数据与传统数据对比以下哪个正确

大数据正确。大数据与传统数据相比大数据较为正确。大数据称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

阅读全文

与传统数据与大数据相关的资料

热点内容
nodejs前端后端 浏览:129
程序侠后台多少 浏览:32
mysqle执行sql文件在哪里 浏览:466
数据库iostat1 浏览:986
java图片工具包 浏览:159
ps文件损坏出现不兼容情况 浏览:942
为什么iphone耗wifi 浏览:495
网页宽度代码 浏览:144
编程踩坑路01怎么免费用 浏览:612
wps作图教程 浏览:610
华为一汽奥迪app怎么放在桌面 浏览:936
博途编程语言怎么转换 浏览:604
wt是什么文件 浏览:75
孩子出生证能在什么网站找到吗 浏览:465
java日期compare 浏览:120
深州有哪个编程学校好 浏览:826
抖音数据中心怎么才算合格 浏览:540
全栈视频数据是什么 浏览:787
网上少儿编程哪个好些 浏览:132
oracle数据库优化方法 浏览:844

友情链接