导航:首页 > 网络数据 > 王亚松大数据

王亚松大数据

发布时间:2023-02-07 07:27:44

大数据时代带来更理性、更可靠的决策

大数据时代带来更理性、更可靠的决策_数据分析师考试

究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?在我们寻求对这些重要问题的解答时,牛津大学网络学院互联网研究所教授维克托·迈尔-舍恩伯格出现在我们的视野中;希望我们对他的采访,可以帮助读者们找到这些疑问的答案。

最近一段时间,“大数据”的热潮席卷全球,正如美国《福布斯》杂志所说的那样,如今,在浏览新闻网站或者参加行业会议时,想看不见或听不到“大数据”这个词几乎不可能。去年,美国6个联邦政府部门宣布将启动“大数据研发计划”,投资超过2亿美元以改进从海量和复杂的数据中获取知识的能力。同时,我国科技部发布的“‘十二五’国家科技计划信息技术领域2013年度备选项目征集指南”也把大数据研究列在首位。眼下召开的全国“两会”上,有全国人大代表提出要把发展“大数据”上升为国家战略。

究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?眼前对“大数据”的关注度是否已经过高了呢?在我们寻求对这些重要问题的解答时,英国牛津大学网络学院互连网研究所教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)出现在我们的视野中,讨论“大数据”,他如果不是最合适的人选,也起码是合适人选之一。

20多年来,维克托一直致力于网络经济、信息与创新、信息监管、网络规范与战略管理的研究。还在“大数据”这一概念众说纷纭时,维克托就已进行了系统深入的研究,2010年,他在英国《经济学人》杂志上和数据编辑肯尼思·库克耶一起,发表了长达14页的大数据专题文章。称他为最早洞见大数据时代发展趋势的数据科学家之一,并不为过。

《经济学人》说,在大数据领域,维克托是最受人尊敬的全方位发言人之一;美国《科学》杂志说,若要发起一场关于这个问题的深入讨论,没有比他更好的发起者了。

除了理论研究以外,维克托还非常接近实战世界,早在上大学期间,他就先后成立了两家数据安全和制作反病毒软件的公司,而在他写就的《大数据时代》一书中,那些最前沿、最崭新的大数据应用案例,都得益于他多年来紧跟企业与商业应用的步伐。他的咨询客户中,不乏微软、惠普、IBM、亚马逊、脸书、推特、VISA等大数据先锋们。

目前,维克托还是欧盟互联网官方政策背后的重要制定者与参与者,尤为重要的是,他还任职过新加坡商务部、文莱国防部、科威特商务部等部门,特别熟悉亚洲信息产业的发展与战略布局。

希望我们通过电子邮件对维克托的采访,可以帮助读者们找到这些疑问的答案。

失去微观层面上的精确度,为的是获取宏观层面上的洞察力

文汇报:今天,“大数据”已经成为全球炙手可热的词汇,您是从何时开始关注它的?

迈尔-舍恩伯格:多年来,我一直致力于研究数据在信息经济的发展中所扮演的重要角色,我与肯尼思·库克耶(Kenneth Cukier,我的合著者)一起发布了一系列相关研究报告。大约三年前,在我自己组织的一次会议上,我俩都意识到“大数据”的存在已经不仅仅是一种炒作或者什么宏大的宣言了,而将实实在在地改变我们的工作、生活以及整个社会,于是,我们决定就此专题写一本书。

文汇报:那么在您看来,究竟什么是大数据时代?它和传统数据时代到底有什么差别?我们知道,像沃尔玛这样的公司早在多年前,就已经将大数据运用到了商业实践中。

迈尔-舍恩伯格:事实上,过去几个世纪以来,数据已经在科学家们制定决策的过程中扮演了一定的角色,而过去几十年间,这一做法又延伸到了一些公司的决策制定过程。但在大数据时代之前,数据是非常匮乏的,我们拥有的数据非常少。因此,我们的决策、我们构建的制度都是建立在这样一种数据匮乏的基础上。今天,一切变得非常不同,它体现在三个不同的方面,我们称之为“更多”、“更乱”和“相关性”。

文汇报:这三个特征也是您在《大数据时代》一书中非常强调的,它们甚至会颠覆我们过去的整个思维方式。您能否具体描述一下这到底是怎样的过程?

迈尔-舍恩伯格:好的。我所说的“更多”,是指围绕任何一个我们想要调查的特定问题,或者是需要我们回答的疑问,我们都可以比过去任何时候获取更多的数据。在大数据时代,我们可以利用海量的数据得到非常详尽的见解,这是传统方法所不能做到的。

可以这么说,大数据时代和传统数据时代的区别,就像分辨率在200万像素的旧数码照片,一下子提高到2400万像素那样。后者是一个非常非常大的文件,它可以提供更多细节。它可以让我们不断放大,看清楚小到颗粒状的细部,而具有较低分辨率的图像在这些细节方面就会非常模糊。

基因信息就是一个很好的例子。美国有一家叫23andMe的新公司提供个人的DNA测试分析,以发现一些疾病征兆。它的成本只有两三百美元,并提醒客户关注会发展成严重疾病的个人癖好。但是公司并不对每个客户的全基因组进行测序,而是针对已知特征的位点(经研究得知因某种疾病存在,而可能会出问题的DNA片段)进行比对。这意味着,当一个新的特征被研究发现时,23andMe公司就不得不再次对客户的DNA进行测序并建立更完整的档案。

苹果公司的史蒂夫·乔布斯尝试了非常不同的方法。他得了癌症后,就有了自己全部的基因密码,数十亿的碱基对测序。这花费了他超过10万美元的成本,但这可以让医生完整地洞察他的基因密码。每当药物由于乔布斯的癌症病变而失去有效性,他们就可以根据乔布斯特定的基因信息,寻找到有效的替代药物。遗憾的是,这也没有保住乔布斯的命,但是在这一过程中获得的数据,已经延长了他的生命。

由于技术创新,现在收集大量信息的成本变得越来越低。数年前,史蒂夫·乔布斯花费了六位数的金额才做到的事情,今天,不到1000美元就可以获得同样的服务了。

而“更乱”指的是,在小数据时代,因为数据是如此稀少,我们可以确保自己收集的每一个数据点都是非常准确的。相比较而言,大数据往往是凌乱和质量参差不齐的。但是,相比以高额代价来保证测量和收集少量数据的精确性,在大数据时代,我们将接受这种杂乱,因为我们通常需要的只是一个大方向,而不是努力了解一种现象的细枝末节。我们并不是要完全放弃精确性,我们只是放弃对精确性的热衷。我们失去微观层面上的精确度,为的是获取在宏观层面上的洞察力。

电脑翻译就是其中一个例子。1990年代,IBM的研究人员使用了一套非常精确的文件(加拿大议会记录的法语和英语版)来训练计算机。尽管计算机完全按照规则行事,但基于此的翻译质量却非常低。然后,谷歌在2006年开始介入这一领域,他们没有使用来自加拿大政府的几百万句标准翻译,而是使用随手可得的任何语言。他们在整个互联网上,利用数十亿页质量参差不齐的翻译,这些翻译不怎么标准——但是,这是一个小的权衡——他们能够使用的数据大大增加了,结果翻译质量反而提高了。与更少、更标准的数据相比,更多凌乱的资料完胜了。

“更多”和“更乱”组合到一起,产生了第三个特点,“相关性”,这也是大数据带给我们的最根本性的转变。我们的思维将从因果关系转向相关关系。至今为止的整个人类历史里,全世界的人们都在寻找事件发生的原因,探寻“为什么”。但我们对原因的执着探索往往带领我们走向错误的方向。所以,我们建议,在大数据时代,在许多情况下,我们可以仅仅寻找“是什么”,而不必完全理解“为什么”。例如,对于大数据的分析中,我们可以发现机器震动中一些非常微小的变化,这些变化表明机器将很快损坏。这使我们能够在部分机器零件报废前更换它们,这被称为“预测性维护”,它可以节省不少钱。但除了提高消费效率,“相关性”还可以做更多的事情。

比如对早产儿而言,即使他们长大成人,这些小宝宝仍旧是非常脆弱的,哪怕是遇上很小的感染。医生卡罗琳·麦格雷戈研究如何给这些婴儿最好的生存机会。使用大数据分析,每分钟可以搜集这些婴儿超过一千个数据点,麦格雷戈发现一个令人震惊的事实:每当这些早产儿出现非常稳定的标志时,他们的身体其实并不稳定,正在准备发病。有了这方面的知识,她就能在一个非常早期的阶段,确定婴儿是否需要药物治疗,从而挽救更多孩子的生命。

这是典型的大数据应用:医生麦格雷戈通过更全面的传感器,可以比以往搜集到更多的数据。她也接受,在这种情况下,并不是所有的数据都是准确的,从而也会导致她分析中存在不精确的可能。她把“为什么”这个问题放在一边,而用一种更务实的方式来提供帮助,她寻找“是什么”,这才是一个更好的预见感染的办法。

我们应该记住:大数据也可以挽救生命。

正确使用大数据,可以改善医疗、教育水平,促进人类发展

文汇报:大数据时代的到来,是否将会引领新一轮的产业革命?我们应该怎样客观地看待它的价值?

迈尔-舍恩伯格:大数据将会极大地改变社会生活的方方面面,但是它的价值能否等同于工业革命,这个问题目前还不好说。我个人猜想可能不能,原因是在19世纪初工业革命刚刚开始的时候,经济发展还处于非常低的水平上,所以相对来说,当时的人们从工业化过程中所能获得的生活水平的提升是非常巨大的,今天则非常不一样了。

我们真正想强调的是,大数据时代将推动我们从根本上改变企业的运作方式,以及我们在社会中的生活方式。大数据可以提高人类制定决策的能力,这种提高将是大幅度的。有了大数据,我们不是简单地提高经济效率,而是将挽救人类生命,延长我们自己的寿命。我们还将改善教育,促进发展。同样的道理,我们必须要小心。大数据同样也有“阴暗面”,正如我们在书中讨论的那样。如果应用错误,大数据也可能会化为一个强有力的武器。因此,我们必须确保正确使用大数据。

文汇报:您提到了大数据时代的“阴暗面”,它的到来会加深数字化鸿沟吗?

迈尔-舍恩伯格:大数据是一个强大的工具。因此,如果我们使用了错误的方式,它就可能会加深数字鸿沟。但是,如果我们用得好,相信大数据就可能会改善我们的生活,尤其是对那些不那么幸运的人而言。在这一点上,你可以把它想像成火、电或是抗生素等等。

文汇报:也就是说,您对大数据的价值认知,是基于一个更长时段的历史发展。

迈尔-舍恩伯格:如果以非常广阔的视角来看人类历史,我认为,人类一直想要理解世界。起初,许多人的“知识”是基于迷信和预感。知识的发展非常慢,人们需要非常深层次的思考,再通过实践进行检验,以确保知识是可用的。

但即使如此,我们的知识仍旧不是百分之百可靠的。例如,19世纪,路易·巴斯德一直在研究狂犬病疫苗,当时有一个被狗严重咬伤而染上狂犬病的小孩,父母担心孩子会死去,恳求巴斯德试试他的试验性疫苗。巴斯德照做了,孩子活了下来。随后的庆祝活动上,巴斯德以一个英雄的身份出现,他挽救了年轻孩子的性命。但是事实的确如此吗?今天,通过更深入的研究,我们知道,在被类似病狗咬到的儿童中,只有25%会感染狂犬病。所以75%的儿童哪怕使用了无效的疫苗,仍旧可以存活下来。这个故事告诉我们,我们以为自己生活在非常科学的世界中,但其实,我们拥有的数据非常少。一种新的治疗方法在被证明安全之前,需要做几十个甚至几百个医学实验来进行测试。但这仍旧太少,人们还是会受到伤害,因为我们依靠的数据太少。在大数据时代,我们可以告别数据匮乏,做出的决策将更理性,更基于事实,当然也更可靠。这是大数据时代带给我们的希望——更好的决策将会代替我们过往那些可疑的迷信和不可靠的人类预感。

文汇报:我们看到,麦肯锡公司2011年就发布报告推测,如果把大数据用于美国的医疗保健,一年可产生潜在价值3000亿美元,用于欧洲的公共管理可获得年度潜在价值2500亿欧元;服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元;利用大数据分析,零售商可增加运营利润60%,制造业设备装配成本会减少50%。“数据创造价值”的预测已经非常振奋人心。在您看来,大数据是否只是一门价值不菲的生意?

迈尔-舍恩伯格:不,大数据可以做更多。医疗方面,我们前面已经提过,只是分析一些重要的征兆,早产婴儿的感染出现明显症状的数小时前,医生就可以预见其生病。

同样,通过大数据分析,我们也可以找出学校教科书中的哪一部分对学生而言效果最好,也可以找出效果不好的部分。到现在为止,我们只能按照人类的预感,即教师自己判断学生在理解特定课程时是否会有疑问;但在大数据时代,我们有实际的数据可以参考,例如数据显示,电子书籍的某些页面被看过许多遍,因为它让学生感觉费解,据此可以调整我们的教材。这将从根本上改变教育。

或者举公共政策为例:Inrix是为智能手机提供导航软件的公司,它还提供实时的交通数据。之所以能做到这一点,是因为每个用户本身都成为了交通流量状况的传感器,把位置和速度信息都发回Inrix公司。这样一来,就可以给行进在交通堵塞路段周围的客户提供良好服务。Inrix公司有一大堆人们的活动数据,这还将有助于城市规划者了解大家的通勤模式,人们从哪里出发去工作,然后返回,并建设基础设施,如道路和铁路。这是最有效的应用。节省钱的同时,也有利于整个社会的管理。

文汇报:大数据对于商业决策、学术研究乃至国家治理的作用是显而易见的;但是对日常生活中的普通人而言,他们一定会从中受益吗?为什么在大数据时代,还是有不少人主张远离过载的信息和数据、返璞归真回到传统的社群生活之中呢?个人生活空间一定得从“简单平面”转变到“多维存在”才有意义吗?

迈尔-舍恩伯格:千百年来,人类已经经历的世界,都是在少量数据的基础上产生很多想法的世界。海员们结束长途航行后回来,地图才会在这一次经验的基础上进行重新绘制。这显然不会很精确。经过试验和犯错的周而复始,人类发展得非常缓慢。但是,当我们只有非常少的数据时,这是理所当然的结果。今天,我们有这么多的数据,难怪人类会不堪重负。但是,现在大数据可以提供帮助。如果人类不太善于消化这些过多的信息,大数据分析可以帮助我们将信息进行过滤,并进一步可视化,使我们能够轻松地加以使用。

人们尚未普遍具备与大数据时代相匹配的思维和技能

文汇报:有专家认为,大数据的未来是数据的APP(加速并行处理)而非基础构架;也就是说,仅仅有数据平台和基础构架是无法创造长期价值的。对此您怎么看?

迈尔-舍恩伯格:我们认为,大数据时代将至少需要和过去时代一样多的人的独创性。同时,巨大的资源才是未来时代的金矿,那些拥有这些数据资源的人将获得的回报是不可想像的。

文汇报:大数据时代,数据都是透明的,我们如何在保护个人隐私、商业机密和国家安全之间取得平衡?您所谓的“互联网遗忘运动”会是最佳药方吗?

迈尔-舍恩伯格:大数据时代所面临的挑战是,我们发现了隐藏在数据背后的价值,所以,保留这些数据,然后一遍遍地重复使用数据,往往成为一种明智的选择。同时,现行的保护个人隐私的法律,特别在西方,针对的是一个传统数据的世界,而不是一个大数据世界。这就需要我们在保护隐私的规则方面作出调整。我们建议,可以通过调整相关保护规则来实现这一目标,正像你所提到的,我们可以在一定时间以后,选择遗忘这些数据。

文汇报:大数据时代是一个海量数据有待处理的时代,同时又是一个海量无用信息需要删除的时代。这是否就是您在《删除》一书中强调我们要有所取舍的原因所在?

迈尔-舍恩伯格:是。在某种程度上,大数据本身也可以加强隐私的保护。因为如果有一百万个数据点,一个单独的数据点就不再那么重要了,这和传统数据时代非常不一样。随着时间的推移,忘记其中一些数据,并不会破坏整个大数据的运行和使用。

文汇报:大数据现在在全球究竟发展到了什么阶段?处理大数据的技术是否已经在全世界范围内普及?

迈尔-舍恩伯格:管理和处理大数据的技术都已经存在了,而且并不是非常昂贵。但是,有一样东西目前仍旧非常缺乏,那就是我们的思维——以理解数据背后所隐藏的巨大价值,以及提取这种价值的专门技能。今天,全球范围内,人们还没有普遍具备这种思维和技能,但是我相信,在未来,这种情况会发生改变。我们预计,世界各地的许多大学将提供针对大数据分析的课程,来培训大数据时代所需要的技能。

文汇报:历次产业技术革命,中国似乎都是学习者和模仿者;和上几轮产业技术革命不同的是,大数据时代,中国几乎和欧美发达国家同时开始技术研发,中国人口又居世界首位,将会成为产生数据量最多的国家。您看好中国在新时代的发展前景吗?中国在大数据时代是否有创新和领先的可能?

迈尔-舍恩伯格:是的,我们对此非常乐观。中国很可能成为大数据这一领域的先驱。在大数据时代,中国有很多优势:中国人都受过良好的教育,特别是在数学和统计方面(这是非常重要的)。中国是一个巨大的多元化社会,这会创造大量机会来创造大数据这一资源,并建立大数据应用。同样的道理,对于大数据的蓬勃发展,我们还需要相匹配的思维方式,有尝试新事物和持续创新的愿望,以实证事实来作为我们决策的依据。因此,和许多其他社会一样,大数据时代的确也会给中国带来非常大的变化。

以上是小编为大家分享的关于大数据时代带来更理性、更可靠的决策的相关内容,更多信息可以关注环球青藤分享更多干货

② 大数据营销会给企业和用户带来什么价值

随着大数据应用的普及,企业越来越重视从大数据中挖掘潜在的商业价值,大数据在企业管理中的应用主要在于提高企业整体分析研究能力、市场快速反应能力,建立以知识管理为核心的“竞争情报数据仓库”,提高核心竞争力 。

在大数据时代,企业将是完全以数据分析驱动的企业,利用大数据分析,能够转化成洞察的能力,充分释放企业潜能,实现转型与进化,本文重在分析大数据在企业当中所起到的作用。

瑶贝网路是基于移动互联门户基于用户细分的大数据整合服务平台,用数据说话,我们更在行。公司面向社会化用户开展精细化服务,打造线上精品商城,给老百姓提供更多便利、产生更大价值。

③ 大数据时代校本教研转型策略及路径

大数据时代校本教研转型策略及路径

基于云、物联网、数据库技术以及人工智能和虚拟现实在教育中的广泛渗透,大数据时代正催生着一场场新的教育变革。现有的教研机制如何适应大数据主导的未来?基于大数据的运用如何创新校本教研思路和策略?如何依托大数据平台探寻到最佳的校本教研转型路径?这正是本文试图回答的问题。
一、大数据缺乏的传统教研局限性
我们生活在一个被几何级爆炸的数据包围的时代,我们的一切行为都在产生海量的数据,这些数据被称作“大数据”。[1]2大数据之“大”,并不仅在于“容量之大”,更大的意义在于可以借助云技术等手段,通过海量数据的筛选、整合和分析,解决新的问题,创造新的价值。大数据时代,传统校本教研形态已经滞后于时代的发展。
第一,以行政命令型为主的教研管理已不能适应教研发展的新趋势。传统的校本教研活动因其行政主导过多、任务驱动过强、互动生成较少、过程数据欠缺等,其教研形态存在着单一性、封闭性、滞后性与静态化的特点。教研活动更多执行的是“规定性动作”,大多数学校都是循着“期初学校安排教研计划—教研组按计划布置落实—分阶段组织教学展示或研讨—期末各部门进行教研总结”这样的模式进行。[2]在这样“齐步走”的统一步调中,教研的目光很难细致地聚焦到课堂真实疑难问题的研究上,研讨活动更少触及普遍学科规律探寻的应有深度。校本教研缺乏实实在在的研究历程,案例追踪缺少过程性资料的佐证。没有过程,缺乏实践数据的支撑,教研的有效性大打折扣,教研视野也很难有效拓宽。这种形态的教研活动,聚合性、开放性、创新性与动态性都明显不足,形式化、低效化特征突出。
第二,以经验帮带型为主的教研方式已不能适应教研发展的新态势。现如今,绝大部分学校对于大数据的认识和研究尚处于起步阶段,对于大数据在教育领域的探索和实践才刚刚开始。对于如何真正地将大数据应用于教研,反馈于教育,普遍缺乏深度的认识和操作的策略。究其原因,一方面是因为传统教研“自下而上的主题确认意识”缺乏,加上空间、时间以及技术设备的约束,教研内容无法直接唤起教师教研的内在需求,无法直接对其课堂产生辐射与效益,因此难以吸引教师深度参与。另一方面,面对新时期急剧变化的教研态势,更多的学校没有主动与时代对接,无法前瞻性地为教师提供思维自由碰撞的教研平台(比如活动前后讨论平台的提供),无法适时、足量地为其提供教育科研所需要的数据支持与技术便利,教师教研的多元合作与深度拓展缺乏足够的凝聚与吸引。这样的教研必然无法在大数据时代展现应有的价值与活力。
二、大数据时代校本教研的转型策略
面对海量信息呼啸而来的大数据时代,面对以“移动互联和平板触控技术”为核心的云计算、云存储、云教育、云课堂、云教研叠加出现的全新教育态势,中小学校该如何应对这种前所未有的教育变革?有哪些好的教研策略与应用范式呢?
(一)核心视角转型:由关注“教”转向聚焦“学”
“师本”还是“生本”一度成为教研热议的话题。以“谁”为本体现的是一种教学观念的更新,更展现的是一种教学行动的选择。传统的教学教研当中,学生主体的评价往往是最单薄的——听课者大多只能根据经验来假想学生的体验,这种隔靴搔痒式的评价弊端,源于一个重要因素的缺席——没有足够的数据源可提供学情分析与实证考据。
大数据时代的到来,恰恰能够对这种缺失作出有效转化。借助视频传输、数据收集、点对点终端、云存储服务器和个性化的数据分析软件等,能够从技术层面解决数据源缺乏的问题,对数据的全面处理和分析,可以让学生个体化的感受得以精准的量化与显现。学生在教学活动进程中的现实需求与即时心态,也可以经过技术的转化和动态整合分析变得可读、可视、可量化。这就为教研视角由关注“教”转向关注“学”提供了强大的技术支持与解读保障,为学情的研究与预判提供了更为鲜活的素材。我们甚至还可以利用流媒体视频和数据分析等手段,帮助教师跟踪学生的即时学习情况,从而根据他们的能力等级水平制订相应的教学计划并调整策略方案,更好地开展有针对性的个性化学习研究。
借助大数据的运用,课堂有了一个全新的观察视角,教学研讨有了一个全新的视点,站在学生学情分析与预判的角度去改变教师的教学行为已经成为可能。当技术能够帮助我们了解每个学生的需求之后,绵延了两千多年的“因材施教”思想,是否离我们更近一些?
(二)常态方法转型:由经验重复转向数据实证
传统的校本教研往往是经验式的。我们总是主观地揣定某些教育因素对学生很重要,哪些变量对课堂有影响,然后,再依据自己的判定,通过一次次反复的实践来验证这些主观经验的可靠性。这种以经验为主导的传统教研往往存在着主观化、臆测式、灵感型的缺陷,常常容易出现“问题不够‘草根’、目标比较宽泛、实证相对缺乏”等状况。研究后与研究前相比,对问题的认识高度与解决程度并没有质的提升。究其原因,是研究之前没有深入的问题质疑和数据调查,研究中缺乏足够的数据比对和逻辑分析,研究后少了细致的演绎分析及实践认证。
大数据时代的来临,为有效解决经验重复型教研的痼疾找到了凭借和方向。依据实验数据的收集、整理和分析所得,能有效确立教研主题,让研究直指现实问题的解决;依托“云教研、云管理”平台,过去无法收集与分析的数据都被新的技术手段赋予了获取的可能,为有效展开问题的探究与课题的论证提供了技术保障。这种依托数据实证的教研更加具有科学性、逻辑性和说服力。正如魏忠博士在《教育正悄悄发生一场革命》一书中所说:“教育将继经济学之后,不再是一个靠理念和经验传承的社会科学和道德良心的学科,大数据时代的教育,将变成一门实实在在的实证科学。”[1]3明确的目标监控、海量的数据支撑、清晰的过程性案例资料,强大的数据分析与论证,配以与之紧密融合的教与研创新平台,让教研更加充满创新与活力。
(三)实践模式转型:从零散问题研究转向系列项目研究
“指令式”、任务驱动式教研在我国中小学普遍存在,其被动接受式的研究心态、直指结论的研究方式、以分散点状活动替代系列研究实践的研讨模式,让校本教研难以贴地而行,最终导致教研成果的可信度、可推广度不高。新时期的教研必须从形式化、表层化、零散状的教研形态中转变出来,向主题化、系列化、课题化、项目化教研转型,这也是由大数据时代的教育和研究特点所决定的。
大数据时代,由于教学平台、教研平台、管理平台已经有效对接,各个层面、各个系列的数据已经可以共享到大教育的“云平台”,大数据技术将较娴熟地运用于课堂和教研的方方面面。无论是自上而下的数据调用,还是自下而上的数据收集,都已经或者能够成为中小学教育教研的常态。技术手段的创新与变革,为教育大数据的储存、整合、分析创造了条件。“苏醒的数据能够说话”,尤其是当研究者开始自觉地、有意识地将数据采集、转化和运用,当作一种大数据时代系列性、周期性、可比对性的常态研究去做,这种经过甄别、筛选的数据,将成为主题教研、项目研究的最强有力的实证,也必将给那些原本因为技术或条件限制无法便利地获取研究数据而苦恼的教师们带来教研思路的突变,并将最终实现校本教研的实践模式由零散问题研究向系列项目研究转型。
三、大数据时代校本教研的转型路径
(一)“云课堂”研究:技术与数据更好地服务于“学”
新技术就在身边,你用与不用,它都在那里。苏州工业园区星海小学让“ipad进课堂”,以数字技术带动教学教研,为我们提供了研究大数据运用的全新视角。2014年,该校开启了以移动网络为平台、ipad为终端的实验教学,通过新技术的应用,构建了以生为本的“云课堂”,在很大程度上改变了传统“教”与“学”的方式。云课堂技术支撑的核心是“云计算”。它是一种计算方式,通过大量网络连接的统一管理和调度,将大量信息和资源按需向用户提供服务。这种全息服务的网络就叫作“云”。“云”就像一个专业的“信息提款机”,其强大的信息技术和极为丰富的立体数据资源,为学生的学、教师的教、团队的研搭建了多维互动的“云平台”。[3]
该校基于大数据时代教研方式转变的研判,并在充分调查、论证和研发的基础上,为师生数字化的学与研搭建了一整套自主的云存储服务器,每个ipad上都安装了用于云存储和分享的“网盘精灵”,学生和教师都能在其中建立一个单独的存储空间,每位教师制作的课件、收集的实验数据等,都能在第一时间上传到服务器,全校师生都能在第一时间下载所需资源。各科老师还能借助无线平台和应用软件,协同开展数据上传下载、数据存储与分析的尝试与研究,许多或大或小的教研探究活动都在强大的数据平台支持下进行,网络教研让更多的教师提升了教研的动力。比如,英语学科将ipad接入课堂后,学生可以在家里录制自己朗读和吟唱的视频,上传到“网盘精灵”,为教师即时了解学生学习状态和学习成效,提供了第一手的研究和分析资料。鲜活的数据让教学的跟踪与预判成为常态。[4]
再比如,亚洲教育网自主研发的“三网智慧泛教育云平台”,就是一种“三网融合、泛在学习”的公共智慧云,它利用云计算、物联网和虚拟化等新技术来升级校园网、城域网,其创建的“教育云+互动电视+电子书包”新模式开启了教育信息化新纪元,为全方位、大范围地实现多校、多地教育资源共享、教育成果分享、教学研的互动打下了基础。[5]10-11
(二)“实证研究”:加强数据论证,探寻“普适”规律
近些年,依托于数据实证的教研探索已然展开,微格教研、片段教研、主题教研等应运而生。这些教研模式大多采用的是“实证研究”的方式。它们都是通过对研究对象大量的观察、实验和调查,获取客观数据,从个别到一般,归纳出事物的本质属性和发展规律的一类研究方法。这些教研模式以问题研究为基础,以教学案例为载体,以数据分析为根据,对教学教研工作进行了微格化、片段化、前置化和主题实践性论证,依托数据探寻规律,教研成果更加清晰、显性、有效。
近几年,上海静安区开始在7所幼儿园和9所小学试点实施“社会性与情绪能力养成”实践项目研究。经过近百名教师长达四年多的摸索和改进,如今,静安区小学阶段的“社会性与情绪能力养成”课程正逐步走向成熟,其研究方法之一就是“实证研究”。他们以“社会性情绪”项目为主题,探索出依靠“数据终端”去记录每一个学生、每一堂课、每一个环节表现的数据收集方法。例如,在一节拥有六个环节的课堂上,大部分时间内学生的节奏都是紧密跟随教师,但是在某个环节,大多数学生停留的时间远远超过了教师。这就提醒我们,这个环节需要着重研究,需要调整,也许这个部分的内容非常吸引学生,也有可能这部分内容难度较高,他们需要更多的时间来阅读与消化。这种借助大数据进行教研探索的方法也适合于我们在课堂中更有效地去捕捉学生点滴行为的微观研究。可以这样说,大数据时代的到来,让跟踪每一个数据成为可能,从而让研究“人性”成为可能。而对于教育研究者来说,我们将比任何时候都更接近发现真正的学生。
(三)“项目研究”:用证据支撑评价,用项目推进教研
2014年,苏州市教育局设立了“义务教育质量综合评价改革”等五大教改项目,从全市范围遴选了50所特色鲜明的学校组建项目学校共同体,推进项目研究的实施。在研究过程中,各项目学校有效地借助云计算、物联网和虚拟化等新技术来升级校园网,努力将云技术与物联网进行高度融合,对全方位、个性化的过程数据和研究资源的上传、存储、整合与分析进行了必要的硬件配置和软件开发,然后在严格的过程管理中依托平台、依托案例、依托数据开展系列主题研究和项目实践论证。目前,项目研究进展顺利,也取得了可喜的成果。以苏州工业园区星海小学为例,学校以“十佳”取代“三好”,推出了“十佳星海娃”多元评价体系,率先开启了苏州市“义务教育质量综合评价改革”的实践与研究。项目研究中,全面的资源和个性化的数据收集与分析是项目推进的基础,研究的进程中共享研究资源、分享教育成果,使研究者与被研究者实现有效互动是研究成功的关键。为有效地整合资源,显化数据,苏州工业园区星海小学推出了“星海娃”自主申报、“四叶草”积点奖章、金点子征集、小公民系列招募等个性化实践案例,拓宽了评价体系,丰富了评价数据。与“星海娃”评价体系相配套,苏州工业园区星海小学还创新出“四叶草”小公民实践中心等多元评价支撑系统,并着手开发“星海师生成长档案在线跟踪平台”,该平台全面支持绿色评价体系,以开放共享的“云”资源平台的无缝对接,消除学校、家庭及社会间的信息孤岛,以电脑、手机、电视、平板等多终端实现了教师、学生、家长的轻松上传与访问,从而有力地促进了绿色评价研究资源的优化配置。[5]281-282苏州工业园区星海小学项目建设试点的初步探索说明,数据实证让教研更加准确,更为科学,“用证据支撑评价,用项目推进教研”成了校本教研的一条可行之路。

④ 如何建立一个完整可用的安全大数据平台


要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患。

1
计算框架篇
大数据的价值

只有在能指导人们做出有价值的决定时,数据才能体现其自身的价值。因此,大数据技术要服务于实际的用途,才是有意义的。一般来说,大数据可以从以下三个方面指导人们做出有价值的决定:

报表生成(比如根据用户历史点击行为的跟踪和综合分析、 应用程序活跃程度和用户粘性计算等);

诊断分析(例如分析为何用户粘性下降、根据日志分析系统为何性能下降、垃圾邮件以及病毒的特征检测等);

决策(例如个性化新闻阅读或歌曲推荐、预测增加哪些功能能增加用户粘性、帮助广告主进行广告精准投放、设定垃圾邮件和病毒拦截策略等)。

图 1

进一步来看,大数据技术从以下三个方面解决了传统技术难以达成的目标(如图1):

在历史数据上的低延迟(交互式)查询,目标是加快决策过程和时间, 例如分析一个站点为何变缓慢并尝试修复它;

在实时数据上的低延迟查询,目的是帮助用户和应用程序在实时数据上做出决策, 例如实时检测并阻拦病毒蠕虫(一个病毒蠕虫可以在1.3秒内攻击1百万台主机);

更加精细高级的数据处理算法,这可以帮助用户做出“更好”的决策, 例如图数据处理、异常点检测、趋势分析及其他机器学习算法。

蛋糕模式

从将数据转换成价值的角度来说,在Hadoop生态圈十年蓬勃成长的过程中,YARN和Spark这二者可以算得上是里程碑事件。Yarn的出现使得集群资源管理和数据处理流水线分离,大大革新并推动了大数据应用层面各种框架的发展(SQL on Hadoop框架, 流数据,图数据,机器学习)。

它使得用户不再受到MapRece开发模式的约束,而是可以创建种类更为丰富的分布式应用程序,并让各类应用程序运行在统一的架构上,消除了为其他框架维护独有资源的开销。就好比一个多层蛋糕,下面两层是HDFS和Yarn, 而MapRece就只是蛋糕上层的一根蜡烛而已,在蛋糕上还能插各式各样的蜡烛。

在这一架构体系中,总体数据处理分析作业分三块(图2),在HBase上做交互式查询(Apache Phoenix, Cloudera Impala等), 在历史数据集上编写MapRece程序抑或利用Hive等做批处理业务, 另外对于实时流数据分析Apache Storm则会是一种标准选择方案。

虽然Yarn的出现极大地丰富了Hadoop生态圈的应用场景,但仍存有两个显而易见的挑战:一是在一个平台上需要维护三个开发堆栈;二是在不同框架内很难共享数据,比如很难在一个框架内对流数据做交互式查询。这也意味着我们需要一个更为统一和支持更好抽象的计算框架的出现。

图 2

一统江湖

Spark的出现使得批处理任务,交互式查询,实时流数据处理被整合到一个统一的框架内(图3),同时Spark和现有的开源生态系统也能够很好地兼容(Hadoop, HDFS, Yarn, Hive, Flume)。 通过启用内存分布数据集,优化迭代工作负载, 用户能够更简单地操作数据,并在此基础上开发更为精细的算法,如机器学习和图算法等。

有三个最主要的原因促使Spark目前成为了时下最火的大数据开源社区(拥有超过来自200多个公司的800多个contributors):

Spark可以扩展部署到超过8000节点并处理PB级别的数据,同时也提供了很多不错的工具供应用开发者进行管理和部署;

Spark提供了一个交互式shell供开发者可以用Scala或者Python即时性试验不同的功能;

Spark提供了很多内置函数使得开发者能够比较容易地写出低耦合的并且能够并发执行的代码,这样开发人员就更能集中精力地为用户提供更多的业务功能而不是花费时间在优化并行化代码之上。

当然Spark也和当年的MapRece一样不是万灵药,比如对实时性要求很高的流数据处理上Apache Storm还是被作为主流选择, 因为Spark Streaming实际上是microbatch(将一个流数据按时间片切成batch,每个batch提交一个job)而不是事件触发实时系统,所以虽然支持者们认为microbatch在系统延时性上贡献并不多,但在生产环境中和Apache Storm相比还不是特别能满足对低延时要求很高的应用场景。

比如在实践过程中, 如果统计每条消息的平均处理时间,很容易达到毫秒级别,但一旦统计类似service assurance(确保某条消息在毫秒基本能被处理完成)的指标, 系统的瓶颈有时还是不能避免。

但同时我们不能不注意到,在许多用例当中,与流数据的交互以及和静态数据集的结合是很有必要的, 例如我们需要在静态数据集上进行分类器的模型计算,并在已有分类器模型的基础上,对实时进入系统的流数据进行交互计算来判定类别。

由于Spark的系统设计对各类工作(批处理、流处理以及交互式工作)进行了一个共有抽象,并且生态圈内延伸出了许多丰富的库(MLlib机器学习库、SQL语言API、GraphX), 使得用户可以在每一批流数据上进行灵活的Spark相关操作,在开发上提供了许多便利。

Spark的成熟使得Hadoop生态圈在短短一年之间发生了翻天覆地的变化, Cloudera和Hortonworks纷纷加入了Spark阵营,而Hadoop项目群中除了Yarn之外已经没有项目是必须的了(虽然Mesos已在一些场合替代了Yarn), 因为就连HDFS,Spark都可以不依赖。但很多时候我们仍然需要像Impala这样的依赖分布式文件系统的MPP解决方案并利用Hive管理文件到表的映射,因此Hadoop传统生态圈依然有很强的生命力。

另外在这里简要对比一下交互式分析任务中各类SQL on Hadoop框架,因为这也是我们在实际项目实施中经常遇到的问题。我们主要将注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中历史最短的,论文发表在15年的SIGMOD会议上, 原文对比了数据仓库上不同类型的查询在Shark(Spark最早对SQL接口提供的支持)、Spark SQL和Impala上的性能比较。

也就是说, 虽然Spark SQL在Shark的基础上利用Catalyst optimizer在代码生成上做了很多优化,但总体性能还是比不上Impala, 尤其是当做join操作的时候, Impala可以利用“predicate pushdown”更早对表进行选择操作从而提高性能。

不过Spark SQL的Catalyst optimizer一直在持续优化中,相信未来会有更多更好的进展。Cloudera的Benchmark评测中Impala一直比其他SQL on Hadoop框架性能更加优越,但同时Hortonworks评测则指出虽然单个数据仓库查询Impala可以在很短的时间内完成,但是一旦并发多个查询Hive on Tez的优势就展示出来。另外Hive on Tez在SQL表达能力也要比Impala更强(主要是因为Impala的嵌套存储模型导致的), 因此根据不同的场景选取不同的解决方案是很有必要的。

图 3

各领风骚抑或代有才人出?

近一年比较吸引人眼球的Apache Flink(与Spark一样已有5年历史,前身已经是柏林理工大学一个研究性项目,被其拥趸推崇为继MapRece, Yarn,Spark之后第四代大数据分析处理框架)。 与Spark相反,Flink是一个真正的实时流数据处理系统,它将批处理看作是流数据的特例,同Spark一样它也在尝试建立一个统一的平台运行批量,流数据,交互式作业以及机器学习,图算法等应用。

Flink有一些设计思路是明显区别于Spark的,一个典型的例子是内存管理,Flink从一开始就坚持自己精确的控制内存使用并且直接操作二进制数据,而Spark一直到1.5版本都还是试用java的内存管理来做数据缓存,这也导致了Spark很容易遭受OOM以及JVM GC带来的性能损失。

但是从另外一个角度来说, Spark中的RDD在运行时被存成java objects的设计模式也大大降低了用户编程设计门槛, 同时随着Tungsten项目的引入,Spark现在也逐渐转向自身的内存管理, 具体表现为Spark生态圈内从传统的围绕RDD(分布式java对象集合)为核心的开发逐渐转向以DataFrame(分布式行对象集合)为核心。

总的来说,这两个生态圈目前都在互相学习,Flink的设计基因更为超前一些,但Spark社区活跃度大很多,发展到目前毫无疑问是更为成熟的选择,比如对数据源的支持(HBase, Cassandra, Parquet, JSON, ORC)更为丰富以及更为统一简洁的计算表示。另一方面,Apache Flink作为一个由欧洲大陆发起的项目,目前已经拥有来自北美、欧洲以及亚洲的许多贡献者,这是否能够一改欧洲在开源世界中一贯的被动角色,我们将在未来拭目以待。

2
NoSQL数据库篇
NoSQL数据库在主流选择上依旧集中在MongoDB, HBase和Cassandra这三者之间。在所有的NoSQL选择中,用C 编写的MongoDB几乎应该是开发者最快也最易部署的选择。MongoDB是一个面向文档的数据库,每个文档/记录/数据(包括爬取的网页数据及其他大型对象如视频等)是以一种BSON(Binary JSON)的二进制数据格式存储, 这使得MongoDB并不需要事先定义任何模式, 也就是模式自由(可以把完全不同结构的记录放在同一个数据库里)。

MongoDB对于完全索引的支持在应用上是很方便的,同时也具备一般NoSQL分布式数据库中可扩展,支持复制和故障恢复等功能。 MongoDB一般应用于高度伸缩性的缓存及大尺寸的JSON数据存储业务中,但不能执行“JOIN”操作,而且数据占用空间也比较大,最被用户诟病的就是由于MongoDB提供的是数据库级锁粒度导致在一些情况下建索引操作会引发整个数据库阻塞。一般来说,MongoDB完全可以满足一些快速迭代的中小型项目的需求。

下面来主要谈谈Cassandra和HBase之间的比较选择。Cassandra和HBase有着截然不同的基因血统。HBase和其底层依赖的系统架构源自于著名的Google FileSystem(发表于2003年)和Google BigTable设计(发表于2006年), 其克服了HDFS注重吞吐量却牺牲I/O的缺点,提供了一个存储中间层使得用户或者应用程序可以随机读写数据。

具体来说,HBase的更新和删除操作实际上是先发生在内存MemStore中, 当MemStore满了以后会Flush到StoreFile, 之后当StoreFile文件数量增长到一定阈值后会触发Compact合并操作,因此HBase的更新操作其实是不断追加的操作,而最终所有更新和删除数据的持久化操作都是在之后Compact过程中进行的。

这使得应用程序在向内存MemStore写入数据后,所做的修改马上就能得到反映,用户读到的数据绝不会是陈旧的数据,保证了I/O高性能和数据完全一致性; 另一方面来说, HBase基于Hadoop生态系统的基因就已经决定了他自身的高度可扩展性、容错性。

在数据模型上,Cassandra和HBase类似实现了一个key-value提供面向列式存储服务,其系统设计参考了 Amazon Dynamo (发表于2007年) 分布式哈希(DHT)的P2P结构(实际上大部分Cassandra的初始工作都是由两位从Amazon的Dynamo组跳槽到Facebook的工程师完成),同样具有很高的可扩展性和容错性等特点。

除此之外, 相对HBase的主从结构,Cassandra去中心化的P2P结构能够更简单地部署和维护,比如增加一台机器只需告知Cassandra系统新节点在哪,剩下的交给系统完成就行了。同时,Cassandra对多数据中心的支持也更好,如果需要在多个数据中心进行数据迁移Cassandra会是一个更优的选择。

Eric Brewer教授提出的经典CAP理论认为任何基于网络的数据共享系统,最多只能满足数据一致性、可用性、分区容忍性三要素中的两个要素。实际分布式系统的设计过程往往都是在一致性与可用性上进行取舍,相比于HBase数据完全一致性的系统设计,Cassandra选择了在优先考虑数据可用性的基础上让用户自己根据应用程序需求决定系统一致性级别。

比如:用户可以配置QUONUM参数来决定系统需要几个节点返回数据才能向客户端做出响应,ONE指只要有一个节点返回数据就可以对客户端做出响应,ALL指等于数据复制份数的所有节点都返回结果才能向客户端做出响应,对于数据一致性要求不是特别高的可以选择ONE,它是最快的一种方式。

从基因和发展历史上来说,HBase更适合用做数据仓库和大规模数据处理与分析(比如对网页数据建立索引), 而Cassandra则更适合用作实时事务和交互式查询服务。Cassandra在国外市场占有比例和发展要远比国内红火, 在不少权威测评网站上排名都已经超过了HBase。目前Apache Cassandra的商业化版本主要由软件公司DataStax进行开发和销售推广。另外还有一些NoSQL分布式数据库如Riak, CouchDB也都在各自支持的厂商推动下取得了不错的发展。

虽然我们也考虑到了HBase在实际应用中的不便之处比如对二级索引的支持程度不够(只支持通过单个行键访问,通过行键的范围查询,全表扫描),不过在明略的大数据基础平台上,目前整合的是依然是HBase。

理由也很简单,HBase出身就与Hadoop的生态系统紧密集成,其能够很容易与其他SQL on Hadoop框架(Cloudera Impala, Apache Phoenix, or Hive on Tez)进行整合,而不需要重新部署一套分布式数据库系统,而且可以很方便地将同样的数据内容在同一个生态系统中根据不同框架需要来变换存储格式(比如存储成Hive表或者Parquet格式)。

我们在很多项目中都有需要用到多种SQL on Hadoop框架,来应对不同应用场景的情况,也体会到了在同一生态系统下部署多种框架的简便性。 但同时我们也遇到了一些问题, 因为HBase项目本身与HDFS和Zookeeper系统分别是由不同开源团队进行维护的,所以在系统整合时我们需要先对HBase所依赖的其他模块进行设置再对HBase进行配置,在一定程度上降低了系统维护的友好性。

目前我们也已经在考虑将Cassandra应用到一些新的客户项目中,因为很多企业级的应用都需要将线上线下数据库进行分离,HBase更适合存储离线处理的结果和数据仓库,而更适合用作实时事务和并发交互性能更好的Cassandra作为线上服务数据库会是一种很好的选择。

3
大数据安全篇
随着越来越多各式各样的数据被存储在大数据系统中,任何对企业级数据的破坏都是灾难性的,从侵犯隐私到监管违规,甚至会造成公司品牌的破坏并最终影响到股东收益。给大数据系统提供全面且有效的安全解决方案的需求已经十分迫切:

大数据系统存储着许多重要且敏感的数据,这些数据是企业长久以来的财富

与大数据系统互动的外部系统是动态变化的,这会给系统引入新的安全隐患

在一个企业的内部,不同Business Units会用不同的方式与大数据系统进行交互,比如线上的系统会实时给集群推送数据、数据科学家团队则需要分析存储在数据仓库内的历史数据、运维团队则会需要对大数据系统拥有管理权限。

因此为了保护公司业务、客户、财务和名誉免于被侵害,大数据系统运维团队必须将系统安全高度提高到和其他遗留系统一样的级别。同时大数据系统并不意味着引入大的安全隐患,通过精细完整的设计,仍然能够把一些传统的系统安全解决方案对接到最新的大数据集群系统中。

一般来说,一个完整的企业级安全框架包括五个部分:

Administration: 大数据集群系统的集中式管理,设定全局一致的安全策略

Authentication: 对用户和系统的认证

Authorization:授权个人用户和组对数据的访问权限

Audit:维护数据访问的日志记录

Data Protection:数据脱敏和加密以达到保护数据的目的

系统管理员要能够提供覆盖以上五个部分的企业级安全基础设施,否则任何一环的缺失都可能给整个系统引入安全性风险。

在大数据系统安全集中式管理平台这块,由Hortonworks推出的开源项目Apache Ranger就可以十分全面地为用户提供Hadoop生态圈的集中安全策略的管理,并解决授权(Authorization)和审计(Audit)。例如,运维管理员可以轻松地为个人用户和组对文件、数据等的访问策略,然后审计对数据源的访问。

与Ranger提供相似功能的还有Cloudera推出的Apache Sentry项目,相比较而言Ranger的功能会更全面一些。

而在认证(Authentication)方面, 一种普遍采用的解决方案是将基于Kerberos的认证方案对接到企业内部的LDAP环境中, Kerberos也是唯一为Hadoop全面实施的验证技术。

另外值得一提的是Apache Knox Gateway项目,与Ranger提高集群内部组件以及用户互相访问的安全不同,Knox提供的是Hadoop集群与外界的唯一交互接口,也就是说所有与集群交互的REST API都通过Knox处理。这样,Knox就给大数据系统提供了一个很好的基于边缘的安全(perimeter-based security)。

基于以上提到的五个安全指标和Hadoop生态圈安全相关的开源项目, 已经足已证明基于Hadoop的大数据平台我们是能够构建一个集中、一致、全面且有效的安全解决方案。
我市再ITjob管网上面找的

⑤ 大数据技术在网络营销中的策略研究论文

大数据技术在网络营销中的策略研究论文

从小学、初中、高中到大学乃至工作,说到论文,大家肯定都不陌生吧,论文的类型很多,包括学年论文、毕业论文、学位论文、科技论文、成果论文等。那要怎么写好论文呢?以下是我帮大家整理的大数据技术在网络营销中的策略研究论文,欢迎阅读与收藏。

摘要:

当今,随着信息技术的飞速发展,互联网用户的数量日益增加,进一步促进了电子商务的快速发展,并使企业能够更准确地获取消费者数据,大数据技术应运而生。该技术已被一些企业用于网络营销,并取得了显着的营销效果。本文基于大数据的网络营销进行分析,分析传统营销存在的问题和挑战,并对大数据技术在网络营销中的作用进行研究,最后针对性地提出一些基于大数据的网络营销策略,以促进相关企业在大数据时代加强网络营销,并取得良好的营销效果。

关键词:

大数据;网络营销;应用策略;营销效果;

一、前言

现代社会已经完全进入了信息时代,在移动互联网和移动智能设备飞速发展与普及之下,消费者的消费数据都不断被收集、汇总并处理,这促进了大数据技术的发展。大数据技术可以精准的分析消费者的习惯,借助大数据技术,商家可以针对顾客进行个性化营销,极大地提高了精准营销的效果,传统的营销方式难以做到这一点。因此,现代企业越来越重视发展网络营销,并期望通过大数据网络营销以增加企业利润。

二、基于大数据的网络营销概述

网络营销是互联网出现之后的概念,初期只是信息爆炸式的轰炸性营销。后来随着移动智能设备的普及、移动互联网的发展以及网络数据信息的海量增长,大数据技术应运而生。大数据技术是基于海量的数据分析,得出的科学性的结果,出现伊始就被首先应用于网络营销之中。基于大数据的网络营销非常精准,是基于海量数据分析基础上的定向营销方式,因此也叫着数据驱动营销。其主要是针对性对顾客进行高效的定向营销,最为常见的就是网络购物App中,每个人得到的物品推荐都有所区别;我们浏览网络时,会不断出现感兴趣的内容,这些都是大数据营销的结果。

应用大数据营销,企业可以精准定位客户,并根据客户的喜好与类型对产品与服务进行优化[1],然后向目标客户精准推送。具体来说,基于大数据技术的精准网络营销过程涉及三个步骤:首先是数据收集阶段。企业需要通过微博、微信、QQ、企业论坛和网站等网络工具积极收集消费者数据;其次,数据分析阶段,这个阶段企业要将收集到的数据汇总,并进行处理形成大数据模型,并通过数据挖掘技术等高效的网络技术对数据进行处理分析,以得出有用的结论,比如客户的消费习惯、消费能力以及消费喜好等;最后,是营销实施阶段,根据数据分析的结果,企业要针对性地制定个性化的营销策略,并将其积极应用于网络营销以吸引客户进行消费。基于大数据的网络营销其基本的目的就是吸引客户主动参与到营销活动之中,从而提升营销效果和经济收益。

三、传统网络营销存在的一些问题

(一)传统网络营销计划主要由策划人主观决定,科学性不足

信息技术的迅速发展,使得很多企业难以跟上时代的步伐,部分企业思想守旧,没有跟上时代潮流并开展网络营销活动,而是仍然继续使用传统的网络营销模型和方式。即主要由策划人根据自己过去的经验来制定企业的营销策略,存在一定的盲目性和主观性,缺乏良好的信息支持[2]。结果,网络营销计划不现实,难以获得有效的应用,导致网络营销的效果不好。

(二)传统网络营销的互动性不足,无法进行准确的产品营销

传统的网络营销互动性较差,主要是以即时通信软件、邮箱、社交网站以及弹窗等推送营销信息,客户只能被动的接受信息,无法与企业进行良性互动和沟通,无法有效的表达自己的诉求,这导致了企业与客户之间的割裂,极大的影响了网络营销的效果。此外,即使一些企业获得了相关数据,也没有进行科学有效的分析,但却没有得到数据分析的结果,也没有根据客户的需求进行有效的调整,从而降低了营销活动的有效性。

(三)无法有效分析客户需求,导致客户服务质量差

当企业进行网络营销时,缺乏对相关技术的关注以及对客户需求的分析的缺乏会导致企业营销策略无法获得预期的结果。因此,企业只能指望出于营销目的向客户发布大量营销内容。这种营销效果非常糟糕。客户不仅将无法获得有价值的信息,而且此类信息的“轰炸”也会使他们感到烦躁和不耐烦,这将适得其反,并降低客户体验[3]。

四、将基于大数据的网络营销如何促进传统的网络营销

(一)使网络营销决策更科学,更明智

在传统的网络营销中,经理通常根据过去的经验来制定企业的营销策略,盲目性和主观性很多,缺乏可靠的数据。基于大数据的网络营销使用可以有效地收集有关市场交易和客户消费的数据,并利用数据挖掘技术等网络技术对收集到的数据进行全面科学的分析与处理,从中提取有用的相关信息,比如客户的消费习惯、喜好、消费水平以及行为特征等,从而制定针对客户的个性化营销策略,此外,企业还可以通过数据分析获得市场发展变化的趋势以及客户消费行为的趋势,从而对未来的市场形势作出较为客观的判断,进而帮助企业针对未来一段时间内的行为制定科学合理的'网络营销策略,提升企业的效益[4]。

(二)大大提高了网络营销的准确性

如今,大数据驱动的精准网络营销已成为网络营销的新方向。为了有效地实现这一目标,企业需要在启动网络营销之前依靠大数据技术来准确分析大量的客户数据,以便有效地捕获客户的消费需求,并结合起来制定准确的网络营销策略[5]。此外,在实施网络营销策略后,积极收集客户反馈结果并重新分析客户评论,使企业对客户的实际需求有更深刻的了解,然后制定有效的营销策略。如果某些企业无法有效收集客户反馈信息,则可以收集客户消费信息和历史消费信息,然后对这些数据进行准确的分析,从而改善企业的原始网络营销策略并进行促销以获取准确的信息,进而制定有效的网络营销策略。

(三)显着提高对客户网络营销服务水平

通过利用大数据进行准确的网络营销,企业可以大大改善客户服务水平。这主要体现在两个方面:一方面可以使用大数据准确地分析客户的实际需求,以便企业可以进行有针对性的的营销策略,可以大大提高客户服务质量。另一方面,使企业可以有效地吸收各种信息,例如客户兴趣、爱好和行为特征,以便向每个客户发布感兴趣的推送内容,以便客户可以接收他们真正需要的信息,提高客户满意度。

五、基于大数据的网络营销优势

(一)提高网络营销广告的准确性

在传统的网络营销中,企业倾向于使用大量无法为企业带来相应经济利益的网络广告进行密集推送,效率低下。因此,必须充分利用大数据技术来提高网络营销广告的准确性。首先,根据客户的情况制定策略并推送合适的广告,消费场景在很大程度上影响了消费者的购买情绪,并可以直接确定消费者的购买行为。如果客户在家中购买私人物品,则他们第二天在公司工作时,却同送前一天相关私人物品的各种相关的广告。前一天的搜索行为引起的问题可能会使消费者处于非常尴尬的境地,并影响他们的购买情绪。这表明企业需要有效地识别客户消费场景并根据这些场景发布更准确的广告[6]。一方面,通过IP地址来确定客户端在网络上的位置。客户在公共场所时,广告内容应简洁明了。另一方面,可以通过指定时间段来确定推送通知的内容。在正确的时间宣传正确的内容。其次,提高客户选择广告的自主权。在传统的网络营销中,企业通常采用弹出式广告,插页式广告和浮动广告的形式来强力吸引客户的注意力,从而引起强烈的客户不满。一些客户甚至会毫不犹豫地购买广告拦截软件,以防止企业广告。在这方面,大数据技术可用于改善网络广告的形式和内容并提高其准确性。

(二)提高网络营销市场的定位精度

在诸如电子邮件营销和微信营销之类的网络营销方法中,一个普遍现象是企业拥有大量的粉丝,并向这些粉丝发送了大量的营销信息,但是却没有得到较好的反馈,营销效果较差。造成这种现象的主要原因是企业产品的市场定位不正确。可以通过以下几个方面来提高网络营销市场中的定位精度:

1、分析客户数据并确定产品在市场上的定位:

首先,收集大量基本数据并创建客户数据库。在此过程中,应格外小心,以确保收集到的有关客户的信息是全面的。因此,可以使用各种方法和渠道来收集客户数据。例如,可以通过论坛、企业官方网站、即时通信软件以及购物网站等全面的收集客户的各种信息。收集完成后利用高效的数据分析处理技术对信息进行处理,并得出结果,包括客户的年龄、收入、习惯以及消费行为等结果,然后根据结果对企业的产品进行定位,并与客户的需求相匹配,进而明确市场[7]。

2、通过市场调查对产品市场定位进行验证:

在利用大数据及时对企业产品进行市场定位之后,有必要对进一步进行市场调查,以进一步清晰产品的市场定位,如果市场调查取得较为满意的效果,则表明网络营销策略较为成功,可以加大推广力度以促进产品的销售,如果效果不满意,则要积极分析问题,寻找原因并提出针对性的解决改进措施,以获得较为满意的结果[8]。

3、建立客户反馈机制:

客户反馈机制可以有效的帮助企业改进产品营销策略,主要体现有两个主要功能:一是营销产品在市场初步定为成功后可以通过客户反馈积极征询客户的意见,并进一步改进产品,确保产品更适应市场;二是如果营销产品市场定位不成功,取得的效果不佳,可以通过客户反馈概括定位失败的原因,这将有助于将来的产品准确定位。

(三)增强网络营销服务的个性化

为了增强网络营销服务的个性化,企业不仅必须能够使用大数据识别客户的身份,而且还必须能够智能地设计个性化服务。首先,通过大数据了解客户的身份。一方面,随着网络的日益普及,企业可以在网络上收集客户各个方面的信息。但是,众所周知,由于互联网管理的不规范与复杂性,大多数信息不是高度可靠的,甚至某些信息之间存在着极为明显的矛盾。因此,如果企业想要通过大数据来了解其客户的身份,则必须首先确保所收集的信息是可信且准确的。另一方面,企业必须能够从大量的客户信息中选择最能体现其个性的关键信息,并降低分析企业数据的成本[9]。二是合理设计个性化服务。个性化服务的合理设计要求企业在两个方面进行运营:一方面,由于现实环境的限制,企业无法一一满足所有客户的个性化需求。这就要求企业尽一切努力来满足一部分客户的个性化需求,并根据一般原则开发个性化服务。另一方面,如果完全根据客户的个人需求向他们提供服务,则企业的服务成本将不可避免地急剧上升。因此,企业应该对个性化客户服务进行详细分析,并尝试以适合其个人需求的方式为客户提供服务,而不会给企业造成太大的财务负担。

六、基于大数据网络营销策略

使用大数据的准确网络营销模型基本上包括以下步骤。首先,收集有关客户的大量信息;其次,通过数据分类和分析选择目标客户;第三,根据分析的信息制定准确的网络营销计划;第四,执行营销计划;第五,评估营销结果并计算营销成本;第六,在评估过程的基础上,进一步改善,然后更准确地筛选目标客户。在持续改进的过程中,上述过程可以改善网络营销。因此,在大数据时代,电子商务企业必须突破原始的广泛营销理念,并采用新的营销策略。

(一)客户档案策略

客户档案意味着在收集了有关每个人的基本信息之后,可以大致了解每个人的主要销售特征。客户档案是准确进行电子商务促销的重要基础,也是实现精确营销目标的极其重要的环节。电子商务企业利用客户档案策略可以获得巨大收益。首先,借助其专有的销售平台,电子商务企业可以轻松,及时且可靠地收集客户使用情况数据。其次,在传统模型中收集数据时,由于需要控制成本,因此经常使用抽样来评估数据的一般特征[10]。大数据时代的数据收集模型可以减少错误并提高数据准确性。当分析消费者行为时最好以目标消费者为目标。消费者行为分析是对客户的消费目的和消费能力的分析,可帮助电子商务企业更好地选择合适的目标客户。在操作中,电子商务企业需要在创建数据库后继续优化分析结果,以最大程度地分析消费者的偏好。

(二)满足需求策略

为了满足多数人的需求,传统的营销方法逐渐变得更加同质。结果,难以满足少数客户的特殊需求,并且导致利润损失。基于大数据客户档案技术的电子商务企业可以分析每个客户的需求,并采取差异化人群的不同需求最大化的策略,从而获取较大的利润。为了满足每个客户的需求,最重要的是实现差异化,而不仅仅是满足多数人的需求,因此必须准确地分析客户的需求,还必须根据客户的需求提供更多个性化的产品[11]。比如当前,定制行业非常流行,卖方可以根据买方提供的信息定制独特的产品,该产品的利润率远高于批量生产线。

(三)客户服务策略

随着网络技术的逐步发展,电子商务企业和客户可以随时进行通信,这基本上消除了信息不对称的问题,使客户可以更好地了解他们想要购买的产品以及遇到问题时的情况。当出现问题时,可以第一时间解决,提高交易速度。因此,当电子商务企业制定用于客户服务的营销策略时,一切都以客户为中心。为了更好地实施此策略,必须首先改善数据库并加深对客户需求的了解[12]。二是提高售前、售后服务质量,开展集体客户服务培训,缩短客户咨询等待时间,改善客户服务。最后,我们必须高度重视消费者对产品和服务的评估,及时纠正不良评论,并鼓励消费者进行更多评估,良好的服务态度和高质量的产品可以大大提高目标客户对产品的忠诚度,并且可以吸引消费者进行第二次购买。

(四)多平台组合策略

在信息时代,人们可以在任何地方看到任何信息,这也将分散他们的注意力,并且重新定向他们的注意力已经成为一个大问题。如果希望得到更多关注,则可以组合跨多个平台的营销策略,并在网络平台和传统平台上混合营销。网络平台可以更好地定位自己并吸引更多关注,而传统平台则可以更好地激发人们的购买欲望。平台融合策略可以帮助电子商务企业扩大获取客户的渠道,不同渠道的用户购买趋势不同,可以改善数据库[13]。

七、结语

总体而言,大数据时代不仅给网络营销带来了挑战,而且还带来了新的机遇。大数据分析不仅可以提高准确营销的效果,更好地服务消费者,改变传统的被动营销形式,并提升网络营销效果。

参考文献

[1]刘俭云.大数据精准营销的网络营销策略分析[J].环球市场,2019(16):98.

[2]栗明,曾康有.大数据时代下营业网点的精准营销[J].金融科技时代,2019(05):14-19.

[3]刘莹.大数据背景下网络媒体广告精准营销的创新研究[J].中国商论,2018(19):58-59.

[4]李研,高书波,冯忠伟.基于运营商大数据技术的精准营销应用研究[J].信息技术,2017(05):178-180.

[5]袁征.基于大数据应用的营销策略创新研究[J].中国经贸导刊(理论版),2017(14):59-62.

[6]邱媛媛.基于大数据的020平台精准营销策略研究[J].齐齐哈尔大学学报(哲学社会科学版),2016(12):60-62.

[7]张龙辉.基于大数据的客户细分模型及精确营销策略研究[J].河北工程大学学报(社会科学版),2017,34(04):27-28.

[8]李巧丹.基于大数据的特色农产品精准营销创新研究——以广东省中市山为例[J].江苏农业科学,2017,45(06):318-321.

[9]孙洪池,林正杰.基于大数据的B2C网络精准营销应用研究——以中国零售商品型企业为例[J].全国流通经济,2016(12):3-6.

[10]赵玉欣,王艳萍,关蕾.大数据背景下电商企业精准营销模式研究[J].现代商业,2018(15):46-47.

[11]张冠凤.基于大数据时代下的网络营销模式分析[J].现代商业,2014(32):59-60.

[12]王克富.论大数据视角下零售业精准营销的应用实现[J].商业经济研究,2015(06):50-51.

[13]陈慧,王明宇.大数据:让网络营销更“精准”[J].电子商务,2014(07):32-33.

;

⑥ 《大数据架构商业之路从业务需求到技术方案》pdf下载在线阅读全文,求百度网盘云资源

《大数据架构商业之路》(黄申)电子书网盘下载免费在线阅读

链接:

提取码: upxi

书名:大数据架构商业之路

作者:黄申

豆瓣评分:7.9

出版社:机械工业出版社

出版年份:2016-5-1

页数:298

内容简介:

目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。

作者简介:

黄申,博士,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献,2015年获得美国政府颁发的“美国杰出人才”称号。

阅读全文

与王亚松大数据相关的资料

热点内容
maya粒子表达式教程 浏览:84
抖音小视频如何挂app 浏览:283
cad怎么设置替补文件 浏览:790
win10启动文件是空的 浏览:397
jk网站有哪些 浏览:134
学编程和3d哪个更好 浏览:932
win10移动硬盘文件无法打开 浏览:385
文件名是乱码还删不掉 浏览:643
苹果键盘怎么打开任务管理器 浏览:437
手机桌面文件名字大全 浏览:334
tplink默认无线密码是多少 浏览:33
ipaddgm文件 浏览:99
lua语言编程用哪个平台 浏览:272
政采云如何导出pdf投标文件 浏览:529
php获取postjson数据 浏览:551
javatimetask 浏览:16
编程的话要什么证件 浏览:94
钱脉通微信多开 浏览:878
中学生学编程哪个培训机构好 浏览:852
荣耀路由TV设置文件共享错误 浏览:525

友情链接