❶ [hive]一种基于Hive日志分析的大数据存储优化方法_王正也_百度文库
一种基于Hive日志分析的大数据存储优化方法 王正也 网络文库
http://wenku..com/link?url=-
2 一种基于Hive日志的大数据存储优化方法
2.1 优化方法概述
Hive作为Hadoop开源分布式平台下的数据仓库工具,他的作用是HDFS上存储的结构化数据,根据使用者的需求将其映射出数据表,并可以向用户提供类似SQL的HiveQL查询功能,并将用户提交的Query转换成Map-Rece任务执行。Hive的优点是提供类SQL的查询接口,快速实现数据的统计分析功能,而不必编写专用的Map-Rece任务。而也正是因为如此,通用的Hive数据仓库,没有进行专用化的优化设计,其查询分析效率也有很大的优化空间[4]。
文章根据常用的HiveQL的查询日志分析和根据现有的数据存储结构的关联特性提出一种通用的Hive数据存储的优化方法。
本策略认为优化一个专用的Hive海量数据仓库分为以下几个步骤: 1. 分析常用查询日志,根据使用人员习惯定制数据分区结构。 2. 使用专用的优化过的列式存储结构作为数据导入格式。 3. 根据数据表,和表中字段的实际物理意义合并压缩重复字段和数据表。 4. 根据数据表中字段实际的取值优化字段的存储类型。 5. 编写UDF,在不改变用户使用习惯的基础上,应用上述优化。 其中1.2.两点在数据导入阶段进行优化,3.4.5.是在对数据表字段和表结构的优化,需要配合UDF来进行。通过上述优化过程可以大大节省HiveQL的查询时间以及HDFS上数据的占用空间。
2.2 根据查询日志进行分区优化
Hive的日志记录了Hive的运行状况,为本文分析操作者的使用习惯提供了很大的帮助。可以通过编写Hive的EXPAIN功能进行日志的分析,利用Hive的EXPLAIN功能,本文可以得到查询语句的抽象语法树(ABSTRACT SYNTAX TREE),通过抽象语法树,本文可以快速得到查询语句的语法结构。
例如,以下一条语句SELECT col1, SUM(col2) FROM tab1 GROUP BY col1的通过EXPLAIN命令本文可以得到如下结果:
ABSTRACT SYNTAX TREE:
(TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME tab1))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR (TOK_TABLE_OR_COL col1)) (TOK_SELEXPR (TOK_FUNCTION sum (TOK_TABLE_OR_COL col2)))) (TOK_GROUPBY (TOK_TABLE_OR_COL col1))))
可以通过使用正则表达式抓取特征数据,得到该语句的语法结构,同时通过编写Shell脚本,批量执行EXPLAIN命令,可以很快的理解到使用者的常用语法习惯,为后文的分区优化提供了数据支持。 通过对使用者常用字段进行分区(partition),带来的便利是大大的节省了一些常用查询的在硬盘中读取数据所消耗的时间。 通常在没有进行过优化的Hive系统中,每次查询提交之后,Hive要对输入数据进行全盘扫描满足条件的的项目,通过合理的划分分区,在单次任务提交后,可以按照任务的限定条件只扫描某些关键分区的数据,大大提高的Hive查询执行的效率。
2.3 选取合适的Hive数据存储格式
在Hive中数据表创建时需要指定文件存储格式,在Hive0.90版本中,常用的数据格式分为TEXTFILE、SEQUNCEFILE、RCFILE和用户自定格式等几种,以上格式的主要区别在行式存储与列式存储,不同压缩算法等方面的区别。根据Hive数据表格的特性,和通过Hive日志观察到的用户使用习惯等特性,通过选择合适的文件存储格式,可以大大提高查询效率,减少查询耗费时间。
4 结论
本文给出了一种基于Hive日志分析的大数据存储优化方法,通过实际测试可以看出,使用该优化方法的Hive数据存储系统无论从磁盘空间利用率还是从查询效率上都得到和很大提升。
❷ 大数据对未来教育的影响包括哪些
作为社会子系统重要的组成部分,教育也深受大数据来临的深刻影响。国外高校教学管理中,教育数据的挖掘也成为提高教学管理水平和教学质量的重要方式。美国的学校能够通过对学生数据的分析,以85%的精确度预测学生的升学率。[4]中国教育在当前社会转型影响下存在不少问题,通过正在形成的大数据技术,教育政策的制定、学习方案与评价方式的确立等,都将发生革命性变化。
1.渗透到教育的核心环节
教育和社会之间是哲学上的辩证关系,一方面,通过教育培养出能改变世界、创造世界的人才;另一方面,教育又深受当前社会氛围、国家体制、经济状况、文化传统等的影响。从当前来看,教育深受工业社会的影响。从18世纪中叶开始,整个世界开始受到工业革命的影响,市场的扩大和劳动时经验与技术的要求,对劳动力的素质提出了新的要求,实际的动手能力代替了过去注重个体层面的文化修养学习,能不能解决问题,成为衡量人才的标志。这种人才观对教育的影响是巨大的,这从美国实用主义哲学家杜威教育思想的流行可见一斑。
大数据时代的来临将会革新这种延续了近三个世纪的教育理念。美国著名的未来学家,当今最具影响力的社会思想家之一的阿尔文·托夫勒(Alvin Toffler)在他的著作《未来的冲击》中提出“未来的教育”,他预测未来的教育要面对服务、面对创新,因此在家上学、教育空间设计、面向未来的学校界限的消失将成为趋势。[5]解决实际问题的能力作为大数据时代人才的能力之一,将渐渐淡出教育的逻辑起点位置,发掘知识、寻找联系、总结规律将成为大数据时代人才的重要要求。大数据时代教师将集中在挖掘学生与学习有关的表现,最适宜学生学习的方法,而不是依赖于定期的能力测试。教师分析学生知道什么,什么是最有效的学习路径。通过对在线学习工具等的分析,可以评估学生在线学习行为的长度,以及学生们如何获得电子资源,如何迅速地掌握概念。[6]
从我国实际情况来看,教育政策的制定与执行都是自上而下的,这种情况有利于政策的权威性与执行的效率,但是忽视教学与学生实际的弊端也客观存在。大数据时代将可以通过对教育数据的分析,挖掘出教学、学习、评估等符合学生实际与教学实际的情况,这样就可以有的放矢地制定、执行教育政策,从而为学生制定出更符合实际的教育策略。
2.重新构建教学评价方式
长期以来,教学评价活动主要是学校以及上级主管部门在听课和学生考试成绩的基础上对任课教师进行评价,或者教师根据学生考试成绩和作业成绩以及课堂表现等对学生进行评价。[7]教学评价活动促进了教师的教学和学生的学习,但是在细节方面还有待提高,比如教师在教学活动中,哪些教学方式是最为擅长也最容易为学生接受?学生在学习过程中,个体的学习习惯是什么,什么样的学习方式最容易掌握知识?这些细节可能需要大量的实践经验总结出来,短期的教学评价是难以实现的。
大数据技术通过对教师与学生长期行为进行分析,得出具有个性化的教学行为、习惯、方式。“不得不承认,对于学生,我们知道的太少”。同样,我们也可能对教师知道的太少。大数据的到来,可以通过技术层面来评价、分析并进而提升教学活动。首先,教学评价的方式不再是经验式的,而是可以通过大量数据的“归纳”,找出教学活动的规律。比如新一代的在线学习平台,就多出了行为和学习诱导的部分。通过记录学习者鼠标的点击,可以研究学习者的活动轨迹,发现不同的人对不同知识点有何不同反应,用了多长时间,以及哪些知识点需要重复或强调。[8]对于学习活动来说,学习的效果体现在日常行为中,哪些知识没有掌握,哪类问题最易犯错等成为分析每个学生个体行为的直接结果。其次,可以对学生进行多元评价,而不仅仅是知识掌握的单一维度。对学生的评价应该是多元的,特别是通过数据分析,可以发现学生思想、心态与行为的变化情况。比如,同一寝室,互相删除了联系方式,或者两者之间没有任何数据产生,同学之间的关系肯定出现了问题,通过数据分析,就应在学生心理与行为方面进行关照。如果通过文本分析、信息抓取分析出学生的近期情绪状态,很多悲剧可能就能避免。即使是掌握知识的单一维度,其因素也是多方面的,有的是记忆好,有的则是逻辑思维能力强,通过大数据技术,可以分析出每个学生的特点,从而发现优点,规避缺点,矫正不良思想行为。第三,教学评价跳出了结果评价的圈子,实现过程性评价。传统教学评价多是教的好不好,学的好不好,注重的是结果。而大数据时代可以通过技术手段,记录教育的过程。现在一些学校实行了电子课本,如果能记录下作业情况,课堂言行,师生互动,同学交往,并将这些数据汇集起来,不仅可以发现学生的特点,更不用为如何写期末评价费力了。
3.革新教育者教学思维
传统的教育大多是教育主管部门和教育者通过教学经验的学习与自己的总结,认为某些因素对教学活动很重要,从而一而再、再而三地强调。但是有些经验是不具有科学性的,常识有时会影响人们的判断。比如苹果公司就发现,笔记本电脑销售额的提升,常识认为的比如提高库存管理能力、提供员工更多的专业培训、做更为时尚的广告、促销等等,只能提升2%~9%的销售额,而把电脑屏幕和桌子呈70度角左右放置,却能高出其他电脑销售额的15%。70度角放置的电脑,因为反光会让人不舒服,从而诱使客户去搬动屏幕,一旦潜在客户与货物发生了肢体接触,他购买这个商品的可能性就上升了15%。[9]
大数据时代教师的教学思维需要从群体教育的方式转向个体教育,在教学过程中,可以真正做到因材施教,因人而异。传统教育也提倡因材施教,但是由于学生数量、教师精力、教育任务等制约,因材施教总是有些缺憾。大数据技术将给教师提供最为真实、最为个性化的学生特点,教师在教学过程中可以有针对性地进行因材施教。比如,在课堂学习过程中,哪些(或哪个)同学注意基础部分,哪些同学注意实践内容,哪些同学完成某一练习,哪些同学可以阅读推荐书目等等。这和网络购物相似,通过你过去的购买痕迹,网站就会分析出你的购物兴趣,从而有针对性地给你推送广告信息。
不仅如此,当学生在完成教师布置的作业时,也能通过数据分析强化学习。比如通过电子设备做作业时,某一类型的题目有几次全对,就可以把类似的题目跳过;如果某个类型的题目犯错,系统则可进行多次强化,这样不仅提高了学习效率,也减轻了学生的学习负担。
4.影响学校教育模式
学校教育是当前教育的绝对模式,适龄儿童、青少年都需要进入学校,通过教师的讲授进行学习。但是随着大数据时代的来临,这一教学模式可能会得以改变。2004年,澳大利亚人马丁开发了一个开源课程平台moodle,解决了来回奔波上课的问题。教师通过这个平台与学生互动,学习、考试、资料分发与上传等,都通过网站完成。2010年,这个平台数量已经达到了100万门户。2006年,孟加拉裔金融白领萨尔曼·可汗将自己的10分钟教学视频传到网上,几年后,这个网站注册用户达到了1000万。[10]
教育平台的开发,使网络课程得以飞速发展,2012年美国在线课程投资达到10亿美元以上。网络课程的发展给传统教学带来了巨大冲击,一方面,教育的方式将不再仅仅局限于学校教育;另一方面,教师的课堂教学出现新的替代模式。这种教育模式的革新,在大数据时代更有了存在的价值与意义。
传统教学模式有教师的督促、随时沟通、情感交流,是按照教学大纲按部就班地完成教学活动。这种教学模式有计划、有步骤,体现秩序性,但是在一定程度上也框定了学生的思维框架,学生的创新能力没有得到最大发挥。美国不少商业巨鳄都有辍学经历,甚至有的创业基金要求学生辍学才能发放。这当然不值提倡,但是,从一个侧面也反应出非学校教育,也同样具有创造能力的事实。大数据时代的来临,可以通过学生学习兴趣、在某一在线课程停留的时间、点击率、情绪反应等,推送更具有个性化的学习内容。这在知识爆炸的时代,显得尤为重要。此外,随着媒介社会化时代的来临,学生学习生活网络化已成事实,学生可以通过在线学习目前正在开设的课程,这对正在授课的教师是一种挑战。美国有个Udemy网站,老师根据自己上传视频的点击率获得报酬,2012年5月份,该网站上有的老师收入已经超过20万美元。随着技术的发展,以后教育网站将在大数据的支撑下,根据知识传播的形式、受众的兴趣不断优化教学内容、教学方式,为学生提供更高质量的学习内容。
❸ 大数据的关键技术有哪些_大数据处理的关键技术有哪些
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分早李烂析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
一、大数据采集技术
数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方扰帆式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。
二、大数据预处理技术
主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据陆漏并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。
三、大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。
四、大数据分析及挖掘技术
大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
六、大数据展现与应用技术
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)本回答根据网络文库资料整理,原文请参见《大数据关键技术》
❹ 靠谱的大数据培训机构有哪些
大数据培训机构有:企赢大数据培训学院、传智播客大数据培训学院、产品手记大数据培训机构、传一大数据培训机构、黑马大数据培训机构。具体介绍如下:
1、企赢培训学院:
企赢培训学院的优势,企业自己的案例和业内标杆企业案例结合,讲师针对性讲解;多年研发企业的研发实践和产品管理经验总结,课程系统全面。从市场需求到产品规划整个过程中具体工具和方法介绍;小组方式实际演练,体会上述工具在市场需求分析、产品规划中的运用。
4、传一大数据培训机构:
传一大数据培训机构拥有自主研发的全套系列理论教材、项目实战手册,
以及完善项目管控体系及MOOC线上教学平台。在如此完善的学术沉淀的引领下,造就了数千人的成功就业,
同时获得了众多省内知名企业的认可;
先后与星网锐捷、网龙、睿能、万利达、鑫诺、厦华、雅迅、巨龙等知名企业签订人才战略合作,
并为网龙、中国邮政、亿力科技、日立集团等多家大型企业实施员工内训。
高质量的师资团队保证了传一科技高水平、高质量的教学。
5、黑马高端大数据培训机构:
黑马高端大数据培训机构已经建立自己的大学,打造涵盖中小学基础教育、职业教育、继续教育在内的全套教育生态链,从开端启蒙教育到成年后的职业应用教育,从根本上解决以“人”为单位的系统化教育培训问题。