㈠ 数据采集|教育大数据的来源、分类及结构模型
一、 教育大数据的来源
教育是一个超复杂的系统,涉及 教学、管理、教研、服务 等诸多业务。与金融系统具有清晰、规范、一致化的业务流程所不同的是,不同地区、不同学校的教育业务虽然具有一定的共性,但差异性也很突出,而业务的差异性直接导致教育数据来源更加多元、数据采集更加复杂。
教育大数据产生于 各种教育实践活动 ,既包括校园环境下的教学活动、管理活动、科研活动以及校园生活,也包括家庭、社区、博物馆、图书馆等非正式环境下的学习活动;既包括线上的教育教学活动,也包括线下的教育教学活动。
教育大数据的核心数据源头是“人”和“物”——“人”包括学生、教师、管理者和家长,“物”包括信息系统校园网站、服务器、多媒体设备等各种教育装备。
依据来源和范围的不同,可以将教育大数据分为个体教育大数据、课程教育大数据、班级教育大数据、学校教育大数据、区域教育大数据、国家教育大数据等六种 。
二、 教育大数据的分类
教育数据有多重分类方式。
从数据产生的业务来源来看,包括 教学类数据、管理类数据、科研类数据 以及服务类数据。
从数据产生的技术场景来看,包括 感知数据 、业务数据和互联网数据等类型。
从数据结构化程度来看,包括 结构化数据、半结构化数据和非结构化数据 。结构化数据适合用二维表存储。
从数据产生的环节来看,包括 过程性数据和结果性数据 。过程性数据是活动过程中采集到的、难以量化的数据(如课堂互动、在线作业、网络搜索等);结果性数据则常表现为某种可量化的结果(如成绩、等级、数量等)。
国家采集的数据主要以管理类、结构化和结果性的数据为主,重点关注宏观层面教育发展整体状况。到大数据时代,教育数据的全面采集和深度挖掘分析变得越来越重要。教育数据采集的重心将向非结构化、过程性的数据转变。
三、教育数据的结构模型
整体来说,教育大数据可以分为四层,由内到外分别是基础层、状态层、资源层和行为层。
基础层:也就是我们国家最最基础的数据,是高度保密的数据; 包括教育部2012年发布的七个教育管理信息系列标准中提到的所有数据,如学校管理信息、行政管理信息和教育统计信息等;
状态层,各种装备、环境与业务的运行状态的数据; 必然设备的耗能、故障、运行时间、校园空气质量、教室光照和教学进度等;
资源层,最上层是关于教育领域的用户行为数据。 比如PPT课件、微课、教学视频、图片、游戏、教学软件、帖子、问题和试题试卷等;
行为层:存储扩大教育相关用户(教师、学生、教研员和教育管理者等)的行为数据, 比如学生的学习行为数据、教师的教学行为数据、教研员的教学指导行为数据以及管理员的系统维护行为数据等。
不同层次的数据应该有不同的采集方式和教育数据应用的场景。
关于教育大数据的冰山模型,目前我们更多的是采集一些显性化的、结构性的数据,而存在冰山之下的是更多的非结构化的,而且真正为教育产生最大价值的数据是在冰山之下的。
参考文献:
教育大数据的来源与采集技术 邢蓓蓓
㈡ 大数据可视化大屏图表设计经验,教给你!
自从跟大家分享第一篇 《大数据可视化大屏设计经验,教给你!》 ,很多小伙伴都会问我一些相关的问题,看了小伙伴给我发的视觉稿,整体都还不错,但是发现图表的设计都有一些问题,大家可能对数据可视化的图表设计经验少一些,所以这篇文章就挖掘一下图表的细节表现,分享我曾经遇到过的坑和对图表设计的理解。
图表设计
图表设计概念
图表设计是数据可视化的一个分支领域,是对数据进行二次加工,用统计图表的方式进行呈现,也是数据可视化的核心表现,图表设计既要保证图表本身数据清晰准确、直观易懂,又要在找准用户关注的核心内容进行适当的突显,帮助用户通过数据进行决策。
下面分析三种常用的可视化图表设计:
折线图
折线图常用于表示数据的变化和趋势,坐标轴的不同对折线的变化幅度有很大的影响。
左图坐标轴设定的太低,折线变化过于陡峭,图中数值区间为(10-34)数据可视化的表现过于夸大了折线变化的趋势。
右图坐标轴的数值设定的太高,则折线变化过于平缓,无法清晰的表现折线的变化。
合理的折线图应当占据图表的三分之二的茄卜位置,图表的X轴数值范围应根据折线的数值增减变化而变化,这需要跟前端小哥哥小姐姐说明,做成动态计算。
折线图的折线粗细要合理,过细的折线会降低数据表现,过粗的折线会损失折线中的大纳孝数据波动细节,视觉上较难精准找到折线点的相应数值!我通常用两个像素的线,看起来比较合适!
右图刻度线颜色过重,影响图表数据的表现,零基线跟图表内的刻度线对比不够明显,整体很乱。零基线是强调起始位置的,一般要比图表内的线颜色凸出一些。
条形图/柱状图
理想很丰满,现实很骨感。这个案例是我之前在工作中遇到的问题,数据进来后,被吓到了,问题的原因是没有跟前端小哥姐沟通好,他们把X轴写死,导致出现这种问题,其实应该情况要把这些图表的取值范围写成动态计算的。
例如,以现在数值范围为例,数据的最高值为18,X轴最高数值应该为25,当数据又上升一定的高度后,X轴再上升到相应的数值高度,这滚稿样避免了如右图的问题。
坐标轴的标签文字最好能水平排列, 当X轴标签文字过多时,不建议倾斜排列、上下排列、换行排列 文字多了这样的展示大大降低了阅读性!下图给出两个解决方案,大大提高标签文字的阅读性!
解决方案
柱子之间过于分散就会失去数据之间的关联性,过密就会变得数据之间没有独立性更不利于舒适阅读。
当柱子为n时,柱子直接的距离建议与n相差不要太大,柱子靠边的距离,最好是柱子之间的一半的距离,这样视觉上最为舒适。
饼图
左1图,不建议在饼图内与百分比数值一起显示,饼图本身的形状和大小,文字过多时容易溢出,如果出现一个2%一个1%,就很难辨别图形指向,这样也就失去了数据可视化的意义,PPT通常有这样的设计样式,因为是个死图。
左3图,人的阅读习惯是从左到右,从上到下,所以数据从大到小排列,更有助于阅读,图形也更具美感!
当饼图为检出率,或者一些重要信息检测的重点关注数据,就不建议大小数据顺时针排列,左1图这种情况一般很少出现,因为关注的是检出数值,展示未检出数据实为鸡肋,可能是极少情况的需要吧!
右图对于类似检出率的数据最为合适,直观清晰,没有无用数据干扰!
当饼图的标签维度过多时,就不适合把数据围绕饼图一周展示,会很乱,不易阅读,解决方案如右图!
图表分类图
分享一张图表分类大全,保存起来,设计数据可视化产品,会有重要参考价值!
这张图由设计师Abela对图表的各种特征进行了大致的概括总结。
㈢ 大数据培训内容,大数据要学哪些课程
hadoop离线分析、Storm实时计算、spark内存计算