欢迎浏览杂志社官方网站
教育论文

教育大数据的平台构建与关键实现技术

摘要:大数据现已成为驱动教育变革与创新的强劲力量,而平台建设是教育大数据落地的关键之所在,它覆盖了从数据采集、存储计算、分析挖掘到具体应用的整个生命周期。文章首先从广义的角度,对教育大数据的内涵进行了再认识。随后,文章基于教育大数据平台的需求分析,设计了教育大数据平台的架构。最后,文章从学习行为大数据采集、教育大数据存储与计算以及教育大数据分析挖掘三个方面,对平台的关键实现技术进行了研究。文章的研究可为教育大数据的理论研究与实践应用打下平台基础。

关键词:教育大数据;数据采集;存储与计算;分析挖掘

2012 年,美国教育部提出以大数据为支撑、通过教育数据挖掘和学习分析来促进教学变革的理念。2015 年,我国开始战略部署教育大数据,中国教育大数据研究院、教育大数据应用技术国家工程实验室等研究机构相继成立,各地教育信息化发展规划也纷纷将大数据列为“十三五”期间大力发展的重要内容,大数据已经成为推动教育变革的新动力。

近年来,网络学习空间、电子书包、翻转课堂、MOOC、微课等的出现,促使传统课堂教学模式与在线教育相互融合。在这种技术丰富的新型学习环境下,大量网络化、数字化的学习系统被应用,使得对学生个体全过程的行为数据采集成为可能。而平台建设是教育大数据发展的基础,它覆盖了从数据采集、存储计算、分析挖掘到具体应用的整个生命周期。但是,目前相关教育大数据的研究大多停留在理论探索阶段,尚没有形成一个针对教育领域统一的、完整的大数据平台架构。因此,本研究对教育大数据平台的架构及其关键实现技术进行研究,以期为学术界和产业界提供参考。

对教育大数据内涵的再认识

大数据是指“规模超过了传统数据库软件获取、存储、管理和分析能力的数据集”。实际上,大数据不仅包括“大”的数据,而且涉及与之相适应的技术与思维方式:①在技术层面,为处理海量的、多模态的、实时产生的数据,产生了与之相适应的计算、存储、分析挖掘技术——计算方面,出现了面向批量数据、流式数据、图式数据的并行计算模型;存储方面,出现了诸如HDFSHBaseTachyon 等分布式存储技术;分析挖掘方面,除了将传统数据挖掘和机器学习技术应用于大数据的并行计算,还出现了模拟人类智能的深度学习、认知计算等新技术。

②在思维层面,舍恩伯格等总结了大数据时代的三大思维转变,即使用全量数据、关注相关关系、接收混杂数据;此外,与传统的模型驱动和机理建模的方法所不同的是,数据驱动的创新思维方式无需了解内在机制和客观规律,而是从数据出发自上而下地探究问题的内在机理。

对于教育大数据的内涵,目前没有统一的说法。如《中国基础教育大数据发展蓝皮书(2015)》将教育大数据界定为教育活动中产生的、蕴含着巨大价值的数据集合;而杜婧敏等从数据特征、来源、目标、技术的视角对其进行了解读。从广义的角度来说,本研究认为教育大数据的内涵包括:①教育大数据指“大”的数据集合,这些数据既具有一般大数据体量大、类型多、产生速度快、价值丰富的共性特征,又具有教育数据多层性、时间性和序列性的领域特点;②教育大数据还包括支持其处理的计算模型、存储技术和数据分析挖掘技术;③教育大数据也指利用全量的、混杂的数据发现相关关系,并以数据驱动的方式来理解优化学习过程、学习环境和探究教育规律的思维方式。教育大数据要从理论走向实践应用,其关键在于平台的构建。

教育大数据平台的构建

1 需求分析

教育大数据平台的定位是为教育大数据的汇集融合、海量存储、高效计算、深入分析挖掘以及教育应用的开发与运行提供基础支撑,因此该平台应满足以下功能性需求:①数据采集方面,应提供各种数据适配接口,支持结构化的数据库记录、非结构化的教育教学资源、实时的行为数据流等各种多源、异构数据的汇集;②数据存储方面,面对海量数据的存储需求,应提供高可扩展性、高容错性、高吞吐量、低成本的分布式存储方案,支持文件系统、SQL/NoSQL数据库、数据仓库等存储方式,并提供高效的管理与快速查询功能;③数据计算方面,应提供面向海量数据的并行计算引擎,满足批量计算、实时计算、图式计算等不同应用场景的计算需求;④分析挖掘方面,应提供面向教育领域的分析挖掘模型及其相应的算法,能实现算法的并行化,并支持算法参数的灵活配置。

2 架构设计

如前文所述,教育大数据平台覆盖了从数据采集、存储计算、分析挖掘到具体应用的整个生命周期。基于此,结合前面的需求分析,本研究设计了教育大数据平台的架构。

1)数据源

教育大数据的来源可分为四种类型:①管理类数据,包括学籍数据、学生成绩、上网数据、一卡通数据等,这些数据多以结构化的形式存储在关系型数据库中;②资源类数据,包括媒体素材、试卷、课件、案例等,这类数据多以文本、音视频等非结构化的形式存储在文件系统中;③行为类数据,包括教师教学行为和学生学习行为产生的数据,前者涉及讲解与演示行为、答疑与指导行为、提问与对话行为、评价与激励行为等,后者则分为信息检索类、信息加工类、信息发布类、信息交流类等;④评价类数据,包括学业水平考试类数据和综合素质评价类数据。

2)采集层

教育数据的采集方式可以分为批量采集和实时采集两种:批量采集一般用于导入、同步、复制历史收集的日志数据、数据库记录、资源文件、互联网数据等;实时采集主要利用Agent技术实时收集、传输在线行为类数据,而对于线下传统教学环境中的数据可以利用点阵数码笔、图像识别等采集技术进行获取。

3)存储层

对于从数据源采集到的各类教育数据,需要不同的存储方式对其进行保存,存储方式包括文件系统、数据库、数据仓库、消息系统、内存存储系统等。为应对海量教育数据的存储需求,这些存储方式大多采用分布式架构。为支持复杂的分析挖掘任务,存储层会以分布式数据仓库为主要的存储及管理方式,并分为临时存储区、操作性数据仓库、大数据仓库和数据集市四层。

4)计算层

教育大数据的价值挖掘需要相应的计算引擎为其提供强大的计算能力,计算引擎包括批处理计算引擎、流计算引擎、内存计算引擎、图计算引擎等。其中,批处理计算引擎用于对大规模历史数据进行并行运算;流计算引擎用于对实时产生的流式数据进行处理;为提高数据计算的速度,出现了利用内存空间进行数据运算的内存计算引擎;为应对大规模图数据的处理需求,图计算引擎也应运而生,为学科知识图谱的构建提供了新的技术支持。

5)分析挖掘层

大数据的教育应用主要涉及两个方面:①教育数据挖掘,侧重于新算法、新模型的构建;②学习分析,侧重于直接应用已有技术解决教育领域中存在的问题。虽然二者的侧重点有所不同,但涉及的分析、挖掘技术相差不大,主要包括关联规则挖掘、聚类分析、趋势预测、时序分析、回归分析、情感分析、语义分析、社交网络分析等。基于这些通用算法,结合领域特征,可以构建解决教育问题的新方法。

6)应用层

教育大数据的价值体现在具体的应用中。基于数据分析挖掘的技术可以对学习者进行数字画像,包括分析学习者的风格类别,测量学习者的现有知识水平,诊断学习者的认知能力,发现学习者的行为模式、学习规律,预测学习者未来的学习表现;然后,自动进行个性化推荐,并对预警的学生进行干预。在教师教学方面,可对教师的教学行为进行诊断,以便教师调整教学模式、教学计划等。通过对教学资源的分析,可以构建反映学科知识内在逻辑关系的知识图谱。此外,也可以对区域教育的均衡发展状况进行监测、预警。

教育大数据平台的关键实现技术

1 学习行为大数据采集技术

从心理学角度来说,学习行为有五大基本要素:主体、客体、上下文、手段、结果。基于这五大基本要素,美国高级分布式学习(Advanced Distributed LearningADL)组织发布了Experience APIxAPI)规范。从行为发生角度来说,在线学习行为发生在学习者与图形用户界面的交互过程中,并通过事件模型来响应用户的行为动作。本研究基于xAPI 规范、事件模型和大数据中的Flume 采集技术,设计了学习行为大数据的采集框架,具体采集过程如下:学习者与界面进行交互,在组件上实施一个行为动作,产生事件对象,并通知相应的事件监听器;事件监听器对应的事件处理器会收集行为的相关要素,聚合后将其发送给服务器端的数据接收组件SourceSource 将其存入数据缓存组件Channel 中,数据分发组件Sink Channel 中读取数据,并将其发送到消息队列Kafka 中。

2 教育大数据的存储与计算技术

教育大数据与传统中小规模数据相比,在数据来源、结构、体量等方面有本质的区别。这些特征的变化,使得传统数据存储与计算技术难以应对现有教育大数据的需求,故促使数据的存储方式、计算模式和体系结构均发生了变化:存储方式从传统集中式向分布式发展,计算模式从传统单机多线程计算向集群并行运算演进,体系结构从计算、存储相分离向一体化融合方向发展。本研究将目前可用的教育大数据存储与计算技术进行了分类总结。

3 教育大数据的分析挖掘技术

教育大数据的核心是综合运用数理统计、机器学习、数据挖掘、模式识别等技术,在对教育数据进行预处理、探索性分析的基础上,通过分析模型、预测模型的构建,从数据中提取出有价值的信息,以此促进教学过程的优化与教育变革。本研究对目前可用的教育大数据分析挖掘技术中常用的算法和教育应用案例进行了归纳总结。

对教育大数据分析挖掘技术的进一步研究可从以下两方面着手:①以传统小数据分析挖掘技术为基础,针对具体教育问题开展相应的并行算法研究,以应对海量、高速、多样的教育大数据处理需求;②充分挖掘教育数据的领域特征,以传统学习理论、网络学习新型理论、教育测量理论、系统科学理论为基础,结合深度学习、认知计算等新技术,研发新型教育大数据分析挖掘技术。

结束语

教育大数据是学生学习个性化、教师教学精准化的需求,是量化学习过程、深入研究学习内在发生机制的需求,也是精细化管理、利用数据进行决策支持的需求。教育大数据的发展应以教育大数据平台为依托,以破解当前教育面临的实际问题为导向,通过海量教育数据的采集、存储与计算、分析挖掘,驱动教育在个性化学习、精准教学、科学决策、教育研究等多方面的变革与创新,促进大数据与教育教学的深度融合。本研究按照软件开发的思路,通过需求分析、架构设计构建了教育大数据平台,并对该平台涉及的关键实现技术进行了详细阐述。后续研究将基于该平台深入开展个性化学习模式、精准教学模式的实践应用,以期为学习者提供更优质的个性化支持服务。


热门期刊