Page 120 - 201909数码世界9.9
P. 120
科技交流
基于增量 AHP 的学习资源多标签标注研究
吴雷
摘要:学习资源标注是我们根据需要知识准确获取相关学习资源的基础。然而目前大多数资源标注方法仅局限于单标签以及
缺乏关联度信息,给用户精确获取学习资源带来困难。为解决此问题,本文提出一种基于增量 AHP 的学习资源多标签标注方法,
首先根据标签 - 资源信息构建学习资源多标签标注模型,然后利用层次分析法定性与定量分析相结合的特点进行关联程度值
处理,选取出与学习资源相关程度最大的若干个标签作为标注标签,从而支持用户方便获得与学习资源相关的知识点以及关
联程度值。此外,针对初始成对比较矩阵随时间变化导致更新的情况,本文对传统 AHP 算法进行改进,提出增量 AHP 算法实
现学习资源关联程度值更新。实验结果表明本文提出的方法具有良好的实用价值。
1 引言 映射构造标注信息,从而完成学习资源多标签标注模型构建,
随着信息技术的飞速发展,我们可以方便的获取海量文档、 利用层次分析法进行相关程度值处理,提出了关联程度值增量
图像、视频等跨媒体学习资源。然而 这些学习资源在给我们带 更新方法进行标注信息更新,并由此提出基于增量 AHP 的学习
来丰富信息的同时,也造成了资源信息杂乱以及检索困难现象 资源多标签标注方法。 本文的其余章节安排如下:第 2 节介绍
的出现,即大量无用信息和有用信息掺合在一起,给我们迅速 学习资源多标签标注模型构建,第 3 节介绍基于增量 AHP 的学
获取所需信息资源带来极大困难。这就需要我们采取有效的学 习资源多标签标注方法,第 4 节主要针对本文提出的方法进行
习资源标注方法,从而方便消费者迅速获 取其需要的各种知识 试验以及结果分析,最后一节是本文结束语以及未来工作展望。
资源。语义网 [1] 技术的出现为实现知识的高效管理提 供了新 2 学习资源多标签标注模型
的方向,目前实现学习资源有效管理的方法主要有两种,分别 本文针对通常的学习资源标注出现的资源信息丢失以及不
是构建学习资源库模型和资源标注。构建学习资源库模型的方 能定量分析标签的关联度等问题,通过构建学习资源多标签标
法源初始关联知识点:主要是通过分析学习资源的空间特征以 注模型来解决以上问题。本文提出的学习资源多标签标注模型。
及语义特征并生成资源的语义元数据对资源进行规范化描述, R1、R2…Rn 是不同学习资源,包括视 频、图片、文档等类型
进而将学习资源组织起来构建学习资源库模型。张沪寅等将语 的学习资源,首先在资源入库时抽取资源信息 ( 包括资源名称、
义特征引入到电子学习资源模型库的构建之中,通过构建电子 格式、主题等 ) 构建学习资源库。然后根据学科标准 ( 如学习
学习资源库本体并生成相应的语义元数据,规范地描述资源, 大纲、主题分类词表等 ) 构建标签库。最后对于学习资源库中
将资源以机器可理解的方式组织起来实现资源的有效管理,进 的某一资源 Rk,通过学习资源信息与关联标签形成映射构建标
而提出了一种基于本体描述的电子学习资源库模型 LMOD。资源 注信息,并将标注信息存储于标注信息库中。看出,本文提出
标注方法主要是通过分析学习资源的语义特征,并完成学习资 的标注方法主要包括三个方面的内容,分别是标签库构建、标
源与标注标签的映射,从而实验资源的有效检索。陈叶旺等通 注信息表示以及资源标注。
过分析领域本体知识的语义环境和资源文档结构两方面信息, 2.1 标签库构建
利用领域本体所表达的丰富语义环境信息,实现对农业领域中 本文构建的标签库是利用本体构建工具 Protégé 根据《中
各类文档资源的语义标注提出了一种基于本体的文档语义标注 国分类主题词表》创建的学科领域本体 OWL 文件。
改进方法;李宏言等引入了针对语音数据标注的六元组模型, 定义 1 领域本体是描述某一领域知识的概念或术语以及它
将语音资源的自身特征考虑进去,并将标签对象扩展为更为广 们之间关系的集合,因此领域本体可以用一个五元组表示,记
义的标记,提出基于 “兴趣 + 收获 + 报酬”的标注模式实现了 作 O=<C,R,F,A,I>,其中 C、F、A、I 和 R 分别是领域本体
大数据语音语料库的社会标注。 中的概念、关系、函数、公理和实例,其中概念 (Concepts) 是
尽管这些方法在一定程度上实现了基于语义的资源标注, 一类对象的集合的抽象描述,C={O1,O2,…},Oi 是领域中的
提高了用户的资源检索效率,然而这些方法依然存在下述不足: 对象;关系 (Relations) 是在领域中概念之间的交互作用,形
(1)他们只是给某一资源进行简单的贴上一个标 签,而 式上定义为 n 维笛卡儿积的子集;函数 (Functions) 则是元知
没有考虑与该资源有关标签可能不止一个, 比如资源《名师解 识对规则与操作的一种映射关系;公理 (Axioms) 公理是一种无
读立体几何问题》不仅仅是讲解 立体几何问题,该资源还关联 需证明的永真断言;实例 (Instances) 是类中的知识具体化表
到坐标与图形运动的问题。 示。本文构建的标签库有 3 个优势,分别是:
(2)现存的标注方法只是给予资源某个标签,仅仅完成定 权威性和规范性,《中国分类主题词表》是在《中国图书
性分析,而没有对资源与标签的关联度进 行定量研究。本文针 分类办法》编委会的主持下,由全国 40 个图书情报单位共同参
对以上问题,以教育领域学习资源标注为研究对象,通过分析 加编制的一部大型文献标引工具书,这使得本文构建的标签库
学习资源空间特征与语义特征完成学习资源信息与标签信息的 具有权威性和规范性。
122... ...123