【成果推介】人工智能理科文字题解题方法、装置、设备及存储介质
【成果推介】人工智能理科文字题解题方法、装置、设备及存储介质
【应用行业】教育
【技术领域】计算机技术、智慧教育技术
【知识产权】发明专利
【成果完成单位】华中师范大学
【成果完成人姓名】余新国、吕小攀
【完成人团队简介】团队主要研究视频分析、计算机视觉、人机交互、多媒体技术
【成果完成时间】2021-02-05
【专利号】CN2021101511273
【授权日期】2024-01-16
【技术成熟度】研发阶段
【应用背景】基础教育中理科包括数学、物理、化学三个科目,文字题是指这些科目里用各种自然语言描述的题目。理科科目的代数型题目是涉及代数关系计算的题目,包括物理代数题、化学代数题,算术文字题、数学中代数题、平面几何计算题和平面几何证明题等。理科文字题包含代数型文字题和平面几何证明文字题等。自20世纪50年代人工智能领域出现以来,在机器解答基础教育中理科题目方面,机器解答基础教育中数学题多次成为活跃研究问题,在相关领域的技术进步和智能化教育需求的合力推动下以机器解答基础教育中理科题的形式近年来再次成为了研究热点,一些面向智能化教育服务的几何专家系统、解答系统、在线解答辅导系统等陆续投入实际应用中。
目前针对基础教育中理科文字题目的机器解答主要有以下五类技术:
1机器解答算术文字题的双框架方法
双框架方法预先建立解题框架和知识框架,在解题时先识别题目的类型,进而根据类型选择对应的解题框架,抽取题目中的知识并放到知识框中。由知识框和解题框一起推断各个框架的关系并计算未知量而形成解答过程。Kinsch等人(1995)提出了自动求解算术文字题的解题理论和双框架解题法,但只能解答一步的算术文字题。马玉慧等人(2012)扩展了金里奇的知识框表示,实现了多步小学数学应用题的机器求解。华盛顿大学的Hosseini等人(2014)采用动词分类及解题过程框来解决算术应用题,是金氏解题理论的另一种实现方式。该类方法由于没有公认的问题分类方法和系统,对于较为复杂的问题,难以采用题目类型来匹配适合的知识框和解题框。
2基于形式语言的基础教育中几何文字题目的机器理解
基于形式语言的基础教育中几何文字题目的机器理解就是将所要理解的几何题目用形式化的语言来表示,并进一步将形式化语言转换成几何关系来表示几何文字题理解的结果。郭海燕等人(2012)提出了基于模板匹配的方法进行几何文字题目的理解,通过设计好的几何句子模板来匹配几何语句将题目转化为形式化的受限几何命题。该方法的目标是将这种受限几何命题作为中间语言进而生成作图命令序列从而自动构建几何图形,没有给出机器理解几何文字题目的具体形式,也难以扩展到其他类别的题目解答中。
3基于形式语言的算术文字题机器解答
基于形式语言的算术文字题机器解答就是将所要解答的题目用比自然语言简单的形式语言来表示,并建立将自然语言转换成形式语言的方法来进一步推理解答题目。Shi等人(2015)开发了Dolphin系统来自动完成算术文字题的语义分析与推理,创立具有结构化语义的DOL语言用以表示题目文本,利用语义分析器实现将数学问题文本变换为DOL树,进而通过对DOL树的分析,推导出其中所包含的数量关系,从而完成题目理解。Liang等人(2016)提出了基于语义和标签的解答简单算术文字题的方法,将文字题目转化成固定的语义结构从而理解题目,通过推理模块选择题目问题中相关的部分进行推理,最终给出类人的解题表达。这种方法针对具体类别设计具体的形式语言表示,也就是没有统一的形式语言表示,难以扩展到其他类别的题目解答中。
4基于机器学习的算术文字题理解
Kushman等人(2014)提出使用基于机器学习的算术文字题理解方法。该方法首先建立一个线性方程组模板库,采用统计模型来获取问题中的变量和参数与方程模板参数之间的对应关系,从而实例化得到解题所需要的线性方程组。这个方法目前的方程组模板只能由线性方程构成,模板的数量也有限,所以这个方法能理解的题目还很有限。另外,此方法对题目中的不相关信息较为敏感,面对较复杂的题目时性能严重下降。
5序列到序列的算术文字题解答
Wang等人(2017)首先提出了序列到序列(Seq2Seq)的方法解答算术文字题。这种方法设计了一个深度神经网络将输入序列转换为输出序列,其中输入序列为题目文本,而输出序列则是由数字和操作数组成的答案表达式。答案表达式中出现的数字是出现在题目文本或其变体中的数字,以及从题目文本转换而来的一些数字。这种方法的主要缺点是它无法生成可读的解答过程,因为它的整个过程都在深层神经网络的黑盒内。另外,该方法解答题目的能力和范围非常有限,仅能解答数学文字题中单一未知量的题目。
综上所述,机器解答在解答方法、题目理解的深度以及大规模推广应用等方面还亟需进一步提高。首先,现有的机器解答方法来源于多个不同领域的专家学者,建立的算法往往相互独立,无论在解答效率还是在适应范围上都存在很大差异,缺乏适合基础教育中数学机器解答的完备方法和体系。其次,现有的题目理解往往采用规则或符号逻辑等浅层分析技术,导致题目理解的能力不足。最后,当前的机器解答系统能够解答的题目类型和范围非常有限,同时题目输入、题目理解的自动化程度不高,无法满足大规模推广应用的要求。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
【成果简介】本成果发明了一种人工智能理科文字题解题方法、装置、设备及存储介质,该方法通过获取目标题目内容,对目标题目内容进行分类,获得类别信息,对目标题目内容进行分词、词性标注和关键词标注,根据词性和词语到向量的对应表,将词性和词语转化为向量,获得目标题目内容的向量序列,根据类别信息选取目标模型池,根据目标模型池对向量序列进行向量计算匹配,获得目标题目内容中的直陈关系和/或隐含关系,根据直陈关系和/或所述隐含关系组成关系组,从关系组中挑选子集作为题目理解结果,对题目理解结果进行求解,获得求解过程。本成果基于关系演变、模型池、直陈关系和隐含关系提高解答理科文字题目的范围及效率。
【成果图片】
【联系方式】段治国、安红高、刘树楠、吴涛,02767868068,02767868067,02767862769