【成果推介】一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
【技术名称】一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
【应用行业】教育行业
【技术领域】教育信息化领域
【知识产权】发明专利
【成果完成单位】华中师范大学
【成果完成人姓名】曾致中、方淙、余新国、陈志平、王静静、袁航、熊佳洁
【成果完成时间】2019-11-28
【专利号】CN201911192918.X
【授权日期】2023-04-28
【技术成熟度】已有样品
【应用背景】随着中国的经济腾飞,越来越多的外国友人来华生活,使得更多的人有了学习汉语的需求,不仅是中国的中小学生,还有更多热爱汉语的国外友人也迫切的想要提高自己的汉语水平。学习汉语文本是最有效的方式之一,但是学习一定难度汉语文本需要汉语学习者自身具备一定的文化素养,若是汉语学习者不满足对应文本对其汉语功底要求,则会事倍功半并且会极大的打击汉语学习者的兴趣爱好。并且在培养汉语学习者的写作能力的时候,应该有针对性的提供各种文体给其参考,并且能基于汉语学习者所写的作文文体来进行评判打分。故汉语文本难度评估是辅助汉语学习系统的关键技术。
【成果简介】本成果涉及一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法,步骤为:确定分类依据并归纳出不同的label;利用分类的依据将不同类型的文章数据集进行正确的划分;使用LEAM结构利用所有label的空间域分布与每个词的Embedding编码的距离远近分配attention的权重;将label嵌入进中文文本的Embedding空间中得到label的多维向量表示;针对于每一个类别人工选出一篇最能代表该类别的文章,将这篇文章编码,作为Siamese网络的一个输入;得到的文本编码与基准做差值然后送入softmax分类;根据与不同类型文本的相似度最后得出分类结果。本发明将文本的label与文中的字词一起进行Embedding,并将label同时多次嵌入到空间中,使得不同label的边界不是简单地耦合在一起,大大的降低欠拟合的问题,提高分类的准确率。
【成果图片】
【联系方式】段治国、安红高、刘树楠、吴涛,02767868068,02767868067