【成果推介】基于随机子空间的决策树分类的对外汉语难度评估方法
浏览次数: 发布日期:2023-08-22 15:36
【技术名称】基于随机子空间的决策树分类的对外汉语难度评估方法
【应用行业】教育信息化
【技术领域】自然语言数据处理
【知识产权】发明专利
【成果完成单位】华中师范大学
【成果完成人姓名】曾致中、陈治平、余新国、方淙、王静静、袁航、熊佳洁
【成果完成时间】2019-11-29
【专利号】CN201911206414.9
【授权日期】2023-04-07
【技术成熟度】已有样品
【应用背景】对外汉语分级读物的难易度指的是该级别的读物是否适合汉语语言程度达到该级别的汉语学习者来阅读,是否会出现读物过难,或者读物太容易的情况。目前关于中文文本分类多是对于微博和新闻等简单短小的文本集进行分类,而针对于可供汉语学习者的汉语文本分类若是使用现有的方法效果都不太理想。
【成果简介】该成果公开了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,根据文章的长度,易读性等特点生成86个统计特征,用svm进行分类,得到置信度1。将encoding特征,用svm进行分类,得到置信度2。将得到的2个置信度,融合作为新的特征,用决策树来进行分类。对于encoding特征数据:通过BERT模型提取的encoding的‑1层输出信息结果,然后再做average‑>max pooling处理,得到总共有768维特征,不需要做归一化。该成果避免了传统算法低效且欠拟合的问题,最合理的使用了所有信息,使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6%的准确率。
【成果图片】
【联系方式】段治国、安红高、刘树楠、吴涛,02767868068,02767868067