【成果推介】一种AI人机协同数据标注方法和系统
【成果推介】一种AI人机协同数据标注方法和系统
【应用行业】互联网
【技术领域】计算机技术
【知识产权】发明专利
【成果完成单位】华中师范大学
【成果完成人姓名】杜旭、杨宗凯、李浩、陆文、谢艺乾
【完成人团队简介】团队主要研究智慧学习环境与移动学习、机器学习与教育大数据分析、分布式多媒体网络系统及应用、嵌入式系统及智能终端
【成果完成时间】2023-07-06
【专利号】CN2023108254096
【授权日期】2024-04-09
【技术成熟度】研发阶段
【应用背景】目前,人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,在多层次战略规划的指导下,无论是学术界还是产业界,我国在人工智能国际同行中均有不错的表现,在世界人工智能舞台上扮演了重要的角色,我国人工智能的发展已驶入快车道。
数据标注是大部分人工智能算法得以有效运行的关键环节。人工智能算法是数据驱动型算法,如果想实现人工智能,首先需要将人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。数据标注是通过人工贴标的方式,为机器系统可供学习的样本;将需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。
但是,在人工智能落地应用的过程中,中心化的数据采集和数据标注存在隐私泄露、高昂中介费和服务费等问题,不利于应用创新和推广。同时,现有数据标注方法还存在区块链算力浪费以及人工智能模型训练的算力不足和费用昂贵的问题。因此,亟需设计一种新的AI人机协同数据标注方法。
教育信息化,就是在现代教育思想、理论的指导下,主要运用现代信息技术,开发教育资源,优化教育过程,以培养和提高学生信息素养为重要目标的一种新的教育方式。
在人工智能领域中,多模态数据往往指感知信息,如图像、文本、语音、脑电、心电等数据,帮人工智能更准确地理解外部世界。同理,在教育场景下面,也会产生多模态数据,例如一次课程中,学生和教师会同时产生多模态数据。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有中心化的数据采集和数据标注技术存在隐私泄露、高昂中介费和服务费等问题,不利于应用创新和推广。
(2)现有数据标注方法还存在区块链算力浪费以及人工智能模型训练的算力不足和费用昂贵的问题。
(3)现有的标注方法很少涉及多人标注结果的汇聚方法。
(4)现有的深度模型预测结果很少应用到标注结果上面,或者是让预测结果给人类提供辅助参考。
(5)在教育场景下,很少有标注系统来对多模态数据进行采集和标注。
【成果简介】本成果属于人工智能技术领域,发明了一种AI人机协同数据标注方法和系统,人工标注模块,多名标注者在拿到基本数据后对数据进行标注,按照每个标注者的置信度进行标注结果融合;根据每个人标注质量,标注者的置信度周期性动态调整;基于深度神经网络的AI标注模块,标注网络对同一数据进行标注;基于学习激励函数,AI标注模块评估每个标注者及自身标注情况并调整标注网络,从而实现众人标注,甚至最终实现全自动标注,不需要人工标注。本成果提供的AI人机协同数据标注方法的面向对象为视频片段、图片、音频、生理等,对于每一种模态数据,会给多个人标注,最终的标注结果取自多人的综合标注结果,提高数据标注的正确率。
【成果图片】
【联系方式】段治国、安红高、刘树楠、吴涛,02767868068,02767868067,02767862769