技术新讯 > 乐器声学设备的制造及制作,分析技术 > 口语评分模型的训练方法、口语评分方法以及相关设备与流程  >  正文

口语评分模型的训练方法、口语评分方法以及相关设备与流程

  • 国知局
  • 2024-06-21 11:44:24

本申请的所公开实施例涉及人工智能,且更具体而言,涉及一种口语评分模型的训练方法、口语评分方法以及相关设备。

背景技术:

1、计算机辅助发音训练(computer-assisted pronunciation training,capt)已经成为非母语(l2)说话者学习不同外语语言的有效工具。自动语音评估(automatic speechassessment)作为capt重要的组成部分,在帮助自主语言学习者提高口语水平方面发挥着举足轻重的作用。自动语音评估任务也由最初的朗读句子、单词等受限任务中扩展到更多半开放测试任务中,如话题讨论、听后复述、看图说话、听后问答等。在这些任务中期待学生的回答中包含题目给的提示信息。传统的开放自动口语评估方法依赖于从asr转录文本中提取声音特征(例如发音准确性和流畅性)或文本特征(例如语法和内容)作为回归器或者分类器的输入来对口语作答进行评分。近些年,随着asr效果的不断提升,自动语音评估问题逐渐变为在转写结果上进行,并通过自然语言处理(nlp)技术来解决评分问题。无论是基于声学特征还是文本特征的语音评估方案,都高度依赖于asr的准确性,然而asr错误会产生级联误差,极大地影响自动口语评估的性能。

技术实现思路

1、根据本申请的实施例,本申请提出一种口语评分模型的训练方法、口语评分方法以及相关设备,以解决相关问题。

2、本申请的第一方面公开了口语评分模型的训练方法,包括:获取语音识别数据,所述语音识别数据包括语音模态数据与其对应的文本模态数据;利用所述语音识别数据对初始口语评分模型进行预训练,其中,所述初始口语评分模型包括声学编码器和文本编码器,预训练后的所述声学编码器对应的语音模态和预训练后的所述文本编码器对应的文本模态对齐;获取口语评测数据;利用所述口语评测数据对预训练后的所述初始口语评分模型进行模型优化,得到目标口语评分模型。

3、在一些实施例中,所述基于所述语音识别数据对初始口语评分模型进行预训练,包括:初始化所述声学编码器与所述文本编码器;以及利用损失函数,对所述初始口语评分模型进行训练。

4、在一些实施例中,所述损失函数包括语音识别损失函数,所述初始化所述声学编码器,包括:利用预设编码器初始化所述声学编码器;在所述声学编码器的预设位置连接所述语音识别损失函数,以学习文本模态的表征能力。

5、在一些实施例中,所述文本编码器包括语音文本对比编码模块和语音文本匹配编码模块,其中,所述语音文本对比编码模块和所述语音文本匹配编码模块分别包括至少一transformer子层,所述语音文本对比编码模块和所述语音文本匹配编码模块共用模型参数;所述初始化所述文本编码器,包括:在所述语音文本匹配编码模块中每一transformer子层的自注意层与前馈层之间增加交叉注意层,以输入所述声学编码器的输出信息。

6、在一些实施例中,所述损失函数包括语音文本对比损失函数,所述利用损失函数对所述初始口语评分模型进行训练,包括:计算每个语音向量与其匹配的文本向量之间的距离语音到文本的损失,以得到所述语音模态数据到与其对应的文本模态数据的损失;计算每个文本向量与其匹配的语音向量之间的距离,以得到所述文本模态数据到与其对应的语音模态数据的损失;最小化所述语音模态数据到与其对应的文本模态数据的损失与所述文本模态数据到与其对应的语音模态数据的损失之和,以实现对所述初始口语评分模型进行训练。

7、在一些实施例中,所述损失函数包括语音文本匹配损失函数,所述利用损失函数对所述初始口语评分模型进行训练,包括:利用语音文本匹配损失函数,对所述文本编码器的输出进行二分类,以确定所述语音模态数据与所述文本模态数据是否相匹配。

8、在一些实施例中,所述口语评测数据包括语音作答数据与对应的试题文本数据,所述利用所述口语评测数据对预训练后的所述初始口语评分模型进行模型优化,包括:将所述口语评测数据输入到预训练后的所述初始口语评分模型;基于预训练后的所述初始口语评分模型的输出,利用均方误差进行口语分数预测。

9、本申请第二方面公开了一种口语评分方法,包括:获取口语测试数据;将所述口语测试数据输入口语评分模型,以输出对应的口语评分;其中,所述口语评分模型是基于第一方面中所述的口语评分模型的训练方法得到的。

10、本申请第三方面公开了一种电子设备,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现第一方面中所述的口语评分模型的训练方法,或以实现第二方面中所述的口语评分方法。

11、本申请第四方面公开了一种非易失性计算机可读存储介质,其上存储有程序指令,所述程序指令被处理器执行时实现第一方面中所述的口语评分模型的训练方法,或以实现第二方面中所述的口语评分方法。

12、本申请的有益效果有:利用语音识别数据对初始口语评分模型进行预训练,其中,初始口语评分模型包括声学编码器和文本编码器,预训练后的声学编码器对应的语音模态和预训练后的文本编码器对应的文本模态对齐,进而利用口语评测数据对预训练后的初始口语评分模型进行模型优化,得到目标口语评分模型,通过将预训练使得语音模态与文本模态对齐,提高了自动口语评估的效率与准确度。

技术特征:

1.一种口语评分模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述语音识别数据对初始口语评分模型进行预训练,包括:

3.根据权利要求2所述的方法,其特征在于,所述损失函数包括语音识别损失函数,所述初始化所述声学编码器,包括:

4.根据权利要求2所述的方法,其特征在于,所述文本编码器包括语音文本对比编码模块和语音文本匹配编码模块,其中,所述语音文本对比编码模块和所述语音文本匹配编码模块分别包括至少一transformer子层,所述语音文本对比编码模块和所述语音文本匹配编码模块共用模型参数;

5.根据权利要求2所述的方法,其特征在于,所述损失函数包括语音文本对比损失函数,所述利用损失函数对所述初始口语评分模型进行训练,包括:

6.根据权利要求2所述的方法,其特征在于,所述损失函数包括语音文本匹配损失函数,所述利用损失函数对所述初始口语评分模型进行训练,包括:

7.根据权利要求1所述的方法,其特征在于,所述口语评测数据包括语音作答数据与对应的试题文本数据,所述利用所述口语评测数据对预训练后的所述初始口语评分模型进行模型优化,包括:

8.一种口语评分方法,其特征在于,包括:

9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至7任一项所述的口语评分模型的训练方法,或以实现权利要求8所述的口语评分方法。

10.一种非易失性计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至7任一项所述的口语评分模型的训练方法,或者实现权利要求8所述的口语评分方法。

技术总结本申请公开了一种口语评分模型的训练方法,该方法包括获取语音识别数据,所述语音识别数据包括语音模态数据与其对应的文本模态数据;利用所述语音识别数据对初始口语评分模型进行预训练,其中,所述初始口语评分模型包括声学编码器和文本编码器,预训练后的所述声学编码器对应的语音模态和预训练后的所述文本编码器对应的文本模态对齐;获取口语评测数据;利用所述口语评测数据对预训练后的所述初始口语评分模型进行模型优化,得到目标口语评分模型。本申请还公开了口语评分方法以及相关设备。本申请提高了自动口语评估的效率与准确度。技术研发人员:王士进,韩凯,吴奎,金海,盛志超,刘聪,胡国平受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/4/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/23254.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。