技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音情感交互模型的训练方法及装置、电子设备与流程  >  正文

用于语音情感交互模型的训练方法及装置、电子设备与流程

  • 国知局
  • 2024-10-09 15:17:18

本申请涉及语音交互,例如涉及一种用于语音情感交互模型的训练方法及装置、电子设备。

背景技术:

1、目前,对于空调这类技术含量较高的现代家电产品,语音的情感交互是必然的发展趋势。情感交互主要分为ser(speech emotion recognition,语音情感识别)和情感tts(text-to-speech,文本到语音)。ser是指通过识别用户的语音、语调、语速等信息,来判断用户的情绪状态,如高兴、生气、焦虑等。情感tts是指将带有情感色彩的文字转换为有情感的语音输出。但是当前语音助手在ser和情感tts领域存在数据稀疏的问题,开发者很难获得大量的各类型的情感语音数据,传统的公用式数据集大多数是通过表演收集的,这并不符合实际场景中的真实情况,导致ser和情感tts的性能应用于现实中有偏差。

2、相关技术中,利用asr识别将用户和智能设备的通话数据识别为对话文本,并对领域意图进行解析,生成回复。同时利用ser模型解析用户对话数据的对应情绪,并给出回复对应的情绪的回复情绪,最后结合回复话术利用tts模型生成设备对话数据。

3、在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:

4、在情感文本数据稀疏的情况下,会影响语音情感交互模型中ser模型和tts模型的数据处理能力。

5、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

2、本公开实施例提供了一种用于语音情感交互模型的训练方法及装置、电子设备,以增强语音情感交互模型的数据处理能力。

3、在一些实施例中,用于语音情感交互模型的训练方法包括:获取目标领域意图的目标交互数据;在目标交互数据满足预设条件的情况下,根据目标交互数据对第一预训练大语言模型进行增强训练,获得目标第一预训练大语言模型;获取目标第一预训练大语言模型输出的增强情感文本数据;根据增强情感文本数据对语音情感交互模型进行增强训练。

4、可选地,满足预设条件,包括:目标交互数据的数据量小于预设值;和/或,语音情感交互模型对目标交互数据的第一情感识别结果,与第二预训练大语言模型对目标交互数据的第二情感识别结果不同。

5、可选地,根据目标交互数据对第一预训练大语言模型进行增强训练,包括:一次或多次迭代操作;迭代操作包括:基于第一预训练大语言模型,根据目标交互数据,获得训练情感文本数据;基于第三预训练大语言模型,根据训练情感文本数据对第一预训练大语言模型进行微调训练;根据微调训练完成的第一预训练大语言模型,对第三预训练大语言模型进行微调训练;其中,迭代操作的收敛条件为迭代次数达到预设次数,或将交互数据输入第一预训练大语言模型后,输出预设数量的同一领域意图的情感文本数据。

6、可选地,基于第一预训练大语言模型,根据目标交互数据,获得训练情感文本数据,包括:对第一预训练大语言模型进行复制,获得第一训练模型和第二训练模型;根据目标交互数据,结合提示词模板生成提示词;将提示词分别输入第一训练模型和第二训练模型,获得第一训练情感文本数据和第二训练情感文本数据。

7、可选地,基于第三预训练大语言模型,根据训练情感文本数据对第一预训练大语言模型进行微调训练,包括:将第一训练情感文本数据输入第三预训练大语言模型,获得第一分数;计算第一训练情感文本数据和第二训练情感文本数据之间的kl散度(kullback-leibler divergence),并将kl散度与第一分数相加,作为第一训练模型的第一损失函数;根据第一损失函数对第一训练模型进行微调,并将微调训练完成的第一训练模型作为第一预训练大语言模型。

8、可选地,根据微调训练完成的第一预训练大语言模型,对第三预训练大语言模型进行微调训练,包括:获取第一预训练大语言模型输出的增强情感文本和目标交互数据中的目标情感文本,作为训练文本,并将每个增强情感文本标记为负样本,每个目标情感文本标记为正样本;将训练文本输入第三预训练大语言模型,获得训练分数;根据每个训练文本对应的标记和训练分数,确定第二损失函数;根据第二损失函数对第三预训练模型进行微调,获得微调训练完成的第三预训练大语言模型。

9、可选地,语音情感交互模型包括ser模型和tts模型;根据增强情感文本数据对语音情感交互模型进行增强训练,包括:将增强情感文本作为第二预训练大语言模型的训练数据集,对第二预训练大语言模型进行增强训练;根据增强情感文本和第二预训练大语言模型,对ser模型进行增强训练;将增强情感文本作为tts模型的训练数据集,分析tts模型生成的声学特征和目标声学特征之间的差异,对tts模型进行增强训练。

10、可选地,根据增强情感文本和第二预训练大语言模型,对ser模型进行增强训练,包括:将增强情感文本作为ser模型的训练数据集;基于知识蒸馏的方式,根据第二预训练大语言模型确定ser模型的损失函数;根据ser模型的训练数据集和损失函数,分析ser模型生成的情绪和真实情绪之间的差异,对ser模型进行增强训练。

11、在一些实施例中,用于语音情感交互模型的训练装置包括处理器和存储有程序指令的存储器,处理器被配置为在运行所述程序指令时,执行如上述的用于语音情感交互模型的训练方法。

12、在一些实施例中,电子设备包括:电子设备本体;如上述的用于语音情感交互模型的训练装置,被安装于所述电子设备本体。

13、本公开实施例提供的用于语音情感交互模型的训练方法及装置、电子设备,可以实现以下技术效果:

14、本公开实施例中,在目标交互数据满足预设条件的情况下,说明需要对语音情感交互模型进行增强训练。首先根据目标交互数据对第一预训练大语言模型进行增强训练,获得目标第一预训练大语言模型,从而获得情感一致的文本和语音,作为增强情感文本数据。最后根据增强情感文本数据对语音情感交互模型进行增强训练,可以对语音情感交互模型进行优化,从而提高语音情感交互模型的数据处理能力。

15、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。

技术特征:

1.一种用于语音情感交互模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的训练方法,其特征在于,满足预设条件,包括:

3.根据权利要求1所述的训练方法,其特征在于,根据目标交互数据对第一预训练大语言模型进行增强训练,包括:一次或多次迭代操作;迭代操作包括:

4.根据权利要求3所述的训练方法,其特征在于,基于第一预训练大语言模型,根据目标交互数据,获得训练情感文本数据,包括:

5.根据权利要求4所述的训练方法,其特征在于,基于第三预训练大语言模型,根据训练情感文本数据对第一预训练大语言模型进行微调训练,包括:

6.根据权利要求3所述的训练方法,其特征在于,根据微调训练完成的第一预训练大语言模型,对第三预训练大语言模型进行微调训练,包括:

7.根据权利要求1至6任一项所述的训练方法,其特征在于,语音情感交互模型包括语音情感识别ser模型和文本转语音tts模型;根据增强情感文本数据对语音情感交互模型进行增强训练,包括:

8.根据权利要求7所述的训练方法,其特征在于,根据增强情感文本和第二预训练大语言模型,对ser模型进行增强训练,包括:

9.一种用于语音情感交互模型的训练装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至8任一项所述的用于语音情感交互模型的训练方法。

10.一种电子设备,其特征在于,包括:

技术总结本申请涉及语音交互技术领域,公开一种用于语音情感交互模型的训练方法及装置、电子设备,包括:获取目标领域意图的目标交互数据;在目标交互数据满足预设条件的情况下,根据目标交互数据对第一预训练大语言模型进行增强训练,获得目标第一预训练大语言模型;获取目标第一预训练大语言模型输出的增强情感文本数据;根据增强情感文本数据对语音情感交互模型进行增强训练。根据目标交互数据对第一预训练大语言模型进行增强训练,获得目标第一预训练大语言模型,从而获得情感一致的文本和语音,作为增强情感文本数据。根据增强情感文本数据对语音情感交互模型进行增强训练,对语音情感交互模型进行优化,从而提高语音情感交互模型的数据处理能力。技术研发人员:李伟,劳春峰,宋玉军,贾奇伟受保护的技术使用者:青岛海尔空调器有限总公司技术研发日:技术公布日:2024/9/29

本文地址:https://www.jishuxx.com/zhuanli/20241009/308216.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。