技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种数据处理方法、装置、电子设备及存储介质与流程  >  正文

一种数据处理方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-10-09 15:20:51

本发明涉及人工智能,特别涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术:

1、近年来,大量研究都在探索使用各种方法进行语音合成,实现人机语音交互。现有的大语言模型和语音相结合的研究仅仅是在大语言模型的前后分别加上语音特征提取模块以及语音生成模块,而没有考虑到语音的情感特征,不能根据当下的对话内容获取到对话用户的情绪,无法根据情境调整输出语音的语调、语速和情绪特征,无法做到与聊天的人共情。

技术实现思路

1、为此,本发明提供了一种数据处理方法、装置、电子设备及存储介质,以力图解决或者至少缓解上面存在的至少一个问题。

2、根据本发明的一个方面,提供一种数据处理方法,适于在计算设备中执行,包括:

3、获取输入数据;

4、根据所述输入数据获取所述输入数据对应的第一形式应答数据,以及相应的情绪表达数据;

5、根据所述第一形式应答数据和所述情绪表达数据生成所述输入数据对应的目标应答数据。

6、可选的,在根据本发明的数据处理方法中,所述根据所述第一形式应答数据和所述情绪表达数据生成所述输入数据对应的目标应答数据,包括:

7、将所述第一形式应答数据转换成第二形式应答数据;

8、获取所述情绪表达数据对应的情绪数据特征表示;

9、根据所述情绪数据特征表示和所述第二形式应答数据生成所述目标应答数据。

10、可选地,所述根据所述情绪数据特征表示和所述第二形式应答数据生成所述目标应答数据,包括:

11、对所述第二形式应答数据进行编码,获得所述第二形式应答数据对应的应答数据特征表示;

12、根据所述情绪数据特征表示和所述应答数据特征表示生成所述目标应答数据。

13、可选地,所述情绪表达数据包括第一特征、第二特征和第三特征中的至少一种,其中,所述第一特征包括鼻音、烟嗓、尖锐、沙哑、正常中的至少一种,所述第二特征包括语速快速、语速慢速、声音高频、声音低频、声音大声、声音小声中的至少一种;第三特征包括开心、平静、伤心、惊讶中的至少一种。

14、可选地,所述第一形式应答数据为文本数据,第二形式应答数据为语音数据。

15、可选地,所述根据所述输入数据获取所述输入数据对应的第一形式应答数据,以及相应的情绪表达数据,通过大语言模型实现,所述大语言模型的通过以下步骤获得:

16、获取预训练大语言模型;

17、获取第一训练数据集,所述第一训练数据集包括文本数据样本及对应的第一标签数据,所述第一标签数据包括所述文本数据样本对应的应答数据和情绪数据;

18、通过所述第一训练数据集对所述预训练大语言模型进行微调训练,直至所述预训练大语言模型收敛,获得训练好的大语言模型。

19、可选地,所述通过所述第一训练数据集对所述预训练大语言模型进行微调训练,直至所述预训练大语言模型收敛,获得训练好的大语言模型,包括:

20、根据所述预训练大语言模型构造微调大模型;

21、通过所述第一训练数据集对所述微调大模型进行训练,根据所述微调大模型输出的预测情绪特征和预测应答文本与所述第一标签数据之间的损失对所述微调大模型相对于所述预训练大语言模型新增加的参数进行调整,直至所述微调大模型收敛,获得训练好的大语言模型。

22、可选地,所述获取所述情绪表达数据对应的情绪数据特征表示通过数据特征提取单元实现,所述通过所述目标数据生成单元根据所述情绪数据特征表示和所述第二形式应答数据生成所述目标应答数据通过目标数据生成单元实现,所述数据特征提取单元和所述目标数据生成单元联合训练,所述目标数据生成单元包括编码单元和解码单元,所述数据特征提取单元和所述目标数据生成单元的训练过程包括:

23、根据所述数据特征提取单元和所述目标数据生成单元构造联合训练模型;

24、获取第二训练数据集,所述第二训练数据集包括情绪样本数据和语音样本数据,以及所述情绪样本数据和所述语音样本数据对应的第二标签数据,所述第二标签数据为包含所述情绪样本数据所描述的情绪和所述语音样本数据的内容的语音数据;

25、将第二训练数据集中的情绪样本数据输入所述数据特征提取单元获得相应的情绪特征表示,将所述语音样本数据输入所述目标数据生成单元的编码单元,获得语音数据特征表示,通过所述解码单元根据所述情绪特征表示和语音数据特征表示获得预测语音数据,根据所述预测语音数据与所述第二标签语音数据之间的损失对所述数据特征提取单元和所述目标数据生成单元进行调整,直至所述数据特征提取单元和所述目标数据生成单元进行调整收敛。

26、根据本发明的又一个方面,提供一种数据处理装置,所述装置包括:

27、数据获取单元,用于获取单元获取输入数据;

28、第一数据处理单元,用于根据所述输入数据获取所述输入数据对应的第一形式应答数据,以及情绪表达数据;

29、第二数据处理单元,用于根据所述第一形式应答数据和所述情绪表达数据生成所述输入数据对应的目标应答数据。

30、根据本发明的又一个方面,提供一种电子设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行如上的任一项数据处理方法的指令。

31、根据本发明的又一方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行如上的任一项所述的方法。

32、根据本发明的数据处理方法,获取用户输入数据的情绪表达数据,并将获取到的情绪表达数据与输入数据对应的应答数据进行融合,获得目标应答数据,从而使目标应答数据中带有当下交互情境的情绪表达数据,使得用户在交互过程中,能够收到带有共情的,符合当下对话情境的应答数据,使得人机交互更加顺畅,提升用户交互体验。

技术特征:

1.一种数据处理方法,其特征在于:

2.如权利要求1所述的方法,其特征在于,所述根据所述第一形式应答数据和所述情绪表达数据生成所述输入数据对应的目标应答数据,包括:

3.如权利要求2所述的方法,其特征在于,所述根据所述情绪数据特征表示和所述第二形式应答数据生成所述目标应答数据,包括:

4.如权利要求1所述的方法,其特征在于,所述情绪表达数据包括第一特征、第二特征和第三特征中的至少一种,其中,所述第一特征包括鼻音、烟嗓、尖锐、沙哑、正常中的至少一种,所述第二特征包括语速快速、语速慢速、声音高频、声音低频、声音大声、声音小声中的至少一种;第三特征包括开心、平静、伤心、惊讶中的至少一种;

5.如权利要求1至4任一项所述的方法,其特征在于,所述根据所述输入数据获取所述输入数据对应的第一形式应答数据,以及相应的情绪表达数据,通过大语言模型实现,所述大语言模型的通过以下步骤获得:

6.如权利要求5所述的方法,其特征在于,所述通过所述第一训练数据集对所述预训练大语言模型进行微调训练,直至所述预训练大语言模型收敛,获得训练好的大语言模型,包括:

7.如权利要求1至4任一项所述的方法,其特征在于,所述获取所述情绪表达数据对应的情绪数据特征表示通过数据特征提取单元实现,所述通过所述目标数据生成单元根据所述情绪数据特征表示和所述第二形式应答数据生成所述目标应答数据通过目标数据生成单元实现,所述数据特征提取单元和所述目标数据生成单元联合训练,所述目标数据生成单元包括编码单元和解码单元,所述数据特征提取单元和所述目标数据生成单元的训练过程包括:

8.一种数据处理装置,其特征在于,所述装置包括:

9.一种电子设备,包括:

10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1至7中任一项所述方法。

技术总结本发明公开了一种数据处理方法、装置、电子设备及存储介质。该方法包括:获取输入数据;根据所述输入数据获取所述输入数据对应的第一形式应答数据,以及相应的情绪表达数据;根据所述第一形式应答数据和所述情绪表达数据生成所述输入数据对应的目标应答数据。通过应用本方案,获取用户输入数据的情绪表达数据,并将获取到的情绪表达数据与输入数据对应的应答数据进行融合,获得目标应答数据,从而使目标应答数据中带有当下交互情境的情绪表达数据,使得用户在交互过程中,能够收到带有共情的,符合当下对话情境的应答数据,使得人机交互更加顺畅,提升用户交互体验。技术研发人员:范淼,胡晨受保护的技术使用者:上海阶跃星辰智能科技有限公司技术研发日:技术公布日:2024/9/29

本文地址:https://www.jishuxx.com/zhuanli/20241009/308433.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。