技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于智能客服的处理方法、装置、设备及介质与流程 > 正文

一种基于智能客服的处理方法、装置、设备及介质与流程

国知局
2024-06-21 11:32:46

本发明涉及语音处理，尤其涉及一种基于智能客服的处理方法、装置、设备及介质。

背景技术：

1、在频繁使用客服系统的金融领域，智能客服往往可以替代一部分真实的人类客服工作，减少了人力所耗费的时间和空间，因此基于语音信息的人机交互将成为主流方式。

2、现有依托金融领域为业务背景智能客服系统采用了语音合成方法进行交互回复，较少地考虑语音表现力问题，导致回复语音机械、生硬。

技术实现思路

1、本发明提供了一种基于智能客服的处理方法、装置、设备及介质，能够有效缓解在交互场景中存在合成的语音回复语气生硬、自然性和表现力差的问题，提高了智能回复语音的可懂度和表现力。

2、根据本发明的一方面，提供了一种基于智能客服的处理方法，包括：

3、获取对话内容中客服内容对应的情感信息和语音文件；

4、将所述情感信息和所述语音文件输入目标情感适配模型中，输出重构后的声学特征；

5、将重构后的声学特征转换为目标音频，并以所述目标音频回复目标客户。

6、可选的，所述目标情感适配模型包括情感编码器、非情感编码器及解码器；

7、将所述情感信息和所述语音文件输入目标情感适配模型中，输出重构后的声学特征，包括：

8、将所述情感信息和所述语音文件输入情感编码器和非情感编码器，提取情感信息特征和语音特征；

9、将所述情感信息特征和所述语音特征输入所述解码器，输出重构后的声学特征。

10、可选的，在获取对话内容中客服内容对应的情感信息和语音文件之前，还包括：

11、采集目标数据样本集；

12、对所述目标数据样本集进行预处理，得到处理后的目标数据样本集；

13、根据所述处理后的目标数据样本集训练初始情感适配模型，直至得到目标情感适配模型。

14、可选的，所述初始情感适配模型包括第一情感编码器、第一非情感编码器及第一解码器；

15、根据所述处理后的目标数据样本集训练初始情感适配模型，包括：

16、从所述处理后的目标数据样本集中提取声学特征样本；

17、将声学特征样本输入第一情感编码器和第一非情感编码器，分别得到第一情感特征和第一非情感特征；

18、将所述第一情感特征和所述第一非情感特征输入所述第一解码器中进行重构，得到第一声学特征；

19、返回执行将所述声学特征样本输入第一情感编码器和第一非情感编码器，分别得到第一情感特征和第一非情感特征的操作，直至得到目标情感适配模型。

20、可选的，采集目标数据样本集，包括：

21、对设计语料库进行语音录制，得到第一样本信息；其中，所述设计语料库通过业务信息得到；

22、收集历史对话语音数据，对所述历史对话语音数据截取设定时长语音作为第二样本信息；

23、根据所述第一样本信息和所述第二样本信息建立目标数据样本集。

24、可选的，还包括：

25、通过设定调优方式对所述目标情感适配模型进行调优处理。

26、可选的，通过设定调优方式对所述目标情感适配模型进行调优处理，包括：

27、获取主观评估分数、客观评估分数及反馈评估分数；

28、将所述主观评估分数、所述客观评估分数及所述反馈评估分数通过融合处理，得到目标评估分数；

29、根据所述目标评估分数对所述目标情感适配模型进行调优处理。

30、根据本发明的另一方面，提供了一种基于智能客服的处理装置，包括：

31、获取模块，用于获取对话内容中客服内容对应的情感信息和语音文件；

32、声学特征输出模块，用于将所述情感信息和所述语音文件输入目标情感适配模型中，输出重构后的声学特征；

33、目标音频转换模块，用于将重构后的声学特征转换为目标音频，并以所述目标音频回复目标客户。

34、根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

35、至少一个处理器；以及

36、与所述至少一个处理器通信连接的存储器；其中，

37、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的基于智能客服的处理方法。

38、根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于智能客服的处理方法。

39、本发明实施例的技术方案，通过获取对话内容中客服内容对应的情感信息和语音文件；将所述情感信息和所述语音文件输入目标情感适配模型中，输出重构后的声学特征；将重构后的声学特征转换为目标音频，并以所述目标音频回复目标客户。本技术方案，能够有效缓解在交互场景中存在合成的语音回复语气生硬、自然性和表现力差的问题，提高了智能回复语音的可懂度和表现力。

40、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种基于智能客服的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标情感适配模型包括情感编码器、非情感编码器及解码器；

3.根据权利要求1所述的方法，其特征在于，在获取对话内容中客服内容对应的情感信息和语音文件之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述初始情感适配模型包括第一情感编码器、第一非情感编码器及第一解码器；

5.根据权利要求3所述的方法，其特征在于，采集目标数据样本集，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，通过设定调优方式对所述目标情感适配模型进行调优处理，包括：

8.一种基于智能客服的处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的基于智能客服的处理方法。

技术总结本发明实施例公开了一种基于智能客服的处理方法、装置、设备及介质。其中，该方法包括：获取对话内容中客服内容对应的情感信息和语音文件；将所述情感信息和所述语音文件输入目标情感适配模型中，输出重构后的声学特征；将重构后的声学特征转换为目标音频，并以所述目标音频回复目标客户。本技术方案，能够有效缓解在交互场景中存在合成的语音回复语气生硬、自然性和表现力差的问题，提高了智能回复语音的可懂度和表现力。技术研发人员：赵昕玥,沈湛,王文旭,田金月受保护的技术使用者：中国农业银行股份有限公司技术研发日：技术公布日：2024/3/5