技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音的意图识别方法和装置、设备、存储介质与流程 > 正文

基于语音的意图识别方法和装置、设备、存储介质与流程

国知局
2024-06-21 11:33:45

本技术涉及人工智能和金融科技，尤其涉及一种基于语音的意图识别方法和装置、设备、存储介质。

背景技术：

1、电话客服可以应用多个场景，通过电话客服与客户进行交互，例如金融科技场景下的智能客服，电话客服涉及交互式语音应答(interactive voice response，ivr)，通过ivr与客户进行交互。当前，在ivr中存在一些缺陷和不足，例如语音识别准确度问题，特别是对于口音较重或语速较快的客户，语音识别系统可能无法正确理解客户的指令或问题，从而无法理解到客户的真实意图。

技术实现思路

1、本技术实施例的主要目的在于提出一种基于语音的意图识别方法和装置、设备、存储介质，旨在提高意图识别的准确性。

2、为实现上述目的，本技术实施例的第一方面提出了一种基于语音的意图识别方法，所述方法包括：

3、获取目标对象在第一轮对话的初步语音数据；

4、对预设的原始语音样本进行样本扩充，得到目标语音样本；

5、根据所述目标语音样本对预设语音识别模型进行训练，得到目标语音识别模型；

6、基于所述目标语音识别模型对所述初步语音数据语音识别，得到初步语音内容；

7、根据所述初步语音内容启动第二轮对话，并生成所述第二轮对话的初步问答数据；其中，所述第二轮对话是所述第一轮对话的下一轮对话；

8、在所述第二轮对话中，将所述初步问答数据发送给所述目标对象；

9、获取所述目标对象对所述初步问答数据进行答复得到的当前语音数据；

10、基于所述目标语音识别模型对所述初步语音内容和所述当前语音数据进行意图识别，得到当前意图。

11、在一些实施例，所述目标语音识别模型包括语音增强智能体、语音识别智能体和意图识别智能体，所述基于所述目标语音识别模型对所述初步语音内容和所述当前语音数据进行意图识别，得到当前意图，包括：

12、基于所述语音增强智能体对所述当前语音数据进行语音增强处理，得到当前增强语音；

13、基于所述语音识别智能体对所述当前增强语音进行语音识别处理，得到当前语音内容；

14、基于所述意图识别智能体对所述初步语音内容和所述当前语音内容进行意图识别，得到所述当前意图。

15、在一些实施例，所述基于所述意图识别智能体对所述初步语音内容和所述当前语音内容进行意图识别，得到所述当前意图，包括：

16、基于所述意图识别智能体对所述初步语音内容进行语义分析，得到初步语义数据；

17、基于所述意图识别智能体对所述当前语音内容进行语义分析，得到当前语义数据；

18、基于所述意图识别智能体对所述初步语义数据和所述当前语义数据进行特征提取，得到目标语义数据；

19、基于所述意图识别智能体对所述目标语义数据进行意图识别，得到所述当前意图。

20、在一些实施例，所述基于所述意图识别智能体对所述初步语义数据和所述当前语义数据进行特征提取，得到目标语义数据，包括：

21、基于所述意图识别智能体对所述初步语义数据和所述当前语义数据进行上下文学习，得到上下文数据；

22、基于所述上下文数据进行关键词提取，得到语义关键词信息；

23、基于所述语义关键词信息进行词性分析，得到所述目标语义数据。

24、在一些实施例，在所述基于所述意图识别智能体对所述初步语义数据和所述当前语义数据进行特征提取，得到目标语义数据之后，所述方法还包括：

25、基于所述意图识别智能体对所述目标语义数据进行情绪识别，得到当前情绪；

26、基于所述意图识别智能体对所述目标语义数据进行投诉内容识别，得到当前投诉内容；

27、基于所述意图识别智能体对所述当前情绪和所述当前投诉内容进行建议回复，得到建议方案数据。

28、在一些实施例，所述对预设的原始语音样本进行样本扩充，得到目标语音样本，包括：

29、基于预设语速获取语音样本，得到所述原始语音样本；

30、基于预设频率对所述原始语音样本进行加噪处理，得到初步语音样本；其中，所述预设频率用于表征语音环境，所述语音环境至少包括以下之一：地铁环境、马路环境、室内环境；

31、对所述初步语音样本进行语言转换，得到所述目标语音样本。

32、在一些实施例，所述根据所述初步语音内容启动第二轮对话，并生成所述第二轮对话的初步问答数据，包括：

33、根据所述初步语音内容触发对话生成事件；

34、根据所述对话生成事件启动第二轮对话；

35、在所述第二轮对话中，根据所述初步语音内容生成所述初步问答数据。

36、为实现上述目的，本技术实施例的第二方面提出了一种基于语音的意图识别装置，所述装置包括：

37、初步语音获取模块，用于获取目标对象在第一轮对话的初步语音数据；

38、样本扩充模块，用于对预设的原始语音样本进行样本扩充，得到目标语音样本；

39、模型训练模块，用于根据所述目标语音样本对预设语音识别模型进行训练，得到目标语音识别模型；

40、语音识别模块，用于基于所述目标语音识别模型对所述初步语音数据语音识别，得到初步语音内容；

41、问答生成模块，用于根据所述初步语音数据启动第二轮对话，并生成所述第二轮对话的初步问答数据；其中，所述第二轮对话是所述第一轮对话的下一轮对话；

42、问答发送模块，用于在所述第二轮对话中，将所述初步问答数据发送给所述目标对象；

43、当前语音获取模块，用于获取所述目标对象对所述初步问答数据进行答复得到的当前语音数据；

44、意图识别模块，用于基于所述目标语音识别模型对所述初步语音数据和所述当前语音数据进行意图识别，得到当前意图。

45、为实现上述目的，本技术实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

46、为实现上述目的，本技术实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

47、本技术实施例提出的基于语音的意图识别方法和装置、设备、存储介质,其通过获取目标对象在第一轮对话的初步语音数据，对预设的原始语音样本进行样本扩充，得到目标语音样本，并根据目标语音样本对预设语音识别模型进行训练，得到目标语音识别模型，基于目标语音识别模型对初步语音数据语音识别，得到初步语音内容，根据初步语音内容启动第二轮对话，并生成所述第二轮对话的初步问答数据，在第二轮对话中，将初步问答数据发送给目标对象，获取目标对象对初步问答数据进行答复得到的当前语音数据，基于目标语音识别模型对初步语音内容和当前语音数据进行意图识别，得到当前意图，由于目标语音识别模型是基于扩充的目标语音样本训练得到，因此通过目标语音识别模型进行意图识别，可以提高意图识别的准确性，初步语音内容和当前语音数据来源于多轮对话，通过多轮对话，可以更准确识别用户的意图。