技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于人工智能的语音对话方法及系统与流程 > 正文

一种基于人工智能的语音对话方法及系统与流程

国知局
2024-06-21 11:58:26

本发明涉及人工智能，具体涉及一种基于人工智能的语音对话方法及系统。

背景技术：

1、随着科技的进步，商超机器人的智能程度和功能越来越多样化，它们不仅可以完成传统的购物、清洁等任务，还可以通过人工智能技术实现商品推荐、智能导购等功能；但是此类应用场景的机器人功能仍然有限，无法满足更多场景的语音对话需求，例如无法与小孩进行对应智力下的游戏互动或话题交流等，从而导致商超对消费者的吸引力不足。

技术实现思路

1、本发明的主要目的是提供一种基于人工智能的语音对话方法及系统，旨在解决现有技术中智能机器人无法满足更多场景的语音对话需求导致商超对消费者的吸引力不足的技术问题。

2、为实现上述目的，第一方面，本技术实施例中提供了一种基于人工智能的语音对话方法，所述方法包括：

3、获取目标用户输入的第一目标语音，并根据所述第一目标语音触发第一反馈语音；

4、获取目标用户对所述第一反馈语音进行对答输入的第二目标语音，并将所述第一目标语音及第二目标语音输入预先训练的声学模型进行语音对象识别得到第一语音识别结果，其中，所述第一语音识别结果包括语音对象类型及对应的识别概率；

5、基于机器深度学习技术对所述第一目标语音及第二目标语音进行语音深度学习识别得到第二语音识别结果，其中，所述第二语音识别结果包括语音对象类型及对应的识别概率；

6、在所述第一语音识别结果与第二语音识别结果中语音对象类型一致的情况下，将所述第一语音识别结果或第二语音识别结果中的语音对象类型确定为目标语音对象类型；

7、根据所述目标语音对象类型确定对答所述目标语音对象类型时所需使用的目标语音声学类别，所述目标语音声学类别为成人口音、孩童口音中的一种；

8、根据所述目标语音声学类别生成对答语音与所述目标用户进行语音对话。

9、进一步的，在得到所述第一语音识别结果及第二语音识别结果之后，所述方法还包括：

10、在所述第一语音识别结果与第二语音识别结果中语音对象类型不一致的情况下，根据所述第一语音识别结果及第二语音识别结果确定目标语音声学类型，其中，所述目标语音声学类别为第一语音识别结果与第二语音识别结果中预测概率较大的一个；

11、根据所述目标语音声学类别生成对答语音与所述目标用户进行语音对话；

12、在与所述目标用户进行语音对话过程中基于机器深度学习技术进行语音深度学习识别得到第三语音识别结果；

13、根据所述第三语音识别结果对所述目标语音声学类别进行保持或者切换。

14、进一步的，所述根据所述第三语音识别结果对所述目标语音声学类别进行保持或者切换，包括：

15、确定所述目标语音声学类别与所述第三语音识别结果相同，则保持所述目标语音声学类别不变；

16、确定所述目标语音声学类别与所述第三语音识别结果不相同，则将所述目标语音声学类别切换成所述第三语音识别结果对应的语音声学类别。

17、进一步的，所述将所述第一目标语音及第二目标语音输入预先训练的声学模型进行语音对象识别得到第一语音识别结果，包括：

18、将所述第一目标语音及第二目标语音进行语音拼接形成正序语音组及反序语音组；

19、分别将所述正序语音组及反序语音组输入预先训练的声学模型进行语音对象识别得到第一语音识别结果。

20、进一步的，所述分别将所述正序语音组及反序语音组输入预先训练的声学模型进行语音对象识别得到第一语音识别结果，包括：

21、将所述正序语音组输入预先训练的声学模型进行语音对象识别得到正序识别结果；

22、将所述反序语音组输入预先训练的声学模型进行语音对象识别得到反序识别结果；

23、对所述正序识别结果及反序识别结果进行高斯混合处理得到所述第一语音识别结果，其中，高斯混合处理满足如下向量表达式：

24、（1）

25、（2）

26、[“c”,100%]（3）

27、其中，向量表达式（1）为正序识别结果与反序识别结果一致时处理得到的第一语音识别结果，向量表达式（2）为正序识别结果与反序识别结果不完全一致时处理得到的第一语音识别结果，向量表达式（3）为正序识别结果与反序识别结果不一致时处理得到的第一语音识别结果，“a”、“b”、“c”为高斯混合处理得到的语音对象类型，p（x）为高斯混合处理得到的识别概率，p1、为正序识别结果下的识别概率及对应的计算权重，p2、为反序识别结果下的识别概率及对应的计算权重。

28、进一步的，所述基于机器深度学习技术对所述第一目标语音及第二目标语音进行语音深度学习识别得到第二语音识别结果，包括：

29、分别识别并提取所述第一目标语音及第二目标语音中的语音内容以得到第一语音内容和第二语音内容；

30、基于机器深度学习技术对所述第一语音内容及第二语音内容进行上下文关联学习得到上下文关联度；

31、根据所述上下文关联度查询关联映射表得到所述第二语音识别结果。

32、进一步的，所述根据所述目标语音对象类型确定对答所述目标语音对象类型时所需使用的目标语音声学类别之后，还包括：

33、根据所述第一目标语音和/或第二目标语音的语音内容确定语音对话主题；

34、根据所述语音对话主题生成对答语音与所述目标用户进行语音对话。

35、进一步的，所述根据所述目标语音声学类别生成对答语音与所述目标用户进行语音对话，包括：

36、根据所述目标语音声学类别获取语音对答的预设语速；

37、以所述预设语速生成对答语音与所述目标用户进行语音对话。

38、进一步的，所述以所述预设语速生成对答语音与所述目标用户进行语音对话之后，还包括：

39、在与所述目标用户进行语音对话过程中根据目标用户的语音语速对所述预设语速进行调整以得到目标语速；

40、以所述目标语速生成对答语音与所述目标用户进行语音对话。

41、第二方面，本技术实施例中还提供了一种语音对话系统，包括存储器及处理器，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如第一方面所述的方法。

42、区别于现有技术，本技术实施例提供的一种基于人工智能的语音对话方法，首先获取目标用户输入的第一目标语音，并根据所述第一目标语音触发第一反馈语音；然后获取目标用户对所述第一反馈语音进行对答输入的第二目标语音，并将所述第一目标语音及第二目标语音输入预先训练的声学模型进行语音对象识别得到第一语音识别结果；再基于机器深度学习技术对所述第一目标语音及第二目标语音进行语音深度学习识别得到第二语音识别结果；在所述第一语音识别结果与第二语音识别结果中语音对象类型一致的情况下，将所述第一语音识别结果或第二语音识别结果中的语音对象类型确定为目标语音对象类型；然后再根据所述目标语音对象类型确定对答所述目标语音对象类型时所需使用的目标语音声学类别；最后再根据所述目标语音声学类别生成对答语音与所述目标用户进行语音对话。也即，首先对用户输入的多个语音进行声学模型识别以及机器学习以综合识别得到语音对象类型，然后根据语音对象类型选择对应的目标语音声学类别生成对答语音与用户进行语音对话；如此，通过多种识别机制对用户类型进行准确识别，以根据用户类型提供对应的语音声学类别进行语音对话，以满足不同用户或不同场景的语音对话需求，提高语音对话体验。