技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种应用于AI数字人语音交互方法及系统与流程 > 正文

一种应用于AI数字人语音交互方法及系统与流程

国知局
2024-06-21 10:40:44

本发明涉及人工智能，尤其涉及一种应用于ai数字人语音交互方法及系统。

背景技术：

1、ai数字人语音交互是一种利用人工智能技术和语音交互技术，使虚拟数字人能够通过语音与用户进行交流和互动的技术。然而，目前的聊天机器人在感受使用者情绪方面还存在一些技术挑战。

2、当前，聊天机器人主要通过语音识别技术将用户的语音转换为文本，然后使用自然语言处理技术进行文本理解和生成回复。这种方式虽然能够实现语音与文本之间的转换，但无法直接感知到使用者的情绪状态。语音识别只能转录用户的语音内容，而无法准确捕捉到语音中的情感信息。

技术实现思路

1、为了解决上述提出的至少一个技术问题，本发明提供一种应用于ai数字人语音交互方法及系统。

2、第一方面，提供了一种应用于ai数字人语音交互方法，所述方法包括：

3、获取说话人的语音，并根据所述说话人的语音获得文本特征和语调特征；

4、对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；

5、将所述文本语调交互特征和所述语调文本交互特征输入注意力网络，得到注意力权重；

6、根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类。

7、优选地，在所述获取说话人的语音之后，还包括对所述说话人的语音进行补全，具体包括：

8、根据说话人的语音的边缘分布概率、联合分布概率和bayes表达式，得到语音bayes表达式：

9、

10、其中，为通道数，为第通道的观测值，为说话人的语音的边缘分布， s为说话人不同时段语音的集合，、为条件概率。

11、优选地，在所述并根据所述说话人的语音获得文本特征和语调特征之后，还包括提取所述文本特征和所述语调特征的上下文关系特征，具体包括：

12、对所述文本特征和所述语调特征分别进行前向gru计算，得到第一文本计算数据和第一语调计算数据；

13、对所述文本特征和所述语调特征分别进行后向gru计算，得到第二文本计算数据和第二语调计算数据；

14、拼接所述第一文本计算数据和所述第二文本计算数据，得具有上下文关系的文本特征，拼接所述第一语调计算数据和所述第二语调计算数据，得具有上下文关系的语调特征；

15、其过程表达式如下：

16、

17、其中，为文本特征或语调特征，为第一文本计算数据或第一语调计算数据，为第二文本计算数据或第二语调计算数据，表示前向gru计算，表示后向gru计算，为拼接操作，为具有上下文关系的语调特征或文本特征。

18、优选地，所述对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征，包括：

19、对所述文本特征进行矩阵转置后与所述语调特征相乘，得到文本语调交互信息；

20、对所述文本语调交互信息进行归一化处理，得到文本语调交互注意力分数；

21、将所述文本特征与所述文本语调交互注意力分数相乘，相乘后的结果再与所述文本特征进行矩阵相乘，得到所述文本语调交互特征；

22、对所述语调特征进行矩阵转置后与所述文本特征相乘，得到语调文本交互信息；

23、对所述语调文本交互信息进行归一化处理，得到语调文本交互注意力分数；

24、将所述语调特征与所述语调文本交互注意力分数相乘，相乘后的结果再与所述语调特征进行矩阵相乘，得到所述语调文本交互特征；

25、其过程表达式如下：

26、

27、其中，为文本特征，为语调特征，表示矩阵转置，表示文本语调交互信息，表示语调文本交互信息，表示归一化处理，表示文本语调交互注意力分数，表示语调文本交互注意力分数，表示文本语调交互特征，表示语调文本交互特征。

28、优选地，在所述得到所述语调文本交互特征之后，还包括：

29、使用全连接层将所述语调文本交互特征与所述语调特征对应连接；

30、使用全连接层将所述文本语调交互特征与所述文本特征对应连接；

31、其过程表达式如下：

32、

33、其中，、、和为待学习参数，为拼接操作，和为全连接后的语调文本交互特征和文本语调交互特征。

34、优选地，所述根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，包括：

35、根据文本注意力权重和语调注意力权重，得到文本隐藏状态和语调隐藏状态；

36、对所述文本隐藏状态和所述语调隐藏状态分别进行归一化处理，得到文本权重向量和语调权重向量；

37、根据所述文本权重向量、所述语调权重向量、所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征；

38、其过程表达式如下：

39、

40、其中，为文本注意力权重或语调注意力权重，为文本隐藏状态或语调隐藏状态，、分别为全连接层的权重和偏置，为文本权重向量或语调权重向量，为矩阵转置，为情感融合特征。

41、优选地，所述并根据所述情感融合特征得到所述说话人的语音的情感分类，其过程表达式如下：

42、

43、其中，、为全连接层的权重和偏置，、为softmax层的权重和偏置，为所述说话人的语音的情感分类。

44、第二方面，提供了一种应用于ai数字人语音交互系统，所述系统包括：

45、数据获取单元，用于获取说话人的语音，并根据所述说话人的语音获得文本特征和语调特征；

46、第一数据处理单元，用于对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；

47、第二数据处理单元，用于将所述文本语调交互特征和所述语调文本交互特征输入注意力网络，得到注意力权重；

48、第三数据处理单元，用于根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类。

49、第三方面，提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如上任一项所述的应用于ai数字人语音交互方法。

50、第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行如上任一项所述的应用于ai数字人语音交互方法。

51、与现有技术相比，本发明的有益效果在于：

52、本发明公开了一种应用于ai数字人语音交互方法及系统，该方法包括获取说话人的语音，并根据所述说话人的语音获得文本特征和语调特征；对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；将所述文本语调交互特征和所述语调文本交互特征输入注意力网络，得到注意力权重；根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类。本发明通过融合文本特征和语调特征，提高了ai数字人情感识别的准确性。

53、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。