技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于生成与有声样本相关联的情感的可解释预测的方法和系统 > 正文

用于生成与有声样本相关联的情感的可解释预测的方法和系统

国知局
2024-08-05 12:21:57

本发明总体上涉及一种用于生成与有声样本相关联的情感的可解释预测的方法和系统。

背景技术：

1、由于人们经常试图理解为什么会出现令人困惑的预测而不是一些反事实的对比结果，因此需要机器学习模型来提供可关联解释。尽管当前用于比较解释的算法可以提供示例或原始特征之间的基本比较，但由于它们缺乏语义意义，因此这些仍然难以解译。

2、考虑基于人工智能(ai)的音频预测，这将受益于可关联解释。当前的音频解释技术通常在听力图或频谱图上呈现显著性映射。然而，频谱图是相当技术性的，不适合外行用户甚至非工程领域的专家。此外，显著性映射过于简单，不能仅指向特定的区域而不解释它们为什么重要。此外，在视觉上解释音频是有问题的，由于声音不是视觉的，人们通过与概念或其他音频样本相关来理解它们。基于示例的解释提取或产生供用户比较的示例，但这仍然要求人类推测为什么一些示例是类似的或不同的。随着智能扬声器在智能家居中的应用以及用于心理健康监测和情感计算的数字助理的应用，这些ai模型越来越需要能够进行可关联解释。

技术实现思路

1、本公开的一个方面提供了一种用于生成与有声样本相关联的情感的可解释预测的方法。该方法包括由处理设备接收与有声样本相关联的情感的初始预测的向量表示、与有声样本和不同于情感的初始预测的替代情感相关联的反事实合成有声样本、与反事实合成有声样本相关联的情感预测的向量表示、与有声样本和反事实合成有声样本相关联的有声线索信息、以及与有声线索信息在情感的预测中的相对重要性相关联的属性解释信息。该方法还包括：使用处理设备确定与有声样本相关联的有声线索信息和与反事实合成有声样本相关联的有声线索信息之间的数字线索差异；使用处理设备，使用第一神经网络基于属性解释信息、数字线索差异、初始预测的向量表示和与反事实合成有声样本相关联的情感预测的向量表示，来生成线索差异关系信息；使用处理设备，使用第二神经网络基于数字线索差异、初始预测的向量表示和与反事实合成有声样本相关联的情感预测的向量表示，来生成情感的最终预测；以及使用处理设备至少基于反事实合成有声样本、情感的最终预测和线索差异关系信息来生成与有声样本相关联的情感的可解释预测。

2、接收反事实合成有声样本的步骤可以包括使用处理设备基于有声样本和替代情感使用生成性对抗网络来生成反事实合成有声样本。

3、接收与有声样本和反事实合成有声样本相关联的有声线索信息的步骤可以包括，使用处理设备基于有声样本、初始预测和替代情感使用视觉解释算法来生成对比显著性解释，以及使用处理设备基于有声样本和对比显著性解释确定与有声样本相关联的有声线索信息，以及基于反事实合成有声样本和对比显著性解释确定与反事实合成有声样本相关联的有声线索信息。

4、有声线索信息可以与由以下组成的组中的一者或多者相关联：尖锐度、响度、平均音高、音高范围、语速和停顿比例。

5、本公开的另一个方面提供了一种用于生成与有声样本相关联的情感的可解释预测的系统。该系统可以包括处理设备，该处理设备被配置为接收与有声样本相关联的情感的初始预测的向量表示、与有声样本和不同于情感的初始预测的替代情感相关联的反事实合成有声样本、与反事实合成有声样本相关联的情感预测的向量表示、与有声样本和反事实合成有声样本相关联的有声线索信息、以及与有声线索信息在情感的预测中的相对重要性相关联的属性解释信息。处理设备还可被配置为：确定与有声样本相关联的有声线索信息和与反事实合成有声样本相关联的有声线索信息之间的数字线索差异；基于属性解释信息、数字线索差异、初始预测的向量表示和与反事实合成有声样本相关联的情感预测的向量表示，使用第一神经网络来生成线索差异关系信息；基于数字线索差异、初始预测的向量表示和与反事实合成有声样本相关联的情感预测的向量表示，使用第二神经网络来生成情感的最终预测；以及至少基于反事实合成有声样本、情感的最终预测和线索差异关系信息，来生成与有声样本相关联的情感的可解释预测。

6、处理设备可以被配置为基于有声样本和替代情感使用生成性对抗网络来生成反事实合成有声样本。

7、处理设备可以被配置为基于有声样本、初始预测和替代情感，使用视觉解释算法来生成对比显著性解释，以及基于有声样本和对比显著性解释确定与有声样本相关联的有声线索信息，以及基于反事实合成有声样本和对比显著性解释确定与反事实合成有声样本相关联的有声线索信息。

8、有声线索信息可以与由以下组成的组中的一者或多者相关联：尖锐度、响度、平均音高、音高范围、语速和停顿比例。

9、本公开的另一个方面提供了一种用于训练神经网络的方法。该方法可以包括由处理设备接收与有声样本相关联的情感的训练向量表示、与反事实合成有声样本相关联的情感预测的训练向量表示、与有声样本和不同于情感的替代情感相关联的反事实合成有声样本、与有声样本和反事实合成有声样本相关联的训练数字线索差异信息、以及与有声样本相关联的参考情感。该方法还可以包括：使用处理设备，使用神经网络基于训练数字线索差异信息、与有声样本相关联的情感的训练向量表示和与反事实合成有声样本相关联的情感预测的训练向量表示，来生成与有声样本相关联的情感预测；使用处理设备基于情感预测与参考情感之间的差异来计算分类损失值；以及使用处理设备更新神经网络以最小化分类损失值。

10、该方法还可以包括使用处理设备用神经网络的逐层相关联性传播来计算属性解释信息，该属性解释信息与有声线索信息在情感的预测中的相对重要性相关联。

11、本公开的另一个方面提供了一种用于训练神经网络的方法。该方法包括由处理设备接收与有声样本相关联的情感的训练向量表示、与反事实合成有声样本相关联的情感的预测的训练向量表示、与有声样本和不同于情感的替代情感相关联的反事实合成有声样本、与有声样本和反事实合成有声样本相关联的训练数字线索差异信息、与有声线索信息在情感的预测中的相对重要性相关联的训练属性解释信息、以及与有声样本和反事实合成有声样本相关联的参考线索差异关系信息。该方法还可以包括：使用处理设备，使用神经网络基于训练属性信息、训练数字线索差异、初始预测的训练向量表示和与反事实合成有声样本相关联的情感预测的训练向量表示，来生成线索差异关系信息；使用处理设备基于线索差异关系信息与参考线索差异关系信息之间的差异来计算分类损失值；以及使用处理设备更新神经网络以最小化分类损失值。

12、有声线索信息可以与由以下组成的组中的一者或多者相关联：尖锐度、响度、平均音高、音高范围、语速和停顿比例。

13、本公开的另一个方面提供了一种用于训练神经网络的系统。该系统可以包括处理设备，该处理设备被配置为接收与有声样本相关联的情感的训练向量表示、与反事实合成有声样本相关联的情感预测的训练向量表示、与有声样本和不同于情感的替代情感相关联的反事实合成有声样本、与有声样本和反事实合成有声样本相关联的训练数字线索差异信息、以及与有声样本相关联的参考情感。处理设备可以被配置为：基于训练数字线索差异信息、与有声样本相关联的情感的训练向量表示和与反事实合成有声样本相关联的情感预测的训练向量表示，使用神经网络来生成与有声样本相关联的情感预测；基于情感预测与参考情感之间的差异来计算分类损失值；以及更新神经网络以最小化分类损失值。

14、处理设备可以被配置为用神经网络的逐层相关联性传播来计算属性解释信息，该属性解释信息与有声线索信息在情感的预测中的相对重要性相关联。

15、本公开的另一个方面提供了一种用于训练神经网络的系统。该系统可以包括处理设备，该处理设备被配置为接收与有声样本相关联的情感的训练向量表示、与反事实合成有声样本相关联的情感的预测的训练向量表示、与有声样本和不同于情感的替代情感相关联的反事实合成有声样本、与有声样本和反事实合成有声样本相关联的训练数字线索差异信息、与有声线索信息在情感的预测中的相对重要性相关联的训练属性解释信息、以及与有声样本和反事实合成有声样本相关联的参考线索差异关系信息。处理设备还可以被配置为：基于训练属性信息、训练数字线索差异、初始预测的训练向量表示和与反事实合成有声样本相关联的情感预测的训练向量表示，使用神经网络来生成线索差异关系信息；基于线索差异关系信息与参考线索差异关系信息之间的差异来计算分类损失值；以及更新神经网络以最小化分类损失值。

16、有声线索信息可以与由以下组成的组中的一者或多者相关联：尖锐度、响度、平均音高、音高范围、语速和停顿比例。