技术新讯 > 乐器声学设备的制造及制作,分析技术 > 情感数据扩充方法、装置、电子设备和存储介质与流程 > 正文

情感数据扩充方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:57:25

本公开涉及计算机，尤其涉及一种情感数据扩充方法、装置、电子设备和存储介质。

背景技术：

1、语音是日常生活中的主要交流媒介之一，它不仅传达了思想，还表达了说话人的情感状态。语音情感识别可以检测用户的心理健康状况，也可以在不同的场景(例如，数字人、客服等场景)根据用户的情感变化进行相应的反馈和回复等。此外，语音情感识别也有助于家长了解孩子的心理健康状况。

2、然而，在情感识别系统中，标注情感数据是一项具有挑战性的任务，这使得情感识别模型更容易受到训练集中的说话人的情感的影响。换句话说，如果我们在测试阶段使用与训练集中不同的说话人，则系统常常会出现错误的情感识别结果。另外，语音情感识别具有一定的主观性，这是因为不同的用户可能对同一句话有不同的情感理解。也就是说，有些人可能会认为某句话带有某种特殊或强烈的情感，而另一些人则可能认为它表达的是平静的情感。

技术实现思路

1、本公开提供了一种情感数据扩充技术方案。

2、根据本公开的一方面，提供了一种情感数据扩充方法，包括：

3、获得初始情感数据集，其中，所述初始情感数据集包括多个说话人对应的多项初始情感数据，任意一项初始情感数据包括初始训练音频、初始训练文本和情感标签；

4、采用所述初始情感数据集，对语音合成模型进行微调；

5、获得与所述初始训练文本语义相似的扩充训练文本；

6、将所述扩充训练文本和所述扩充训练文本对应的初始训练音频输入微调完成的语音合成模型，通过所述微调完成的语音合成模型得到所述扩充训练文本对应的扩充训练音频；

7、根据所述扩充训练文本、所述扩充训练音频和所述情感标签，得到所述初始情感数据对应的扩充情感数据。

8、在一种可能的实现方式中，所述初始情感数据还包括说话人标签；

9、所述根据所述扩充训练文本、所述扩充训练音频和所述情感标签，得到所述初始情感数据对应的扩充情感数据，包括：根据所述扩充训练文本、所述扩充训练音频、所述说话人标签和所述情感标签，得到所述初始情感数据对应的扩充情感数据。

10、在一种可能的实现方式中，所述采用所述初始情感数据集，对语音合成模型进行微调，包括：

11、对于任意一项初始情感数据，将所述初始情感数据中的初始训练音频划分为第一音频片段和第二音频片段；

12、将所述第一音频片段以及所述初始情感数据中的初始训练文本输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频，其中，所述第二文本片段表示所述初始训练文本中所述第二音频片段对应的文本片段；

13、根据所述合成音频与所述第二音频片段之间的差异信息，对所述语音合成模型进行微调。

14、在一种可能的实现方式中，所述将所述第一音频片段以及所述初始情感数据中的初始训练文本输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频，包括：

15、将所述第一音频片段、所述初始情感数据中的初始训练文本以及所述初始情感数据对应的说话人信息输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频。

16、在一种可能的实现方式中，所述将所述第一音频片段以及所述初始情感数据中的初始训练文本输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频，包括：

17、将所述第一音频片段、所述初始情感数据中的初始训练文本以及所述初始情感数据对应的情感信息输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频。

18、在一种可能的实现方式中，所述获得与所述初始训练文本语义相似的扩充训练文本，包括：

19、获取候选文本集，其中，所述候选文本集包括多个候选文本；

20、通过语义相似度匹配模型，确定所述初始训练文本与所述候选文本之间的语义相似度；

21、将与所述初始训练文本的语义相似度大于或等于预设阈值的候选文本，确定为所述初始训练文本对应的扩充训练文本。

22、在一种可能的实现方式中，所述获得与所述初始训练文本语义相似的扩充训练文本，包括：

23、通过语义转写模型对所述初始训练文本进行转写，得到所述初始训练文本对应的扩充训练文本。

24、在一种可能的实现方式中，在所述得到所述初始情感数据对应的扩充情感数据之后，所述方法还包括：

25、对于扩充情感数据集中的任意一项情感数据，将所述情感数据中的训练音频输入说话人识别模型，通过所述说话人识别模型输出所述训练音频对应的说话人预测结果；其中，所述扩充情感数据集包括初始情感数据和扩充情感数据；所述说话人识别模型包括说话人编码器、说话人解码器和分类器；

26、根据所述训练音频对应的说话人预测结果和所述情感数据中的说话人标签，对所述说话人识别模型进行训练。

27、在一种可能的实现方式中，在所述得到所述初始情感数据对应的扩充情感数据之后，所述方法还包括：

28、采用扩充情感数据集中的情感数据中的训练文本，训练得到文本编码器。

29、在一种可能的实现方式中，在所述得到所述初始情感数据对应的扩充情感数据之后，所述方法还包括：

30、采用扩充情感数据集中的情感数据中的训练音频，训练得到音频编码器。

31、在一种可能的实现方式中，在所述得到所述初始情感数据对应的扩充情感数据之后，所述方法还包括：

32、采用扩充情感数据集中的训练文本以及所述训练文本对应的情感标签，对文本情感识别模型进行训练，其中，所述文本情感识别模型包括文本编码器和文本解码器。

33、在一种可能的实现方式中，在所述得到所述初始情感数据对应的扩充情感数据之后，所述方法还包括：

34、采用扩充情感数据集中的训练音频以及所述训练音频对应的情感标签，对语音情感识别模型进行训练，其中，所述语音情感识别模型包括音频编码器和音频解码器。

35、在一种可能的实现方式中，在所述得到所述初始情感数据对应的扩充情感数据之后，所述方法还包括：

36、采用扩充情感数据集中的训练音频、所述训练音频对应的训练文本以及所述训练音频对应的情感标签，对多模态情感识别模型进行训练。

37、在一种可能的实现方式中，所述多模态情感识别模型包括音频编码器、文本编码器和多模态解码器；

38、所述采用扩充情感数据集中的训练音频、所述训练音频对应的训练文本以及所述训练音频对应的情感标签，对多模态情感识别模型进行训练，包括：

39、对于所述扩充情感数据集中的任意一项情感数据，通过所述音频编码器提取所述情感数据中的训练音频对应的音频特征向量，并通所述文本编码器提取所述情感数据中的训练文本对应的文本特征向量；

40、将所述音频特征向量和所述文本特征向量输入所述多模态解码器，通过所述多模态解码得到所述训练音频和所述训练文本对应的情感类别预测结果；

41、根据所述情感数据中的情感标签，以及所述训练音频和所述训练文本对应的情感类别预测结果，训练所述多模态情感识别模型。

42、在一种可能的实现方式中，所述多模态情感识别模型还包括说话人编码器；

43、所述方法还包括：通过所述说话人编码器提取所述训练音频对应的说话人特征向量；

44、所述将所述音频特征向量和所述文本特征向量输入所述多模态解码器，通过所述多模态解码得到所述训练音频和所述训练文本对应的情感类别预测结果，包括：将所述说话人特征向量、所述音频特征向量和所述文本特征向量输入所述多模态解码器，通过所述多模态解码得到所述训练音频和所述训练文本对应的情感类别预测结果。

45、根据本公开的一方面，提供了一种情感数据扩充装置，包括：

46、第一获得模块，用于获得初始情感数据集，其中，所述初始情感数据集包括多个说话人对应的多项初始情感数据，任意一项初始情感数据包括初始训练音频、初始训练文本和情感标签；

47、微调模块，用于采用所述初始情感数据集，对语音合成模型进行微调；

48、第二获得模块，用于获得与所述初始训练文本语义相似的扩充训练文本；

49、第三获得模块，用于将所述扩充训练文本和所述扩充训练文本对应的初始训练音频输入微调完成的语音合成模型，通过所述微调完成的语音合成模型得到所述扩充训练文本对应的扩充训练音频；

50、第四获得模块，用于根据所述扩充训练文本、所述扩充训练音频和所述情感标签，得到所述初始情感数据对应的扩充情感数据。

51、在一种可能的实现方式中，所述初始情感数据还包括说话人标签；

52、所述第四获得模块用于：根据所述扩充训练文本、所述扩充训练音频、所述说话人标签和所述情感标签，得到所述初始情感数据对应的扩充情感数据。

53、在一种可能的实现方式中，所述微调模块用于：

54、对于任意一项初始情感数据，将所述初始情感数据中的初始训练音频划分为第一音频片段和第二音频片段；

55、将所述第一音频片段以及所述初始情感数据中的初始训练文本输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频，其中，所述第二文本片段表示所述初始训练文本中所述第二音频片段对应的文本片段；

56、根据所述合成音频与所述第二音频片段之间的差异信息，对所述语音合成模型进行微调。

57、在一种可能的实现方式中，所述微调模块用于：

58、将所述第一音频片段、所述初始情感数据中的初始训练文本以及所述初始情感数据对应的说话人信息输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频。

59、在一种可能的实现方式中，所述微调模块用于：

60、将所述第一音频片段、所述初始情感数据中的初始训练文本以及所述初始情感数据对应的情感信息输入语音合成模型，通过所述语音合成模型输出所述初始训练文本中的第二文本片段对应的合成音频。

61、在一种可能的实现方式中，所述第二获得模块用于：

62、获取候选文本集，其中，所述候选文本集包括多个候选文本；

63、通过语义相似度匹配模型，确定所述初始训练文本与所述候选文本之间的语义相似度；

64、将与所述初始训练文本的语义相似度大于或等于预设阈值的候选文本，确定为所述初始训练文本对应的扩充训练文本。

65、在一种可能的实现方式中，所述第二获得模块用于：

66、通过语义转写模型对所述初始训练文本进行转写，得到所述初始训练文本对应的扩充训练文本。

67、在一种可能的实现方式中，所述装置还包括第一训练模块，用于：

68、对于扩充情感数据集中的任意一项情感数据，将所述情感数据中的训练音频输入说话人识别模型，通过所述说话人识别模型输出所述训练音频对应的说话人预测结果；其中，所述扩充情感数据集包括初始情感数据和扩充情感数据；所述说话人识别模型包括说话人编码器、说话人解码器和分类器；

69、根据所述训练音频对应的说话人预测结果和所述情感数据中的说话人标签，对所述说话人识别模型进行训练。

70、在一种可能的实现方式中，所述装置还包括第二训练模块，用于：

71、采用扩充情感数据集中的情感数据中的训练文本，训练得到文本编码器。

72、在一种可能的实现方式中，所述装置还包括第三训练模块，用于：

73、采用扩充情感数据集中的情感数据中的训练音频，训练得到音频编码器。

74、在一种可能的实现方式中，所述装置还包括第四训练模块，用于：

75、采用扩充情感数据集中的训练文本以及所述训练文本对应的情感标签，对文本情感识别模型进行训练，其中，所述文本情感识别模型包括文本编码器和文本解码器。

76、在一种可能的实现方式中，所述装置还包括第五训练模块，用于：

77、采用扩充情感数据集中的训练音频以及所述训练音频对应的情感标签，对语音情感识别模型进行训练，其中，所述语音情感识别模型包括音频编码器和音频解码器。

78、在一种可能的实现方式中，所述装置还包括第六训练模块，用于：

79、采用扩充情感数据集中的训练音频、所述训练音频对应的训练文本以及所述训练音频对应的情感标签，对多模态情感识别模型进行训练。

80、在一种可能的实现方式中，所述多模态情感识别模型包括音频编码器、文本编码器和多模态解码器；

81、所述第六训练模块用于：

82、对于所述扩充情感数据集中的任意一项情感数据，通过所述音频编码器提取所述情感数据中的训练音频对应的音频特征向量，并通所述文本编码器提取所述情感数据中的训练文本对应的文本特征向量；

83、将所述音频特征向量和所述文本特征向量输入所述多模态解码器，通过所述多模态解码得到所述训练音频和所述训练文本对应的情感类别预测结果；

84、根据所述情感数据中的情感标签，以及所述训练音频和所述训练文本对应的情感类别预测结果，训练所述多模态情感识别模型。

85、在一种可能的实现方式中，所述多模态情感识别模型还包括说话人编码器；

86、所述装置还包括：提取模块，用于通过所述说话人编码器提取所述训练音频对应的说话人特征向量；

87、所述第六训练模块用于：将所述说话人特征向量、所述音频特征向量和所述文本特征向量输入所述多模态解码器，通过所述多模态解码得到所述训练音频和所述训练文本对应的情感类别预测结果。

88、根据本公开的一方面，提供了一种电子设备，包括：一个或多个处理器；用于存储可执行指令的存储器；其中，所述一个或多个处理器被配置为调用所述存储器存储的可执行指令，以执行上述方法。

89、根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

90、根据本公开的一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述方法。

91、在本公开实施例中，通过获得初始情感数据集，其中，所述初始情感数据集包括多个说话人对应的多项初始情感数据，任意一项初始情感数据包括初始训练音频、初始训练文本和情感标签，采用所述初始情感数据集，对语音合成模型进行微调，获得与所述初始训练文本语义相似的扩充训练文本，将所述扩充训练文本和所述扩充训练文本对应的初始训练音频输入微调完成的语音合成模型，通过所述微调完成的语音合成模型得到所述扩充训练文本对应的扩充训练音频，并根据所述扩充训练文本、所述扩充训练音频和所述情感标签，得到所述初始情感数据对应的扩充情感数据，由此能够基于少量的情感数据进行扩充，且能够从单模态的情感数据扩充至多模态的情感数据。基于由此扩充得到的情感数据对情感识别模型进行训练，有利于提高情感识别模型的泛化性和鲁棒性。

92、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

93、根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。