技术新讯 > 乐器声学设备的制造及制作,分析技术 > 解码器的制作方法  >  正文

解码器的制作方法

  • 国知局
  • 2024-06-21 11:29:12

本发明属于音频解码和生成的。例如,公开了一种流式生成对抗网络(gan)声码器,例如可用于非常低比特率的实时宽带语音编码。本发明的实施例涉及一种音频解码器或生成器,其被配置成从输入信号和比特流中解码或生成音频信号,比特流表示音频信号。另外的实施例涉及用于解码或生成音频信号的方法,以及用于训练音频解码器或生成器的方法。另外的实施例涉及一种计算机程序产品。

背景技术:

1、在许多应用中,诸如文本到语音转换、语音编码和语音增强,神经声码器在合成自然高质量语音方面已经证明优于经典方法。第一种用于合成高质量语音的开创性生成神经网络是wavenet[1],不久之后,许多其他方法被开发出来[2,3]。这些模型提供了最先进的质量,但通常计算成本非常高,并且合成速度非常慢。近年来,出现了大量计算成本较低的语音生成模型。其中一些是现有模型的优化版本,而另一些则利用了与经典方法的集成[4]。此外,还引入了许多全新的方法,这通常依赖于gan。

2、结合语音编码和神经声码器的现有解决方案是:

3、·lpcnet(mozilla,jm valin)[2]:

4、ο比特率:1.6kbps

5、ο语音特征:mfcc、音高滞后和归一化相关性(和谐性)

6、ο延迟:~60毫秒

7、ο神经声码器:自回归生成网络,基于wavernn生成lpc分析的激励

8、ο复杂度:几个gflop,不适合在gpu上推断。

9、ο质量:对于清晰的语音是可以的,但很难推广到其他类别的信号(嘈杂、混响的语音)

10、ο优点:cpu的复杂度相对较低

11、ο缺点:模型不灵活,难以扩展和生成

12、οlyra(谷歌)[3]:

13、ο比特率:3kbps

14、ο应用:弱/旧网络上的voip

15、ο语音特征:对数梅尔频谱的叠加

16、ο延迟:~60毫秒

17、ο神经声码器:自回归生成网络,多频带wavernn

18、ο复杂度:适合在cpu上推断,不适合在gpu上。

19、ο质量:对于清晰的语音是可以的,但是对于小鸟,嘈杂的语音需要在预处理步骤中去噪。

20、·现有技术的缺点:

21、ο来自语音特征的编码/提取的延迟很高

22、ο在生成期间无法利用gpu

23、ο由于自回归生成网络,质量有限。gan现在做得更好。

24、gan不能直接用于语音编码应用。本发明旨在解决这一挑战。

技术实现思路

1、公开了一种音频解码器,被配置成从比特流生成音频信号,该比特流表示音频信号,该音频信号被细分为帧序列,该音频解码器包括:

2、第一数据供应器,其被配置成对于给定帧,提供从来自外部或内部源的输入信号或从比特流中导出的第一数据,其中第一数据具有多个通道;

3、第一处理块,其被配置成对于给定帧,接收第一数据并且输出给定帧中的第一输出数据,其中第一输出数据包括多个通道,以及

4、第二处理块,,被配置成对于给定帧,接收第一输出数据或从第一输出数据导出的数据作为第二数据,

5、其中第一处理块包括:

6、至少一个预调节可学习层,其被配置成接收比特流,并且对于给定帧,利于给定帧的多个通道和多个样本输出表示给定帧中的音频信号的目标数据;

7、至少一个调节可学习层,其被配置成对于给定帧,处理目标数据以获得给定帧的调节特征参数;以及

8、样式元素,其被配置成将调节特征参数应用于第一数据或归一化的第一数据;并且

9、其中第二处理块被配置成组合第二数据的多个通道以获得音频信号。

10、还公开了一种用于从比特流解码音频信号的方法,该比特流表示该音频信号,该方法使用输入信号,该音频信号被细分成多个帧,该方法包括:

11、由第一处理块的至少一个预调节(可学习的或确定性的)层从比特流中获得给定帧的目标数据,该目标数据表示音频信号并且具有两个维度;

12、由第一处理块对于给定帧的每个样本接收从输入信号导出的第一数据;

13、由第一处理块的一组调节可学习层处理目标数据以获得调节特征参数;以及

14、由第一处理块的样式元素将调节特征参数应用于第一数据或归一化的第一数据;

15、由第一处理块输出包括多个通道的第一输出数据;

16、由第二处理块接收第一输出数据或从第一输出数据导出的数据作为第二数据;以及

17、由第二处理块组合第二数据的多个通道以获得音频信号。

18、还提供了一种存储指令的非暂时性存储单元,当该指令由处理器执行时,使得处理器执行本文档的方法中的一种。

19、根据一个方面,提供了一种音频解码器,其被配置成从比特流生成音频信号,该比特流表示音频信号,该音频信号被细分为帧序列,该音频解码器包括:

20、第一数据供应器,其被配置成对于给定帧,提供从来自外部或内部源的输入信号或从比特流中导出的第一数据,其中第一数据具有多个通道;

21、第一处理块,其被配置成对于给定帧,接收第一数据并且输出给定帧中的第一输出数据,其中第一输出数据包括多个通道,以及

22、第二处理块,其被配置成对于给定帧,接收第一输出数据或从第一输出数据导出的数据作为第二数据

23、其中第一处理块包括:

24、至少一个预调节可学习层,其被配置成接收比特流,并且对于给定帧,利于给定帧的多个通道和多个样本输出表示给定帧中的音频信号的目标数据;

25、至少一个调节可学习层,其被配置成对于给定帧,处理目标数据以获得给定帧的调节特征参数;以及

26、样式元素,其被配置成将调节特征参数应用于第一数据或归一化的第一数据;并且

27、其中第二处理块被配置成组合第二数据的多个通道以获得音频信号。

28、解码器可以使得第一处理块被配置成将第一数据从给定帧的样本数量上采样到给定帧的大于第一样本数量的第二样本数量。

29、解码器可以使得第二处理块被配置成将从第一处理块获得的第二数据从给定帧的第二样本数量上采样到给定帧的大于第二样本数量的第三样本数量。

30、解码器可以被配置成将第一数据的通道数量从第一通道数量减少到第一输出数据的第二通道数量,第二通道数量低于第一通道数量。

31、解码器可以使得第二处理块被配置成将从第一处理块获得的第一输出数据的通道数量从第二通道数量减少到音频信号的第三通道数量,其中第三通道数量低于第二通道数量。

32、解码器可以使得音频信号是单声道音频信号。

33、音频解码器可以被配置成从比特流获得输入信号。

34、音频解码器可以被配置成从与给定帧相关联的比特流的至少一个参数中获得输入信号。

35、音频解码器可以被配置成从指示给定帧中的音频信号的音高滞后的至少一个参数或其它音高数据获得输入信号。

36、音频解码器可以被配置成通过将音高滞后与音高相关性相乘来获得输入信号。

37、音频解码器可以被配置成从噪声中获得输入信号。

38、音频解码器可以使得至少一个预调节可学习层被配置成提供目标数据作为频谱图。

39、音频解码器可以使得至少一个预调节可学习层被配置成提供目标数据作为梅尔频谱图。

40、音频解码器可以使得至少一个预调节可学习层被配置成从编码在比特流中的倒谱数据中导出目标数据。

41、音频解码器可以使得至少一个预调节可学习层被配置成至少从编码在与给定帧相关联的比特流中的滤波数据中导出目标数据。

42、音频解码器可以使得滤波数据包括编码在与给定帧相关联的比特流中的频谱包络数据。

43、音频解码器可以使得至少一个预调节可学习层被配置成从编码在比特流中的激励数据、和谐性数据、周期性数据、长期预测数据中的至少一个导出目标数据。

44、音频解码器可以使得至少一个预调节可学习层被配置成至少从编码在比特流中的音高数据中导出目标数据。

45、音频解码器可以使得至少一个预调节可学习层被配置成至少通过将音高滞后与音高相关性相乘来导出目标数据。

46、音频解码器可以使得至少一个预调节可学习层被配置成至少通过对音高滞后与音高相关性和频谱包络数据的乘积进行卷积来导出目标数据。

47、音频解码器可以使得至少一个预调节可学习层被配置成通过至少对音高滞后、音高相关性和频谱包络数据进行卷积来导出目标数据。

48、音频解码器可以使得至少一个预调节可学习层被配置成从从比特流获得的lpc系数、基于频谱的系数和/或基于倒谱的系数中导出目标数据。

49、音频解码器可以使得目标数据是卷积映射,并且至少一个预调节可学习层被配置成对卷积映射执行卷积。

50、音频解码器可以使得目标数据包括给定帧中的音频信号的倒谱数据。

51、音频解码器可以使得至少从给定帧中的音频信号的相关性数据中获得输入信号。

52、音频解码器可以使得从给定帧中的音频信号的音高数据中获得目标数据。

53、音频解码器可以使得目标数据包括通过将给定帧中的音频信号的音高数据与给定帧中的音频信号的相关性数据相乘而获得的相乘值。

54、音频解码器可以使得至少一个预调节可学习层被配置成对通过并置从比特流或其处理版本中获得的至少一个倒谱数据而获得的比特流模型执行至少一次卷积。

55、音频解码器可以使得至少一个预调节可学习层被配置成对通过并置从比特流获得的至少一个参数而获得的比特流模型执行至少一次卷积。

56、音频解码器可以使得至少一个预调节可学习层被配置成对从比特流或其处理版本获得的卷积映射执行至少一次卷积。

57、音频解码器可以使得通过并置与后续帧相关联的参数来获得卷积映射。

58、音频解码器可以使得由至少一个预调节可学习层执行的卷积中的至少一个由预调节激活函数激活。

59、解码器可以使得预调节激活函数是整流线性单元relu函数。

60、解码器可以使得预调节激活函数是泄漏整流线性单元(泄漏relu)函数。

61、音频解码器可以使得至少一次卷积是非条件卷积。

62、音频解码器可以使得至少一次卷积是神经网络的一部分。

63、音频解码器可以包括队列,用于在第一处理块和/或第二处理块处理前一帧时,存储随后将由第一处理块和/或第二处理块处理的帧。

64、音频解码器可以使得第一数据供应器被配置成对通过并置一组编码参数而获得的比特流模型执行卷积,所述一组编码参数是从与比特流的前一帧紧邻的比特流的给定帧获得的。

65、音频解码器可以使得所述一组可学习层包括一个或至少两个卷积层。

66、音频解码器可以使得第一卷积层被配置成使用第一激活函数对目标数据或上采样的目标数据进行卷积,以获得第一卷积数据。

67、音频解码器可以使得所述一组可学习层和样式元素是神经网络的残差块中的权重层的一部分,该神经网络包括一个或多个残差块。

68、音频解码器可以使得音频解码器还包括被配置成归一化第一数据的归一化元件。

69、音频解码器可以使得音频解码器还包括被配置成在通道维度上归一化第一数据的归一化元件。

70、音频解码器可以使得音频信号是语音音频信号。

71、音频解码器可以使得以因子2的幂对目标数据进行上采样。

72、音频解码器可以使得通过非线性插值对目标数据进行上采样。

73、音频解码器可以使得第一处理块还包括:

74、另一组可学习层,其被配置成使用第二激活函数处理从第一数据导出的数据,

75、其中第二激活函数是门控激活函数。

76、音频解码器可以使得另一组可学习层包括一个或两个或更多个卷积层。

77、音频解码器可以使得第二激活函数是softmax门控双曲正切tanh函数。

78、音频可以使得第一激活函数是泄漏整流线性单元(泄漏relu)函数。

79、音频解码器可以使得卷积运算以最大膨胀因子2运行。

80、音频解码器可以包括八个第一处理块和一个第二处理块。

81、音频解码器可以使得第一数据具有低于音频信号的自身维度。

82、音频解码器可以使得目标数据是频谱图。

83、音频解码器可以使得目标数据是梅尔频谱图。

84、用于从表示音频信号的比特流中对音频信号进行解码的方法可以包括使用输入信号的方法,该音频信号被细分成多个帧,该方法包括:

85、由第一处理块的至少一个预调节层从比特流中获得给定帧的目标数据,该目标数据表示音频信号并且具有两个维度;

86、由第一处理块对于给定帧的每个样本接收从输入信号导出的第一数据;

87、由第一处理块的一组调节可学习层处理目标数据,以获得调节特征参数;以及

88、由第一处理块的样式元素将调节特征参数应用于第一数据或归一化的第一数据;

89、由第一处理块输出包括多个通道的第一输出数据;

90、由第二处理块接收第一输出数据或从第一输出数据导出的数据作为第二数据;以及

91、由第二处理块组合第二数据的多个通道以获得音频信号。

92、该方法可以包括当第一处理块和/或第二处理块处理前一帧,存储随后将由第一处理块和/或第二处理块处理的帧。

93、该方法可以包括对通过并置一组编码参数而获得的比特流模型执行卷积,所述一组编码参数是从与比特流的前一帧紧邻的比特流的给定帧获得的。

94、该方法可以包括:所述一组调节可学习层包括一个或两个卷积层。

95、该方法可以包括:由一组调节可学习层进行的处理包括由第一卷积层使用第一激活函数对目标数据或上采样的目标数据进行卷积,以获得第一卷积数据。

96、该方法可以包括:所述一组调节可学习层和样式元素是神经网络的残差块中的权重层的一部分,该神经网络包括一个或多个残差块。

97、该方法可以包括:还包括由归一化元件归一化第一数据。

98、该方法可以包括:音频信号是语音音频信号。

99、该方法可以包括:以因子2或2的幂对目标数据进行上采样。

100、该方法可以包括:通过非线性插值对目标数据进行上采样。

101、该方法可以包括:第一激活函数是泄漏整流线性单元(泄漏relu)函数。

102、该方法可以包括:卷积运算以最大膨胀因子2运行。

103、该方法可以包括:执行八次第一处理块的步骤和一次第二处理块的步骤。

104、该方法可以包括:目标数据是频谱图。

105、该方法可以包括:频谱图是梅尔频谱图。

106、用于训练音频解码器的方法可以包括训练,该训练包括重复前述任一方面的步骤。

107、该方法可以包括:

108、由至少一个评估器评估生成的音频信号,以及

109、根据评估的结果调适音频解码器的权重。

110、该方法可以包括:至少一个评估器是神经网络。

111、该方法可以包括:根据评估的结果调适评估器的权重。

112、该方法可以包括训练,该训练包括优化损失函数。

113、该方法可以包括:优化损失函数包括计算生成的音频信号与参考音频信号之间的固定度量。

114、该方法可以包括:计算固定度量包括计算生成的音频信号与参考音频信号之间的一个或若干个频谱失真。

115、该方法可以包括:计算一个或若干个频谱失真针对以下执行:

116、生成的音频信号和参考音频信号的频谱表示的幅度或对数幅度。

117、该方法可以包括针对生成的音频信号和参考音频信号的不同时间或频率分辨率执行一个或多个频谱失真的计算。

118、该方法可以包括优化损失函数,优化损失函数包括通过随机提供和由一个或多个评估器评估生成的音频信号的表示或参考音频信号的表示来导出一个或多个对抗度量,其中评估包括将提供的音频信号分类为预定数量的类别,这些类别指示音频信号的预训练分类自然度水平。

119、该方法可以包括优化损失函数,优化损失函数包括由一个或多个评估器计算固定度量并且导出对抗度量。

120、该方法可以包括:首先使用固定度量来训练音频解码器。

121、该方法可以包括:四个评估器导出四个对抗度量。

122、该方法可以包括:评估器在滤波器组分解生成的音频信号的表示或参考音频信号的表示之后进行操作。

123、该方法可以包括:评估器中的每一个接收生成的音频信号的表示或参考音频信号的表示的一个或若干个部分作为输入。

124、该方法可以包括:通过使用随机窗口函数从输入信号中采样随机窗口生成信号部分。

125、该方法可以包括:对于每个评估器,随机窗口的采样重复多次。

126、该方法可以包括:对应每个评估器,随机窗口被采样的次数与生成的音频信号的表示或参考音频信号的表示的长度成比例。

127、该方法可以提供至少一个预调节层是可学习的。

128、该方法可以提供至少一个预调节层是确定性的。

129、该方法可以提供比特流是从文本导出的。

130、存储指令的非暂时性存储单元,当该指令由计算机运行时,使计算机执行一种方法。

131、根据一个方面,提供了一种音频解码器,其被配置成从比特流生成音频信号,该比特流表示从文本导出的音频信号,该音频信号被细分为帧序列,该音频解码器包括:

132、第一数据供应器,其被配置成对于给定帧,提供从来自外部或内部源的输入信号或从比特流中导出的第一数据,其中第一数据具有多个通道;

133、第一处理块,其被配置成对于给定帧,接收第一数据并且输出给定帧中的第一输出数据,其中第一输出数据包括多个通道,以及

134、第二处理块,其被配置成对于给定帧,接收第一输出数据或从第一输出数据导出的数据作为第二数据,

135、其中第一处理块包括:

136、至少一个预调节层,其被配置成接收比特流,并且对于给定帧,利用针对给定帧的多个通道和多个样本输出表示给定帧中的音频信号的目标数据;

137、至少一个调节可学习层,其被配置成对于给定帧,处理目标数据以获得给定帧的调节特征参数;以及

138、样式元素,其被配置成将调节特征参数应用于第一数据或归一化的第一数据;并且

139、其中第二处理块被配置成组合第二数据的多个通道以获得音频信号。

140、音频解码器可以使得至少一个预调节层是确定性的。

141、音频解码器可以使得至少一个预调节层是可学习的。

142、音频解码器可以使得至少一个预调节层是可学习的,并且至少一个预调节层是确定性的。

143、音频解码器可以使得第一处理块被配置成将第一数据从给定帧的样本数量上采样到给定帧的大于第一样本数量的第二样本数量。

144、音频解码器可以使得第二处理块被配置成将从第一处理块获得的第二数据从给定帧的第二样本数量上采样到大于第二样本数量的给定帧的第三样本数量。

145、音频解码器可以被配置成将第一数据的通道数量从第一通道数量减少到第一输出数据的第二通道数量,第二通道数量低于第一通道数量。

146、音频解码器可以使得第二处理块被配置成将从第一处理块获得的第一输出数据的通道数量从第二通道数量减少到音频信号的第三通道数量,其中第三通道数量低于第二通道数量。

147、音频解码器可以使得音频信号是单声道音频信号。

148、音频解码器可以被配置成从比特流中获得输入信号。

149、音频解码器可以使得目标数据包括至少一个声学特征。

150、音频解码器可以使得预调节层被配置成通过将比特流从文本转换到至少一个声学特征上来获得目标数据。

151、音频解码器可以使得至少一个声学特征是对数频谱图、mfcc和梅尔频谱图中的一个。

152、音频解码器可以使得预调节层被配置成通过将至少一个语言特征形式的比特流转换到至少一个声学特征形式的目标数据上来获得目标数据。

153、音频解码器可以使得目标数据包括至少一个语言特征。

154、音频解码器可以使得至少一个语言特征是从文本中获得的音素、单词韵律、语调、短语中断和填充停顿中的一个。

155、音频解码器可以使得预调节层被配置成通过将文本或文本元素形式的比特流转换到至少一个语言特征形式的目标数据上来获得目标数据。

156、音频解码器可以使得目标数据包括从文本获得的字符和单词中的至少一个。

157、音频解码器可以使得目标数据包括至少一个潜在特征。

158、音频解码器可以使得预调节层被配置成使用至少一个统计模型将目标数据从文本形式的比特流导出到目标数据上,该至少一个统计模型被配置成执行文本分析和/或使用声学模型。

159、音频解码器可以使得预调节层被配置成使用可学习模型将目标数据从文本形式的比特流中导出到目标数据上,该可学习模型执行文本分析和/或使用声学模型。

160、音频解码器可以使得预调节层被配置成使用执行文本分析和/或声学模型的基于规则的算法,将目标数据从文本形式的比特流导出到目标数据上。

161、音频解码器可以被配置成至少从自比特流导出的时间包络信息或时域结构中获得输入信号。

162、音频解码器可以被配置成从噪声中获得输入信号。

163、音频解码器可以使得至少一个预调节层被配置成提供目标数据作为频谱图。

164、音频解码器可以使得至少一个预调节层被配置成提供目标数据作为梅尔频谱图。

165、音频解码器可以使得至少一个预调节层被配置成从编码在比特流中的倒谱数据中导出目标数据。

166、音频解码器可以使得至少一个预调节层被配置成通过至少对频谱包络数据进行卷积来导出目标数据。

167、音频解码器可以使得目标数据是卷积映射,并且至少一个预调节层被配置成对卷积映射执行卷积。

168、音频解码器可以使得目标数据包括给定帧中的音频信号的倒谱数据。

169、音频解码器可以使得至少从给定帧中的音频信号的相关性数据中获得输入信号。

170、音频解码器可以使得至少一个预调节层被配置成对通过并置从比特流获得的至少一个参数而获得的比特流模型执行至少一次卷积。

171、音频解码器可以使得至少一个预调节层被配置成对从比特流或其处理版本获得的卷积映射执行至少一次卷积。

172、音频解码器可以使得通过并置与后续帧相关联的参数来获得卷积映射。

173、音频解码器可以使得由至少一个预调节层执行的卷积中的至少一个由预调节激活函数激活。

174、解码器可以使得预调节激活函数是整流线性单元relu函数。

175、解码器可以使得预调节激活函数是泄漏整流线性单元(泄漏relu)函数。

176、音频解码器可以使得至少一次卷积是非条件卷积。

177、音频解码器可以使得至少一次卷积是神经网络的一部分。

178、音频解码器可以包括队列,用于在第一处理块和/或第二处理块处理前一帧时,存储随后将由第一处理块和/或第二处理块处理的帧。

179、音频解码器可以使得第一数据供应器被配置成对通过并置一组编码参数而获得的比特流模型执行卷积,所述一组编码参数是从与比特流的前一帧紧邻的比特流的给定帧获得的。

180、音频解码器可以使得所述一组调节可学习层包括一个或至少两个卷积层。

181、音频解码器可以使得第一卷积层被配置成使用第一激活函数对目标数据或上采样的目标数据进行卷积,以获得第一卷积数据。

182、音频解码器可以使得所述一组调节可学习层和样式元素是神经网络的残差块中的权重层的一部分,该神经网络包括一个或多个残差块。

183、音频解码器可以使得音频解码器还包括被配置成归一化第一数据的归一化元件。

184、音频解码器可以使得音频解码器还包括被配置成在通道维度上归一化第一数据的归一化元件。

185、音频解码器可以使得音频信号是语音音频信号。

186、音频解码器可以使得以因子2的幂对目标数据进行上采样。

187、音频解码器可以使得通过非线性插值对目标数据进行上采样。

188、音频解码器可以使得第一激活函数是泄漏整流线性单元(泄漏relu)函数。

189、音频解码器可以使得卷积运算以最大膨胀因子2运行。

190、音频解码器可以包括八个第一处理块和一个第二处理块。

191、音频解码器可以使得第一数据具有低于音频信号的自身维度。

192、音频解码器可以使得目标数据是频谱图。音频解码器可以使得目标数据是梅尔频谱图。

193、根据一个方面,提供了一种用于从比特流解码音频信号的方法,该比特流表示音频信号,该比特流从文本中导出(例如,通过该方法本身、通过先前的步骤、或者部分通过该方法并且部分通过先前的步骤)。该方法可以使用输入信号,音频信号被细分成多个帧。该方法可以包括:

194、由第一处理块的至少一个预调节层从比特流获得给定帧的目标数据,该目标数据表示音频信号并且具有两个维度;

195、由第一处理块对于给定帧的每个样本接收从输入信号导出的第一数据;

196、由第一处理块的一组调节可学习层处理目标数据以获得调节特征参数;以及

197、由第一处理块的样式元素将调节特征参数应用于第一数据或归一化的第一数据;

198、由第一处理块输出包括多个通道的第一输出数据;

199、由第二处理块接收第一输出数据或从第一输出数据导出的数据作为第二数据;以及

200、由第二处理块组合第二数据的多个通道以获得音频信号。

201、该方法还可以包括:当第一处理块和/或第二处理块处理前一帧时,存储随后将由第一处理块和/或第二处理块处理的帧。

202、该方法还可以包括:对通过并置一组编码参数而获得的比特流模型执行卷积,所述一组编码参数是从与比特流的前一帧紧邻的比特流的给定帧获得的。

203、该方法可以提供:所述一组调节可学习层包括一个或两个卷积层。

204、该方法可以包括:由所述一组调节可学习层进行的处理包括由第一卷积层使用第一激活函数对目标数据或上采样的目标数据进行卷积,以获得第一卷积数据。

205、该方法可以提供:所述一组调节可学习层和样式元素是神经网络的残差块中的权重层的一部分,该神经网络包括一个或多个残差块。

206、该方法可以包括:由归一化元件归一化第一数据。

207、该方法可以提供是语音音频信号的音频信号。

208、该方法可以提供:以因子2或2的幂对目标数据进行上采样。

209、该方法可以包括:通过非线性插值对目标数据进行上采样。

210、该方法可以包括,还包括:

211、由第一处理块的另一组可学习层使用第二激活函数处理从第一数据导出的数据,

212、其中第二激活函数是门控激活函数。

213、该方法可以使得另一组可学习层包括一个或两个卷积层。

214、该方法可以使得第二激活函数是softmax门控双曲正切tanh函数。

215、该方法可以使得第一激活函数是泄漏整流线性单元(泄漏relu)函数。

216、该方法可以使得卷积运算以最大膨胀因子2运行。

217、该方法可以使得执行八次第一处理块的步骤和一次第二处理块的步骤。

218、目标数据可以是频谱图或梅尔频谱图。

219、该方法可以包括训练,该训练包括重复前述方面中任一个的步骤。

220、该方法可以包括:

221、由至少一个评估器评估生成的音频信号,以及

222、根据评估的结果调适音频解码器的权重。

223、该方法可以使得至少一个评估器是神经网络。

224、该方法可以包括:根据评估的结果调适评估器的权重。

225、该方法可以使得训练包括优化损失函数。

226、该方法可以使得优化损失函数包括计算生成的音频信号与参考音频信号之间的固定度量。

227、该方法可以包括:计算固定度量包括计算生成的音频信号与参考音频信号之间的一个或若干个频谱失真。

228、该方法可以包括:计算一个或若干个频谱失真针对以下执行:

229、生成的音频信号和参考音频信号的频谱表示的幅度或对数幅度。

230、该方法可以使得针对所生成的音频信号和参考音频信号的不同时间或频率分辨率执行计算一个或若干个频谱失真。

231、该方法可以使得优化损失函数包括通过随机提供和由一个或多个评估器评估生成的音频信号的表示或参考音频信号的表示来导出一个或多个对抗度量,其中评估包括将提供的音频信号分类为预定数量的类别,这些类别指示音频信号的预训练分类自然度水平。

232、该方法可以使得优化损失函数包括由一个或多个评估器计算固定度量并且导出对抗度量。

233、该方法可以使得首先使用固定度量来训练音频解码器。

234、该方法可以包括:四个评估器导出四个对抗度量。

235、该方法可以包括:评估器在滤波器组分解生成的音频信号的表示或参考音频信号的表示之后进行操作。

236、该方法可以使得评估器中的每一个接收生成的音频信号的表示或参考音频信号的表示的一个或若干个部分作为输入。

237、该方法可以包括:通过使用随机窗口函数从输入信号中采样随机窗口来生成信号部分。

238、该方法可以使得对于每个评估器,随机窗口的采样重复多次。

239、该方法可以使得对于每个评估器,随机窗口被采样的次数与生成的音频信号的表示或参考音频信号的表示的长度成比例。

240、该方法可以使得至少一个预调节层是可学习的。

241、该方法可以使得至少一个预调节层是确定性的。

242、该方法可以使得至少一个预调节层包括至少一个确定性预调节层和至少一个可学习预调节层。

243、该方法可以使得目标数据包括至少一个声学特征。

244、该方法可以使得预调节层通过将比特流从文本转换到至少一个声学特征上来获得目标数据。

245、该方法可以包括:至少一个声学特征是对数频谱图、mfcc和梅尔频谱图中的一个。

246、该方法可以包括:预调节层通过将至少一个语言特征形式的比特流转换到至少一个声学特征形式的目标数据上来获得目标数据。

247、该方法可以包括:目标数据包括至少一个语言特征。

248、该方法可以使得至少一个语言特征是从文本中获得的音素、单词韵律、语调、短语中断和填充停顿中的一个。

249、该方法可以使得预调节层通过将文本或文本元素形式的比特流转换到至少一个语言特征形式的目标数据上来获得目标数据。

250、该方法可以使得目标数据包括从文本获得的字符和单词中的至少一个。

251、该方法可以使得预调节层通过使用至少一个统计模型将文本形式的比特流转换到目标数据上来导出目标数据,该至少一个统计模型被配置用于执行文本分析和/或使用声学模型。

252、音频解码器可以使得预调节层通过使用可学习模型将文本形式的比特流转换到目标数据上来导出目标数据,该可学习模型执行文本分析和/或使用声学模型。

253、音频解码器可以使得预调节层通过使用执行文本分析和/或声学模型的基于规则的算法将文本形式的比特流转换到目标数据上来导出目标数据。

254、音频解码器可以被配置成至少从自比特流导出的时间包络信息或时域结构中获得输入信号。

255、公开了一种存储指令的非暂时性存储单元,当该指令由计算机运行时,使得计算机执行根据前述方面的方法。

256、在上面和下面的一些方法中,目标数据可以例如通过方法本身或者通过外部步骤从文本中导出。

257、在上面和下面的一些解码器中,目标数据可以例如通过解码器本身或者通过外部组件从文本中导出。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21770.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。