技术新讯 > 乐器声学设备的制造及制作,分析技术 > 言语增强的制作方法 > 正文

言语增强的制作方法

国知局
2024-06-21 11:36:24

本公开涉及用于经由衰减失真进行言语增强的系统、方法和介质。

背景技术：

1、音频设备，如耳机、扬声器等被广泛部署。人们经常收听到可能包括如混响和/或噪声等失真的音频内容(例如，播客、广播节目、电视节目、音乐视频、用户生成内容、短视频、视频会议、电话会议、小组讨论、采访等)。另外，音频内容可以包括远场音频内容，比如背景噪声。可以对这种音频内容执行增强，比如去混响和/或噪声抑制。然而，增强技术可能会引入不必要的感知失真，比如响度或音色的变化。

2、符号和术语

3、在整个本公开中，包括在权利要求书中，术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

4、在整个本公开中，包括在权利要求中，在广义上使用“对”信号或数据执行操作的表达(例如，对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如，在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。

5、在整个本公开中，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入而生成x个输出信号的系统，其中，子系统生成m个输入，而其他x-m个输入是从外部源接收的)也可以被称为解码器系统。

6、在整个本公开中，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)成对数据(例如，音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

技术实现思路

1、本公开的至少一些方面可以经由方法来实施。一些方法可以涉及(a)由控制系统获得包括多个训练样本的训练集，所述多个训练样本中的每个训练样本包括失真音频信号和对应的纯净音频信号。一些方法可以涉及(b)对于所述多个训练样本中的训练样本：由控制系统获得失真音频信号的频域表示；由控制系统将失真音频信号的频域表示提供给包括多个卷积层的卷积神经网络(cnn)和循环元件，其中，所述循环元件的输出被提供给所述多个卷积层的子集；由所述控制系统并且使用所述cnn生成预测增强掩码，其中，所述cnn至少部分地基于所述循环元件的输出来生成所述预测增强掩码；由控制系统至少部分地基于预测增强掩码来生成预测的增强音频信号；以及由控制系统至少部分地基于预测的增强音频信号和对应的纯净音频信号来更新与cnn和循环元件相关联的权重。一些方法可以涉及(c)由控制系统重复(b)直到达到停止标准，其中，在达到停止标准时的更新的权重对应于用于增强音频信号的经训练的机器学习模型。

2、在一些示例中，获得失真音频信号的频域表示包括：生成所述失真音频信号的初始频域表示；以及将表示人耳蜗的滤波的滤波器应用于失真音频信号的初始频域表示，以生成失真音频信号的频域表示。

3、在一些示例中，多个卷积层包括具有增加的膨胀值的第一卷积层子集和具有减小的膨胀值的第二卷积层子集。在一些示例中，第一卷积层子集中的卷积层的输出被传递到第二卷积层子集中的具有相同膨胀值的卷积层。在一些示例中，循环元件的输出被提供给第二卷积层子集。

4、在一些示例中，通过对循环元件的输出进行整形而将循环元件的输出提供给多个卷积层的子集。

5、在一些示例中，生成预测的增强音频信号包括将所述预测增强掩码与失真音频信号的频域表示相乘。

6、在一些示例中，方法可以进一步涉及通过向经训练的机器学习模型提供失真音频信号，使用更新的权重来生成至少一个增强音频信号。

7、在一些示例中，循环元件是门控循环单元(gru)。

8、在一些示例中，循环元件是长短期记忆(lstm)网络或埃尔曼循环神经网络(rnn)。

9、在一些示例中，失真音频信号包括混响和/或噪声。

10、在一些示例中，用于增强音频信号的经训练的机器学习模型被用于噪声抑制和/或去混响。

11、在一些示例中，更新与cnn和循环元件相关联的权重包括至少部分地基于预测的增强音频信号中存在的混响度来确定损失项。在一些示例中，进一步基于预测的增强音频信号与对应于训练样本的纯净音频信号之间的差异来确定损失项。在一些示例中，损失项是(i)预测的增强音频信号与纯净音频信号之间的差异和(ii)混响度的加权和。

12、一些方法可以涉及由控制系统获得失真音频信号。一些方法可以涉及由控制系统生成失真音频信号的频域表示。一些方法可以涉及由控制系统将频域表示提供给经训练的机器学习模型和循环元件，其中，所述经训练的机器学习模型包括包含多个卷积层的卷积神经网络(cnn)，其中，所述循环元件的输出被提供给多个卷积层的子集。一些方法可以涉及由控制系统基于经训练的机器学习模型的输出来确定增强掩码。一些方法可以涉及由控制系统至少部分地基于增强掩码和失真音频信号来生成增强音频信号的频谱。一些方法可以涉及由控制系统基于增强音频信号的频谱来生成增强音频信号。

13、在一些示例中，获得失真音频信号的频域表示包括：生成所述失真音频信号的初始频域表示；以及将表示人耳蜗的滤波的滤波器应用于失真音频信号的初始频域表示，以生成失真音频信号的频域表示。

14、在一些示例中，多个卷积层包括具有增加的膨胀值的第一卷积层子集和具有减小的膨胀值的第二卷积层子集。在一些示例中，第一卷积层子集中的卷积层的输出被传递到第二卷积层子集中的具有相同膨胀值的卷积层。在一些示例中，循环元件的输出被提供给第二卷积层子集。

15、在一些示例中，通过对循环元件的输出进行整形而将循环元件的输出提供给多个卷积层的子集。

16、在一些示例中，循环元件是门控循环单元(gru)。

17、在一些示例中，循环元件是长短期记忆(lstm)网络或埃尔曼循环神经网络(rnn)。

18、在一些示例中，生成增强音频信号包括将增强掩码与失真音频信号的频域表示相乘。

19、在一些示例中，失真音频信号是现场捕获的音频信号。

20、在一些示例中，失真音频信号包括混响或噪声中的一者或多者。

21、在一些示例中，经训练的机器学习模型已经被训练成执行去混响和/或噪声抑制。

22、在一些示例中，方法进一步涉及使增强音频信号由一个或多个扬声器设备呈现。

23、一些方法涉及(a)由控制系统获得包括多个训练样本的训练集，所述多个训练样本中的每个训练样本包括混响音频信号和对应的纯净音频信号。一些方法涉及(b)对于所述多个训练样本中的训练样本：由控制系统向包括一组权重的机器学习模型提供混响音频信号的表示；由控制系统并且使用机器学习模型至少部分地基于混响音频信号的表示来生成预测的去混响音频信号；由控制系统至少部分地基于预测的去混响音频信号中存在的混响度来确定损失项；以及至少部分地基于损失项来更新所述一组权重。一些方法涉及(c)由控制系统重复(b)直到达到停止标准，其中，在达到停止标准时的更新的一组权重包括用于对音频信号进行去混响的经训练的机器学习模型。

24、在一些示例中，混响度基于预测的去混响音频信号的二维声学调制频谱。在一些示例中，混响度包括二维声学调制频谱的高调制频率部分的能量与二维声学调制频谱的低调制频率部分的能量的比率。在一些示例中，为预测的去混响音频信号的多个临界频带中的每一个确定所述比率。在一些示例中，混响度包括多个临界频带上的比率的平均值。

25、在一些示例中，进一步基于预测的去混响音频信号与对应于训练样本的纯净音频信号之间的差异来确定损失项。在一些示例中，损失项是以下各项的加权和：(i)所述预测的去混响音频信号与所述纯净音频信号之间的差异以及(ii)所述混响度。

26、在一些示例中，一些方法进一步涉及通过向经训练的机器学习模型提供混响音频信号，使用更新的权重来生成至少一个去混响音频信号。

27、本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括比如本文所描述的那些存储器设备，包括但不限于随机存取存储器(ram)设备、只读存储器(rom)设备等。因此，可以经由其上存储有软件的一种或多种非暂态介质来实施本公开内容中描述的主题的一些创新方面。

28、本公开的至少一些方面可以经由装置来实施。例如，一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中，装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。

29、在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从说明书、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

标签：制作方法言语技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240618/22347.html

上一篇
吉他的指板按键结构和吉他的制作方法

下一篇
返回列表

言语增强的制作方法

相关技术

最新技术

技术分类