技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声音提取方法、装置、电子设备及存储介质与流程 > 正文

声音提取方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 10:39:41

本申请涉及音频处理，更具体地，涉及一种声音提取方法、装置、电子设备及存储介质。

背景技术：

1、歌声是人类情感表达和交流的重要方式，歌声转换是指在不改变演唱内容的前提下，将演唱者的声音从源演唱者转换到目标演唱者。歌声转换在教育、娱乐、辅助作曲、人工智能等方面都有广泛的应用前景。

2、为了实现歌声转换，需要在歌曲中提取纯净的人声，目前，通常由技术人员手动调整均衡器降低伴奏部分频点对应的增益，来消除歌曲中的伴奏音乐，从而获得纯净的人声。但是，采用手动提取人声的方法，人声的提取效率较低。

技术实现思路

1、有鉴于此，本申请实施例提出了一种声音提取方法、装置、电子设备及存储介质。

2、第一方面，本申请实施例提供了一种声音提取方法，方法包括：获取待处理音频信号，所述待处理音频信号包括目标对象的声音信号；对所述待处理音频信号进行预处理，得到多个频点各自的频谱相位差，每个所述频点的频谱相位差为每个所述频点对应的第一声道的频域信号的相位与第二声道的频域信号的相位的差；根据相位判定曲线，确定对应每个所述频点曲线值，所述相位判定曲线基于所述待处理音频信号的采样频率得到；根据每个所述频点对应的频谱相位差以及曲线值，得到分离后的频谱数据；根据所述分离后的频谱数据，从所述待处理音频信号中提取所述目标对象的声音信号。

3、第二方面，本申请实施例提供了一种声音提取装置，装置包括：信号获取模块，用于获取待处理音频信号，所述待处理音频信号包括目标对象的声音信号；相位差得到模块，用于对所述待处理音频信号进行预处理，得到多个频点各自的频谱相位差，每个所述频点的频谱相位差为每个所述频点对应的第一声道的频域信号的相位与第二声道的频域信号的相位的差；确定模块，用于根据相位判定曲线，确定对应每个所述频点曲线值，所述相位判定曲线基于所述待处理音频信号的采样频率得到；频谱数据得到模块，用于根据每个所述频点对应的频谱相位差以及曲线值，得到分离后的频谱数据；提取模块，用于根据所述分离后的频谱数据，从所述待处理音频信号中提取所述目标对象的声音信号。

4、可选地，相位差得到模块，还用于对所述待处理音频信号中的第一声道的音频信号与第二声道的音频信号进行归一化处理，得到归一化的第一声道的音频信号和归一化的第二声道的音频信号；根据预设时间间隔窗口，对所述归一化的第一声道的音频信号以及所述归一化的第二声道的音频信号进行分割，得到对应所述归一化的第一声道的音频信号的多个第一帧片段以及对应所述归一化的第二声道的音频信号的多个第二帧片段；对每个所述第一帧片段的时域信号以及每个所述第二帧片段的时域信号进行傅里叶变换处理，得到对应每个所述第一帧片段的频域信号以及对应每个所述第二帧片段的频域信号；计算每个所述第一帧片段的频域信号的相位与对应每个所述第一帧片段的第二帧片段的频域信号的相位的差，作为与每个所述第一帧片段对应的频点的频谱相位差。

5、可选地，装置还包括曲线获得模块，用于根据所述采样频率和傅里叶变换点数，得到第一限值和第二限值，所述傅里叶变换点数是对所述待处理音频信号对应的多个第一帧片段进行傅里叶变换处理时的傅里叶变换点数，多个所述第一帧片段是对归一化的第一声道的音频信号进行分割得到的，所述归一化的第一声道的音频信号是对所述待处理音频信号中的第一声道的音频信号进行归一化处理得到的，所述第一限值小于所述第二限值；根据所述待处理音频信号的信号处理强度，确定斜率和截距；根据所述第一限值、所述第二限值、所述斜率以及所述截距，构建所述相位判定曲线。

6、可选地，频谱数据得到模块，还用于根据每个所述频点对应的曲线值，构建对应每个所述频点的判定区间；针对每个所述频点，若所述频点对应的频谱相位差在所述频点对应的判定区间内，将所述频点对应的频谱数据作为有效频谱数据；将多个所述频点对应的有效频谱数据汇总，得到所述分离后的频谱数据。

7、可选地，提取模块，还用于对所述分离后的频谱数据进行逆傅里叶变换处理，得到时域信号帧；根据所述时域信号帧，得到外界声音信号，所述外界声音信号为所述待处理音频信号中除所述目标对象的声音信号以外的声音信号；对所述外界声音信号进行反相处理，得到反相音频信号；将所述反相音频信号和所述待处理音频信号进行叠加，得到所述目标对象的声音信号。

8、可选地，装置还包括音频变换模块，用于对所述目标对象的声音信号进行特征提取，得到第一频谱特征、基频和周期参数；将所述第一频谱特征输入训练获得的声音变换模型，得到对应所述第一频谱特征的第二频谱特征；根据所述第二频谱特征、所述基频和所述周期参数，得到变换声音信号；将所述变换声音信号与外界声音信号进行叠加，得到变换音频信号，所述外界声音信号为所述待处理音频信号中除所述目标对象的声音信号以外的声音信号。

9、可选地，装置还包括模型获得模块，用于获取训练样本；根据所述训练样本训练对抗神经网络，得到所述声音变换模型。

10、第三方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

11、第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

12、第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

13、本申请实施例提供的一种声音提取方法、装置、电子设备及存储介质，电子设备通过待处理音频信号对应的多个频点各自的频谱相位差，以及对应每个所述频点曲线值，得到分离后的频谱数据，并根据所述分离后的频谱数据，从所述待处理音频信号中提取所述目标对象的声音信号，不需要技术人员手动提取目标对象的声音信号，从而减少了目标对象的声音信号的提取时间，提高了目标对象的声音信号的提取效率。

技术特征：

1.一种声音提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理音频信号进行预处理，得到多个频点各自的频谱相位差，包括：

3.根据权利要求1所述的方法，其特征在于，所述相位判定曲线的获取方法包括：

4.根据权利要求1所述的方法，其特征在于，所述根据每个所述频点对应的频谱相位差以及曲线值，得到分离后的频谱数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述分离后的频谱数据，从所述待处理音频信号中提取所述目标对象的声音信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述分离后的频谱数据，从所述待处理音频信号中提取所述目标对象的声音信号之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述声音变换模型的训练方法包括：

8.一种声音提取装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7中任一项所述的方法。

技术总结本申请公开了一种声音提取方法、装置、电子设备及存储介质。该方法包括：获取待处理音频信号，待处理音频信号包括目标对象的声音信号；对待处理音频信号进行预处理，得到多个频点各自的频谱相位差；根据相位判定曲线，确定对应每个频点曲线值，相位判定曲线基于待处理音频信号的采样频率得到；根据每个频点对应的频谱相位差以及曲线值，得到分离后的频谱数据；根据分离后的频谱数据，从待处理音频信号中提取目标对象的声音信号。通过本申请的方法，不需要技术人员手动提取目标对象的声音信号，从而减少了目标对象的声音信号的提取时间，提高了目标对象的声音信号的提取效率。技术研发人员：姚坤受保护的技术使用者：上海游密信息科技有限公司技术研发日：技术公布日：2024/1/15