技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种会议场景下对目标说话人的定向语音分离方法及系统与流程 > 正文

一种会议场景下对目标说话人的定向语音分离方法及系统与流程

国知局
2024-06-21 11:41:44

本发明涉及语音分离领域，特别是涉及一种会议场景下对目标说话人的定向语音分离方法及系统。

背景技术：

1、目前大多数语音分离的研究都使用预先切分的音频信号，通常是在计算机上将音频混合产生的固定说话人个数的完全重叠信号，更偏向于理论研究。而在实际生活中，语音完全重叠的情况很少，多数情况下，语音的重叠率都较低，比如在会议场景中，重叠率通常低于30％，因此会议场景下语音分离的输入通常是一段包含重叠和非重叠区域的连续信号，其中说话人个数是未知的。

2、因此会议场景下的语音分离存在以下问题：(1)会议场景中的语音输入同时包含单独发言时的非重叠区域与多人讨论时的重叠区域，需要同时考虑分离模型在两种区域中的分离效果。(2)其输入是一段未切分的连续音频流，因此需要将音频进行切分，然后将分离后的输出进行排列与拼接，组成完整的输出音频流。(3)说话人数量未知，如果一段音频中说话人数量超过预设的输出通道数，会导致分离失败。

技术实现思路

1、本发明的目的是提供一种会议场景下对目标说话人的定向语音分离方法及系统，可在任意重叠人数的混合语音中分离出目标说话人的声音。

2、为实现上述目的，本发明提供了如下方案：

3、一种会议场景下对目标说话人的定向语音分离方法，包括：

4、生成会议场景的训练数据；所述训练数据中的每条会议语音为包括非重叠音频和重叠音频的混合语音，且满足会议录音重叠率；

5、从每条会议语音中提取每个参与者的音频，并在参与者不说话时用空白音频填充，获得与会议语音等长的每个参与者的目标音频；

6、任选一个参与者为目标说话人，使用说话人编码器对从训练数据中截取目标说话人单独发言的音频进行编码，获得目标说话人音频的特征表示；

7、对所述训练数据中的每条会议语音进行切分与编码，获得每条会议语音对应的多段混合音频输入的特征表示；

8、将每段混合音频输入的特征表示与目标说话人音频的特征表示拼接后作为输入，每个参与者的目标音频作为标签，一起构成训练数据集，并训练定向语音分离模型；

9、从待分离会议录音中获取目标说话人音频的特征表示以及多段混合音频输入的特征表示；

10、将每段混合音频输入的特征表示与目标说话人音频的特征表示拼接后输入训练好的定向语音分离模型，输出多段目标说话人的音频段，按时间顺序拼接多段目标说话人的音频段，获得目标说话人的会议完整音频。

11、可选地，所述生成会议场景的训练数据，具体包括：

12、在所选参与者的源音频中进行随机采样，顺序拼接组成一段n分钟的非重叠音频；

13、在所述n分钟的非重叠音频中随机选择30％的区域，选出一个或多个参与者的音频；

14、通过加法运算将选出的一个或多个参与者的音频与所述n分钟的非重叠音频混合，获得一条会议语音；其中，选出的一个或多个音频的参与者与所述n分钟的非重叠音频中参加音频混合的参与者不同；

15、多条会议语音构成会议场景的训练数据。

16、可选地，所述说话人编码器包括依次连接的第一一维卷积神经网络、多个残差网络块、第二一维卷积神经网络、池化层和softmax层；

17、第一一维卷积神经网络用于将从训练数据中截取目标说话人单独发言的音频编码为二维向量；

18、多个残差网络块用于将所述二维向量进行非线性变换；

19、第二一维卷积神经网络用于将非线性变换后的二维向量投影到一个一维向量中；

20、池化层用于对所述一维向量进行平均池化；

21、softmax层用于对平均池化后的一维向量进行说话人分类的预测，输出表示说话人身份信息的嵌入向量，并确定为目标说话人音频的特征表示。

22、可选地，对所述训练数据中的每条会议语音进行切分与编码，获得每条会议语音对应的多段混合音频输入的特征表示，具体包括：

23、设置一个窗口长度为w、滑动步长为w/2的滑动窗口；

24、利用所述滑动窗口切分一条会议语音，获得多段时域混合语音信号；

25、采用时域编码方式对每段时域混合语音信号进行编码，将时域混合语音信号转化为表示音频信息的嵌入向量，作为每段混合音频输入的特征表示。

26、可选地，所述定向语音分离模型训练时所使用的损失函数为

27、

28、

29、式中，si-sdr表示sisdr损失函数，xt表示调整过尺度的真实目标音频，表示目标音频的预测值，s表示目标音频的真实值，ε表示极小值。

30、可选地，所述定向语音分离模型包括：依次连接的n层时序卷积神经网络结构、第三一维卷积神经网络、relu层和一维反卷积层。

31、一种会议场景下对目标说话人的定向语音分离系统，包括：

32、训练数据生成模块，用于生成会议场景的训练数据；所述训练数据中的每条会议语音为包括非重叠音频和重叠音频的混合语音，且满足会议录音重叠率；

33、标签获得模块，用于从每条会议语音中提取每个参与者的音频，并在参与者不说话时用空白音频填充，获得与会议语音等长的每个参与者的目标音频；

34、身份表示模块，用于任选一个参与者为目标说话人，使用说话人编码器对从训练数据中截取目标说话人单独发言的音频进行编码，获得目标说话人音频的特征表示；

35、输入特征表示模块，用于对所述训练数据中的每条会议语音进行切分与编码，获得每条会议语音对应的多段混合音频输入的特征表示；

36、训练模块，用于将每段混合音频输入的特征表示与目标说话人音频的特征表示拼接后作为输入，每个参与者的目标音频作为标签，一起构成训练数据集，并训练定向语音分离模型；

37、应用模块，用于从待分离会议录音中获取目标说话人音频的特征表示以及多段混合音频输入的特征表示；

38、分离模块，用于将每段混合音频输入的特征表示与目标说话人音频的特征表示拼接后输入训练好的定向语音分离模型，输出多段目标说话人的音频段，按时间顺序拼接多段目标说话人的音频段，获得目标说话人的会议完整音频。

39、一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的会议场景下对目标说话人的定向语音分离方法。

40、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的会议场景下对目标说话人的定向语音分离方法。

41、根据本发明提供的具体实施例，本发明公开了以下技术效果：

42、本发明公开一种会议场景下对目标说话人的定向语音分离方法及系统，生成的会议场景的训练数据中，每条会议语音为包括非重叠音频和重叠音频的混合语音，且满足会议录音重叠率，更符合会议场景的现实情况，使定向语音分离模型可以分离任意重叠人数音频；从每条会议语音中提取每个参与者的音频，并在参与者不说话时用空白音频填充，后续作为标签训练定向语音分离模型，使得定向语音分离模型在目标说话人存在时输出目标语音，不存在时输出空白音频；获取目标说话人音频的特征表示，作为辅助信息引导模型，使得定向语音分离模型只分离目标说话人的语音，实现在任意重叠人数的混合语音中分离出目标说话人的声音。