技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音通话中的背景人声过滤方法及装置与流程 > 正文

一种语音通话中的背景人声过滤方法及装置与流程

国知局
2024-06-21 11:32:21

本发明涉及语音信号处理。尤其涉及一种语音通话中的背景人声过滤方法及装置。

背景技术：

1、随着语音识别技术的发展，其在生产生活中的应用越来越广泛，同时由于实际应用环境的复杂性，给语音识别技术也带来了严峻挑战。传统语音识别基于语音活动检测(voice activity detection,vad)技术，去除目标语音中包含的各种复杂环境噪声，例如彩铃、笑声、咳嗽声、背景人声、信道噪声等，以获得有效语音。现有的vad技术可以一定程度上过滤掉这些噪声，但其中的背景人声噪音对于语音识别系统性能影响较大,很难完全去除。

技术实现思路

1、由于现有方法存在上述问题，本技术提出一种语音通话中的背景人声过滤方法及装置。

2、第一方面，本技术提出一种语音通话中的背景人声过滤方法，包括：

3、获取目标语音；

4、对所述目标语音进行活动语音切分，获得至少一个语音片段；

5、对所述至少一个语音片段中各个语音片段进行处理，确定所述至少一个语音片段中各个语音片段为说话人有效语音或第一背景人声；

6、若任意一个语音片段为说话人有效语音，则对所述任意一个语音片段进行分窗处理，获得所述任意一个语音片段的至少一个语音窗；

7、确定各个第一短时平均能量，所述各个第一短时平均能量为每个语音片段的至少一个语音窗中各个语音窗的短时平均能量；

8、根据所述各个第一短时平均能量和第一预设阈值，确定所述说话人有效语音包括第二背景人声；

9、过滤掉所述第一背景人声和所述第二背景人声。

10、在一种可能的实现中，所述对所述至少一个语音片段中各个语音片段进行处理，确定所述至少一个语音片段中各个语音片段为说话人有效语音或第一背景人声，包括：

11、提取所述至少一个语音片段中各个语音片段的特征；

12、将所述至少一个语音片段中各个语音片段的特征分别输入预置模型中；

13、若所述预置模型的输出中第一背景人声的概率大于第二预设阈值，则将该输出对应输入的语音片段确定为第一背景人声。

14、在一种可能的实现中，所述预置模型通过以下步骤获得：

15、获取历史说话人有效语音和历史背景人声；

16、提取所述历史说话人有效语音的特征和所述历史背景人声的特征；

17、将所述历史说话人有效语音的特征和所述历史背景人声的特征输入全连接神经网络，获得预置模型。

18、在一种可能的实现中，所述对所述目标语音进行活动语音切分，获得至少一个语音片段，包括：

19、对所述目标语音进行活动语音切分，获得至少一个语音片段和至少一个第一时长，所述至少一个第一时长为所述至少一个语音片段中各个语音片段的分段时长。

20、在一种可能的实现中，所述对所述至少一个语音片段中各个语音片段进行处理，确定所述至少一个语音片段中各个语音片段为说话人有效语音或第一背景人声，包括：

21、对所述至少一个语音片段中各个语音片段进行分词，获得至少一个分词结果和至少一个第二时长，所述至少一个第二时长为所述至少一个语音片段中各个语音片段的分词时长，所述至少一个分词结果为所述至少一个语音片段中各个语音片段分别对应的分词；

22、若所述至少一个语音片段中的任意一个语音片段的第二时长与该语音片段的第一时长的比例小于第三预设阈值，则确定该语音片段为第一背景人声。

23、在一种可能的实现中，所述至少一个语音窗中的每个语音窗具有与其对应的分词，所述第一预设阈值包括第四预设阈值和第五预设阈值；

24、所述根据所述各个第一短时平均能量和第一预设阈值，确定所述说话人有效语音包括第二背景人声，包括：

25、若所述各个第一短时平均能量中的任意一个第一短时平均能量大于第四预设阈值，则确定所述说话人有效语音包括第二背景人声；

26、将短时平均能量小于第五预设阈值的语音窗对应的分词，确定为第二背景人声，所述第五预设阈值小于第四预设阈值。

27、第二方面，本技术提出一种语音通话中的背景人声过滤装置，包括：

28、收发单元用于获取目标语音；

29、处理单元用于对所述目标语音进行活动语音切分，获得至少一个语音片段；

30、所述处理单元还用于对所述至少一个语音片段中各个语音片段进行处理，确定所述至少一个语音片段中各个语音片段为说话人有效语音或第一背景人声；

31、所述处理单元还用于若任意一个语音片段为说话人有效语音，则对所述任意一个语音片段进行分窗处理，获得所述任意一个语音片段的至少一个语音窗；

32、所述处理单元还用于确定各个第一短时平均能量，所述各个第一短时平均能量为每个语音片段的至少一个语音窗中各个语音窗的短时平均能量；

33、所述处理单元还用于根据所述各个第一短时平均能量和第一预设阈值，确定所述说话人有效语音包括第二背景人声；

34、所述处理单元还用于过滤掉所述第一背景人声和所述第二背景人声。

35、在一种可能的实现中，所述处理单元302具体用于提取所述至少一个语音片段中各个语音片段的特征；将所述至少一个语音片段中各个语音片段的特征分别输入预置模型中；若所述预置模型的输出中第一背景人声的概率大于第二预设阈值，则将该输出对应输入的语音片段确定为第一背景人声。

36、在一种可能的实现中，所述预置模型通过以下步骤获得：

37、获取历史说话人有效语音和历史背景人声；

38、提取所述历史说话人有效语音的特征和所述历史背景人声的特征；

39、将所述历史说话人有效语音的特征和所述历史背景人声的特征输入全连接神经网络，获得预置模型。

40、在一种可能的实现中，所述处理单元302具体用于对所述目标语音进行活动语音切分，获得至少一个语音片段和至少一个第一时长，所述至少一个第一时长为所述至少一个语音片段中各个语音片段的分段时长。

41、在一种可能的实现中，所述处理单元302具体用于对所述至少一个语音片段中各个语音片段进行分词，获得至少一个分词结果和至少一个第二时长，所述至少一个第二时长为所述至少一个语音片段中各个语音片段的分词时长，所述至少一个分词结果为所述至少一个语音片段中各个语音片段分别对应的分词；若所述至少一个语音片段中的任意一个语音片段的第二时长与该语音片段的第一时长的比例小于第三预设阈值，则确定该语音片段为第一背景人声。

42、在一种可能的实现中，所述至少一个语音窗中的每个语音窗具有与其对应的分词，所述第一预设阈值包括第四预设阈值和第五预设阈值；

43、所述处理单元302具体用于若所述各个第一短时平均能量中的任意一个第一短时平均能量大于第四预设阈值，则确定所述说话人有效语音包括第二背景人声；将短时平均能量小于第五预设阈值的语音窗对应的分词，确定为第二背景人声，所述第五预设阈值小于第四预设阈值。

44、第三方面，本技术还提出一种语音通话中的背景人声过滤装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行如第一方面及各种可能的实现中的各个步骤。

45、第四方面，本技术还提出一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面及各种可能的实现中的各个步骤。

46、由上述技术方案可知，本技术通过预置模型和/或通过第二时长与第一时长的比例和相应的预设阈值的关系，确定第一背景人声；通过每个语音片段的至少一个语音窗中各个语音窗的短时平均能量和相应的预设阈值的关系，确定说话人有效语音包括第二背景人声；通过过滤掉第一背景人声和第二背景人声，使得说话人有效语音更加纯净。