技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音端点检测方法和系统、电子设备及存储介质与流程  >  正文

一种语音端点检测方法和系统、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:43:47

本发明涉及数据处理,尤其是一种语音端点检测方法和系统、电子设备及存储介质。

背景技术:

1、语音端点检测(voice activity detection,vad)是从含有静音、噪音等的语音信号中找到人声的起点和终点,从而提高下游任务效率,其性能的好坏直接影响语音交互对话的流畅性与用户体验。目前,vad算法主要分为传统的门限端点检测方法和基于深度学习的方法。传统的门限端点检测方法是通过计算目标音频的短时能量或短时过零率,来判断音频帧是否为语音帧或非语音帧。然而,这种方法容易受到突发性的随机噪声或背景噪声的干扰,从而导致误判。

2、相比之下,基于深度学习的方法在vad领域取得了更好的效果。通常基于卷积神经网络或者注意力机制的vad模型流式推理时,会拼接历史音频帧,提高端点检测的准确率,但这也带来了过多的重复计算,导致模型的延时高;并且训练vad模型通常仅仅使用交叉熵损失函数,使得模型更加关注特征本身信息,而忽视了不同类别之间的信息,这导致模型在处理集外数据时的泛化性能较差,即模型难以适应新的语音环境或噪声情况,从而影响了语音端点检测的准确度和检测效率。

技术实现思路

1、本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

2、为此,本发明实施例的一个目的在于提供一种语音端点检测方法,该方法提高了语音端点检测的准确度和检测效率。

3、本发明实施例的另一个目的在于提供一种语音端点检测系统。

4、为了达到上述技术目的,本发明实施例所采取的技术方案包括:

5、一方面,本发明实施例提供了一种语音端点检测方法,包括以下步骤:

6、获取音频样本数据,根据所述音频样本数据确定训练数据集;

7、构建语音端点检测模型,所述语音端点检测模型包括特征提取层、线性层、激活层、核心模块层以及输出层,所述核心模块层包括前馈网络模块、卷积模块、多头注意力机制模块以及层标准归一化模块;

8、将所述训练数据集输入到所述语音端点检测模型,基于交叉熵损失函数和有监督对比学习损失函数对所述语音端点检测模型进行多任务联合训练,得到训练好的所述语音端点检测模型;

9、获取待检测音频数据,根据所述语音端点检测模型对所述待检测音频数据进行流式推理,得到对应的语音端点信息。

10、进一步地,在本发明的一个实施例中,所述音频样本数据包括第一音频样本数据和第二音频样本数据,所述获取音频样本数据,根据所述音频样本数据确定训练数据集这一步骤,其具体包括:

11、获取带有人工标注的语音识别文本的语音识别音频,通过预先训练好的对齐语音识别模型对所述语音识别音频进行强制对齐,得到对应的帧级别音频标签;

12、将强制对齐后的所述语音识别音频作为第一音频样本数据,并根据所述帧级别音频标签确定所述第一音频样本数据的语音端点标签;

13、获取预设的第一文本内容,将所述第一文本内容输入到预先训练好的语音合成模型,输出得到语音片段和非语音片段;

14、对所述语音片段和所述非语音片段进行随机拼接得到第二音频样本数据,并根据所述语音片段和所述非语音片段在所述第二音频样本数据中的分布情况确定所述第二音频样本数据的语音端点标签;

15、根据所述第一音频样本数据、所述第二音频样本数据以及对应的语音端点标签构建所述训练数据集。

16、进一步地,在本发明的一个实施例中,所述获取音频样本数据,根据所述音频样本数据确定训练数据集这一步骤,还包括以下步骤:

17、对所述音频样本数据进行增广处理得到增广后的所述音频样本数据,根据增广处理的方式对增广后的所述音频样本数据的所述语音端点标签进行调整并加入所述训练数据集;

18、其中,所述增广处理包括音频切分、时间延长、音调变换以及噪声添加中的至少一种。

19、进一步地,在本发明的一个实施例中,所述将所述训练数据集输入到所述语音端点检测模型,基于交叉熵损失函数和有监督对比学习损失函数对所述语音端点检测模型进行多任务联合训练,得到训练好的所述语音端点检测模型这一步骤,其具体包括:

20、将所述音频样本数据输入到所述特征提取层;

21、通过所述特征提取层对所述音频样本数据进行特征提取得到所述音频样本数据的音频特征信息,并通过所述线性层将所述音频特征信息传输到所述激活层;

22、通过所述激活层对所述音频特征信息进行随机激活得到第一输入张量,并将所述第一输入张量传输到所述核心模块层;

23、通过所述核心模块层对所述第一输入张量进行卷积处理、多头自注意力处理以及层归一化处理得到第一输出张量,并将所述第一输出张量传输到所述输出层,进而通过所述输出层输出语音端点检测结果;

24、基于交叉熵损失函数和有监督对比学习损失函数,根据所述语音端点检测结果和所述语音端点标签计算得到联合损失值;

25、根据所述联合损失值更新所述语音端点检测模型的模型参数,并返回将所述音频样本数据输入到所述特征提取层这一步骤,直至所述联合损失值收敛,停止训练,得到训练好的所述语音端点检测模型。

26、进一步地,在本发明的一个实施例中,所述通过所述特征提取层对所述音频样本数据进行特征提取得到所述音频样本数据的音频特征信息这一步骤,其具体包括:

27、确定所述音频样本数据的梅尔频率倒谱系数;

28、根据所述梅尔频率倒谱系数确定若干个第一音频特征,并根据所述第一音频特征生成所述音频特征信息;

29、其中,所述第一音频特征包括所述梅尔频率倒谱系数的均值、标准差、方差、中值、最大值、最小值、四分位数、极差、陡峭度以及偏斜度中的至少一种。

30、进一步地,在本发明的一个实施例中,所述基于交叉熵损失函数和有监督对比学习损失函数,根据所述语音端点检测结果和所述语音端点标签计算得到联合损失值这一步骤,其具体包括:

31、根据所述语音端点检测结果和所述语音端点标签基于交叉熵损失函数计算得到第一损失值;

32、根据所述语音端点检测结果和所述语音端点标签基于有监督对比学习损失函数计算得到第二损失值;

33、获取预设的权重参数,根据所述权重对所述第一损失值和所述第二损失值进行加权求和处理,得到所述联合损失值。

34、进一步地,在本发明的一个实施例中,所述前馈网络模块包括第一前馈网络模块和第二前馈网络模块,所述根据所述语音端点检测模型对所述待检测音频数据进行流式推理,得到对应的语音端点信息这一步骤,其具体包括:

35、通过所述特征提取层对所述待检测音频数据进行特征提取,并通过所述激活层进行随机激活得到第二输入张量;

36、将所述第二输入张量输入到所述第一前馈网络模块得到第三输入张量,并将所述第三输入张量传输到所述卷积模块;

37、获取所述卷积模块缓存的历史缓存张量,并对所述第三输入张量和所述历史缓存张量进行拼接处理,得到第四输入张量,进而根据所述第四输入张量更新所述历史缓存张量;

38、通过所述卷积模块对所述第四输入张量进行卷积处理得到第二输出张量,并将所述第二输出张量传输到所述多头自注意力模块;

39、通过所述多头自注意力模块对所述第二输出张量进行多头自注意力处理得到第三输出张量,并将所述第三输出张量输入到所述第二前馈网络模块得到第四输出张量,进而将所述第四输出张量传输到所述层标准归一化层;

40、通过所述层标准归一化层对所述第四输出张量进行层归一化处理得到第五输出张量;

41、将所述第五输出张量传输到所述输出层,进而通过所述输出层输出所述语音端点信息。

42、另一方面,本发明实施例提供了一种语音端点检测系统,包括:

43、训练数据集确定模块,用于获取音频样本数据,根据所述音频样本数据确定训练数据集;

44、语音端点检测模型构建模块,用于构建语音端点检测模型,所述语音端点检测模型包括特征提取层、线性层、激活层、核心模块层以及输出层,所述核心模块层包括前馈网络模块、卷积模块、多头注意力机制模块以及层标准归一化模块;

45、语音端点检测模型训练模块,用于将所述训练数据集输入到所述语音端点检测模型,基于交叉熵损失函数和有监督对比学习损失函数对所述语音端点检测模型进行多任务联合训练,得到训练好的所述语音端点检测模型;

46、语音端点检测模块,用于获取待检测音频数据,根据所述语音端点检测模型对所述待检测音频数据进行流式推理,得到对应的语音端点信息。

47、另一方面,本发明实施例提供了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如前面所述的语音端点检测方法。

48、另一方面,本发明实施例还提供了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如前面所述的语音端点检测方法。

49、本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:

50、本发明实施例获取音频样本数据,根据音频样本数据确定训练数据集,然后将训练数据集输入到构建的语音端点检测模型,基于交叉熵损失函数和有监督对比学习损失函数对语音端点检测模型进行多任务联合训练,得到训练好的语音端点检测模型,进而获取待检测音频数据,根据语音端点检测模型对待检测音频数据进行流式推理,得到对应的语音端点信息。本发明实施例引入有监督对比学习损失函数与交叉熵损失函数对语音端点检测模型进行多任务联合训练,使得语音端点检测模型可以更好地捕捉训练样本之间的相似性和差异性,缓解了仅使用交叉熵损失函数会导致模型更加关注特征本身而忽视了不同类别的训练样本之间的关联的问题,使得语音端点检测模型可以学习到更具判别性的特征表示,从而提高了语音端点检测模型的泛化能力,也提高了语音端点检测的准确度和检测效率。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21381.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。