技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于时频谱遮蔽的待修复语音的判别与修复方法、系统  >  正文

基于时频谱遮蔽的待修复语音的判别与修复方法、系统

  • 国知局
  • 2024-06-21 10:41:03

本发明属于通信,尤其涉及基于时频谱遮蔽的待修复语音的判别与修复方法、系统。

背景技术:

1、语音修复技术旨在将可能在去噪、传输或保存过程中受损或缺失部分的待修复语音信号还原为正常的语音信号。这种技术在各种领域都有着广泛的应用,例如:语音识别系统、蓝牙传输、信号通信以及磁带信息的数字化保存等。但由于语音信号的数据量通常较大,修复过程中需要处理的数据也相应增多,这使得整个修复过程更为复杂。尤其当遇到部分受损的语音数据时,修复这些数据通常会受到完好的语音数据的干扰,从而降低了整体的修复效率。此外,尽管许多现有的修复方法能够在一定程度上修复受损的语音,但很难对整个受损的语音信号进行完整和精确的修复。

2、大多数现有的语音修复技术都主要关注于语音信号的时域信息,这使得它们能够在某种程度上定位到需要修复的语音部分。然而,这种方法通常忽视了其他重要的语音信息,如语义和上下文关系,导致在修复过程中不能充分利用整个语音信号中的相关信息。结果是,这些方法往往难以精确地确定受损的语音部分,导致了定位的效率不高和修复效果不尽如人意。此外,这种基于时域的方法也难以处理在传输或保存过程中丢失的语音片段,这使得修复过程更为困难。因此,存在一种迫切的需求,开发出一种更为先进的技术,能够充分利用语音信号中的所有信息,提高修复效率和效果。

技术实现思路

1、本发明所要解决的技术问题是:提供基于时频谱遮蔽的待修复语音的判别与修复方法、系统,通过对语音特定频谱信息以及频谱信息之间的相关性的利用,实现自动化的精准判别受损语音片段在原语音中的定位,并将其以短片段集合的方式输出,在完成语音修复等工作之后再用修复完成的语音替换原受损语音,实现高效的待修复语音判别。

2、为了解决以上技术问题,本发明采用如下技术方案:

3、基于时频谱遮蔽的待修复语音的判别与修复方法,包括以下步骤:

4、s1、预处理输入语音数据:对原始语音进行重采样统一原始语音与模型需求语音的位深,以匹配模型输入的需求,再利用vad算法去白,去除干扰项,对语音进行切割,作为修复音频输入;在切割完成的语音片段上应用掩码形成初始训练集的对照数据,对其应用一批随机掩码形成性能测试数据集。

5、s2、对步骤s1获得的原始语音和对照数据分别提取mfcc(mel-frequencycepstral coefficients,梅尔频率倒谱系数)作为频谱特征,将时域信号转化为频域信息,分别保存为原始数据集和对照数据集,针对两个数据集分别打标签;并在此基础上对每个语音片段做时间标记,之后组合两个数据集作为输入频谱数据集。

6、s3、构建基于频谱信息的频谱自注意力神经网络模型,将步骤s2获得的频谱数据集输入到该模型中,通过多层卷积层和池化层以及reshape分别得到浅层和深层频谱信息特征,之后通过跳跃链接层链接浅层和深层频谱信息特征,最后添加全连接神经网络,进行特征的非线性变换和组合,得到语音被掩码概率值。

7、s4、结合步骤s2和s3,使用基于频谱空间距离的二元交叉熵复合损失函数,构建ssa-cnn(spectrum self-attention based convolutional neural network,基于频谱自注意力的卷积神经网络)模型;将步骤s2获得的频域信息输入模型,通过应用于语音频域的二维卷积层和池化层计算模型的前向传播的结果,根据损失值进行反向传播,调整模型参数以优化损失,根据最终语音被掩码概率值判断判断该语音片段是否需要修复。

8、s5、在性能测试数据集上评估模型的性能,保存训练完成的模型结构和权重。

9、s6、将待判别音频进行切割,提取频谱特征之后输入模型,获得待修复音频片段,结合步骤s2的时间标记,将待修复语音片段输出;经过语音修复之后的返回值,按照其原时间标记,替换其在原语音中的片段,完成修复。

10、s7、将待修复和已修复音频,忽略时间标记之后储存,定期将储存的数据添加至训练数据集,并重训练模型,以提升模型性能。

11、进一步的,步骤s1中,获得数据集包括以下子步骤:

12、s101、对原始语音进行整合拼接得到整条语音,并进行标准化采样,设定采样率为k。

13、s102、利用语音激活检测算法将整条语音中的空白部分进行删除,并将剩余有效语音进行重新拼接,以此去除空白频谱,设定剩余时长为s,得到总长为k*s个采样点的有效语音。

14、s103、将步骤s102获得的有效语音进行长度为p的等长切割,由于通常来说整条语音很难恰好被p整除,因此舍弃的余数部分,得到条长为p*k个采样点的语音片段。

15、s104、基于步骤s103得到的原始语音片段,给其分别添加随机初始位置的,长度在一定范围内的掩码,得到与初始语音一一对应的对照语音片段,为初始训练集的对照数据;其中,掩码种类包括但不限于静音掩码、白噪声掩码、粉红噪声掩码、窄带噪声掩码、混响掩码。

16、s105、对切割完成的n条语音片段应用一批随机初始位置的随机静音掩码,形成性能测试数据集,用于后续性能测试。

17、进一步的,步骤s2中,对数据集打标签包括以下子步骤:

18、s201、针对步骤s1中切割后获得的原始语音片段和对照语音片段分别提取梅尔频率倒谱系数,根据窗口大小n、帧移l、梅尔带m得到两个大小为的原始数据集和对照数据集。

19、s202、将原始数据集和对照数据集分别初始化成全0和全1标签值。

20、s203、对数据集中的语音片段添加其在原语音中的位置信息,作为时间标记,具体内容为:

21、对于每一个段,从原始语音中提取样本。第i个段的起始样本索引为:

22、starti=(i-1)×ns

23、样本结束索引为:

24、endi=i×ns

25、每个段的语音信号表示为:

26、segmenti=y[starti:endi]

27、对于每个segmenti,提取梅尔频率倒谱系数,得到一个梅尔频率倒谱系数矩阵,其中每列是一个特征向量。其中,每个segmenti的起始和结束时间(以秒为单位)分别为:

28、

29、

30、将每个segmenti的梅尔频率倒谱系数、起始时间和结束时间保存在数据结构中;在后续的运算中只使用梅尔频率倒谱系数而暂时忽略时间信息。

31、s204、将步骤s203获得的带有时间标记的两个数据集组合,作为输入频谱数据集。

32、进一步的,步骤s3中,得到语音被掩码概率值包括以下子步骤:

33、s301、将步骤s204获得的频谱数据集输入到具有两层基于u-net网络架构的二维卷积层,每一层卷积层后添加一个池化层,每一层池化层后添加reshape,通过跳跃链接层链接第一层reshape获得的浅层频谱信息特征和第二层reshape获得的深层频谱信息特征,以将语音纹理特征传递给深层,将跳跃链接层的输出通过扁平层,对扁平层输出的频谱特征应用自注意力机制,得到基于频谱信息的频谱自注意力神经网络模块(包括2个卷积层、2个池化层、2个reshape、1个扁平层、1个频谱自注意力层、1个全连接层),使模型更关注频谱空间上的不同之处的特征,充分的利用语音相近频谱之间的相关性。

34、s302、基于步骤s201的频谱数据集,将其输入到步骤s301获得的基于频谱信息的频谱自注意力神经网络模块中,通过两个卷积层进行特征提取,其经过第i个卷积层后的输出表示为:

35、ci(x)=relu(wci*x+bci),i=1,2

36、其中,ci(x)表示第i个卷积层后的特征输出,wci表示第i个卷积层的权重,x表示该层的输入特征,若该层为第一层则为步骤s201中获得的初始频谱数据集,bci表示偏置。

37、被缩减,将其进行reshape操作以满足跳跃链接的输入需求,最大池化和reshape公式表示为:

38、fpool k=maxpool(ci(x)),k=1,2

39、freshape l=res(fpool k),l=1,2

40、其中fpool k表示池化层输出,freshape l表示reshape输出。

41、s304、通过跳跃链接分别将步骤s303中两次reshape后的浅层和深层特征进行链接,其表示为:

42、fcombined=concatenate(freshape 1,freshape 2)

43、其中,fcombined为该跳跃链接层的特征输出,freshape 1为浅层频谱信息特征,freshape 2为深层频谱信息特征。

44、将输出fcombined通过扁平层,得到扁平层输出特征为fflatten(x)。

45、s305、将步骤s304得到的输出特征fflatten(x)送入频谱自注意力模块,在该模块中,每个特征都会考虑到其他所有特征的信息,实现频谱特征间的交互和重加权,其输出表示为:

46、a(x)=attention(fflatten(x),fflatten(x));

47、其中a(x)为该频谱自注意力层的特征输出。

48、s306、将步骤s305中获得的输出特征a(x)添加到全连接层,得到全连接层的输出表示如下:

49、d(x)=relu(wd·a(x)+bd)

50、其中,wd是全连接层的权重,bd是偏置。

51、s307、将步骤s306中获得的输出层经过激活函数可得语音被掩码概率值o(x),具体表示如下:

52、o(x)=σ(wo·d(x)+bo)

53、其中,σ是sigmoid函数,wo和bo分别是输出层的权重和偏置。

54、进一步的,步骤s4中,调整模型参数包括以下子步骤:

55、s401、结合频谱转换函数,构建基于频谱空间距离的二元交叉熵复合损失函数,具体公式如下:

56、

57、lbce(y,o(x))=-ylog(o(x))-(1-y)log(1-o(x));

58、lcompound(y,o(x))=lbce(y,o(x))+λlspectra(s(x),s(o(x)));

59、sj(x)=mfcc(x),j=1,2,...,n

60、其中,lspectra表示频谱空间距离损失,x表示单条输入语音,o(x)表示预测输出,sj(x)表示频谱转换函数,m表示频谱中的点数,‖·‖2表示l2范数,lbce表示二元交叉熵损失,y表示真实标签,lcompound表示基于频谱空间距离的二元交叉熵复合损失函数,λ表示超参数,用于平衡二者权重;n表示语音片段数量。

61、s402、组合步骤s301获得的基于频谱信息的频谱自注意力神经网络模块和步骤s401的基于频谱空间距离的二元交叉熵复合损失函数,构建基于频谱自注意力的卷积神经网络模型。

62、s402、将步骤s204获得的频谱数据集输入模型,通过复合损失函数计算模型的损失值,根据该值进行反向传播,计算损失函数相对于输出的梯度,使用链式法则将梯度传给前面的层,得到损失函数相对于模型中其他部分的梯度。

63、s403、使用优化算法调整模型参数以优化损失,对于权重w和偏置b,调整可以表示为:

64、

65、

66、其中,α表示学习率,决定每一步调整的大小,一般的,α需要根据该模型所需要处理的音频数据进行调整;w′表示调整后的权重,b′表示调整后的偏置。

67、根据最终语音被掩码概率值判断该语音片段是否需要修复。

68、进一步的,步骤s5中,基于频谱自注意力的卷积神经网络模型训练内容包括以下子步骤:

69、s501、评估基于频谱自注意力的卷积神经网络模型的性能的评估手段包括但不限于:考察模型损失值、判断准确率、查看混淆矩阵。

70、s502、确保该模型的性能之后,保存模型并保留权重,在投入使用的时候可以直接加载训练过的权重而无需从头开始训练。

71、s503、该模型的部署和开发尽量使用版本兼容性较高的代码和函数,并确保模型没有依赖于特定的库或自定义层,或者确保在部署时也包括这些依赖,以便适应不同的运行环境和设备版本。

72、进一步的,判断该语音片段是否需要修复的内容为:

73、由于基于频谱自注意力的卷积神经网络模型的最后一层全连接层采用sigmoid函数,将输出的被掩码概率值限制在了(0,1),之后根据训练数据的平衡度,在(0,1)中取值ξ设定判决值,当标签值大于判决值时则判别为待修复语音,反之则判别为无需修复语音。

74、将被判别为待修复语音的语音片段,联合获得的时间标记信息一同输出,同样的,时间标记信息不参与运算。

75、进一步的,本发明还提出了基于时频谱遮蔽的待修复语音的判别与修复系统,包括

76、语音获取模块,用于获取原始语音,获取音频采样率、声道、位深声音特征。

77、预处理模块,用于根据模型需求,对原始语音进行连接、重采样与等长切割,按照模型需求提取相同参数的梅尔频率倒谱系数特征,以保证输入数据维度的一致性。

78、初始数据集模块,用于针对预处理模块中切割完成的语音片段上应用掩码形成初始训练集的对照数据,对其应用一批随机掩码形成性能测试数据集。

79、时间标记模块,用于提取梅尔频率倒谱系数频谱特征,将时域信号转化为频域信息,保存为原始数据集和对比数据集,针对两个数据集分别打标签,并在此基础上对每个语音片段做时间标记,以便用修复完成语音替换原待修复语音。

80、语音判别模块,用于构建基于频谱信息的频谱自注意力神经网络模块,将数据集输入到该模型中,得到深层频谱信息特征,通过跳跃链接链接浅层和深层特征,添加全连接神经网络,进行特征的非线性变换和组合,得到语音被掩码概率值,根据语音被掩码概率值对判别结果进行分类,将判别完成待修复语音片段进行输出。

81、语音修复模块,用于修复判别模块输出的待修复语音,并将修复完成的语音片段返回。

82、收集模块,用于在不断地判别和输出过程中,收集修复判别模块输出的待修复语音和语音修复模块修复完成返回的语音信号,定期添加到判别模块所用的数据集中进行重训练,以提升判别性能。

83、进一步的,本发明还提出了一种可读写存储设备,所述可读写存储介质上存储又程序或指令,所述程序或指令被处理器执行时实现前文所述的基于时频谱遮蔽的待修复语音的判别与修复方法的步骤。

84、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

85、(1)本发明使用频谱自注意力神经网络提取语音段在频域的深层特征,接着对其使用跳跃连接,连接频谱浅层特征和深层特征,将浅层频谱特征信息传递给深层,使其保留基本的语音频谱纹理特征,综合考虑语音频谱信息的各项特征,以此实现高精度的判别目标。

86、(2)本发明提供了初始网络训练数据集的生成方式,以适应不同任务目标下的专精网络模型,提高在固定场景下的判别效率。

87、(3)本发明通过卷积神经网络,处理和学习语音的频域特征,相较处理时域信息,可以充分利用周边频谱以及其相关性,提高网络的有效特征提取率,从而实现高精度的判别目标。

88、(4)本发明可作为语音修复工作的先验模块,减轻语音修复工作本身的任务负担,提前进行分割并保留时间标记,只将需要修复的较短语音段提供给语音修复工作,从而大大提高语音修复的效率和精度,并且可根据时间标记,将语音修复工作返回的修复语音直接插入原语音,实现语音修复。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21185.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。