技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声学及语言学打分的不达标连续语音标注数据检查方法  >  正文

声学及语言学打分的不达标连续语音标注数据检查方法

  • 国知局
  • 2024-06-21 11:42:42

本发明涉及一种声学及语言学打分的不达标连续语音标注数据检查方法,属于连续语音识别。

背景技术:

1、随着深度学习技术在语音识别领域的突破,连续语音识别技术已广泛应用于教育、娱乐、医疗、交通等各行各业,应用的效果得到了业界的普遍认可。但由于连续语音识别技术属于典型的数据驱动性、有监督学习的模式识别技术,训练数据所覆盖的数量与质量直接影响着系统的识别性能。因为行业领域的不同,同一个语种的连续语音识别任务,所要识别的数据具有非常明显的差异性,包括信道、文本主题、说话人、环境噪声等等因素。这些差异性的客观存在,导致难以建立一个各领域、行业识别效果通用的连续语音识别系统,需要针对各行业数据对已有的识别系统进行迭代学习优化。现实业务中,某些通用场景中效果识别效果很好的模型迁移到特定场景后,识别效果下降明显,通常需要收集这些特定场景的语料做标注,然后拿通用场景的模型来迭代,以期达到更好的识别效果。这些数据标注的质量直接决定模型训练效果的好坏。

2、现有的标注检查方式为人力核验,分为两道工序,首先为全检,此道工序会对全量的标注数据做检查。另一道为质检,会从全检的数据做随机抽查一定的比例数据再次检查。只有两道工序都合格的数据,才能送给模型做迭代训练。从以上两道检查工序可以看到,前述两道标注数据检查工序,可以有效保障最终的标注数据质量,但是面对待检查数据量较多时会特别消耗人力及时间,特别是第一道工序,需要逐条核验,特别耗时。正常情况下,一批原始标注数据中,合格的标注应当占比较大,不合格的标注数据应当占比较少。如果能利用算法将这些不合格的标注数据快速挑选出来供检查,合格的数据不做检查,这样就可以极大的加快标注检查检查进度,极大的节省人力及时间成本。

技术实现思路

1、本发明的目的在于,克服现有技术存在的技术缺陷,解决上述技术问题,提出一种声学及语言学打分的不达标连续语音标注数据检查方法,能将不合格的标注数据快速找出呈现给检查端,极大的提升标注数据的检查进度。

2、本发明从声学层面及语言学层面着手,分别计算待检测音频与标注文本合成音频之间的声学相似度打分、标注文本的语言模型混淆度打分,之后将两个分数融合,通过设置阈值的方式判断待检测音频标注是否达标。

3、声学相似度模型的训练,首先利用语音合成技术将标注的文本合成音频数据,分别对合成音频及标注语音提取plp(perceptual linear predictive,感知线性预测plp)特征,采用dtw(dynamic time warping,动态时间归整)算法将两者特征做帧级别的对齐,利用这些对齐的特征训练一个稀疏网络,记为dtw-autoencoder模型,用于去除合成算法与真实语音之间由于语速、语调、韵律、性别等因素导致相同文本内容发音不完全一致导致声学特征差异较大。接着固定住稀疏网络参数用来提取鲁棒性声学特征,将合成音频/真实音频特征对送入resnet网络,采用triplet loss及mse loss训练网络至收敛,得到第一声学相似度计算网络。此外,本发明还会使用dtw-autoencoder模型提取的特征合成音频/真实音频特征,训练一个高斯混合模型(gaussian mixed model,gmm),该模型在测试阶段用于提取合成音与真实音频之间的状态帧方差的差值绝对值,作为第二声学相似度,然后与第一声学相似度打分做融合,得到声学相似度打分。

4、语言模型的训练较为简单,本发明采用爬虫工具从网站上或者大量待检测目标语种的文本语料,之后利用开源语言模型训练工具,如ngram语言模型训练工具,训练语言模型,之后采用该语言模型对待检测的标注文本做语言模型混淆度打分。

5、本发明最后将声学相似度打分与语言模型打分之间做加权融合,设定打分阈值,根据阈值判别标注数据是否合格,从而挑选出不合格的数据供检查员检查,可以极大的加快标注数据检查的速度。

6、本发明具体采用如下技术方案:声学及语言学打分的不达标连续语音标注数据检查方法,包括:获取待检测音频和标注文本合成音频,分别计算待检测音频与标注文本合成音频之间的声学相似度打分、标注文本的语言模型混淆度打分,之后将所述声学相似度打分和所述标注文本的语言模型混淆度打分进行融合,通过设置阈值的方式判断待检测音频标注是否达标。

7、作为一种较佳的实施例,所述方法包括模型训练步骤,所述模型训练步骤获取声学相似度打分模型及语言模型打分模型。

8、作为一种较佳的实施例,所述模型训练步骤具体包括:

9、步骤ss11:收集多个语种的开源的连续语音标注数据集,记所述连续语音标注数据集中的标注文本对应的标注音频为x_real;

10、步骤ss12:对步骤ss11中的标注文本,采用合成算法合成对应的合成音频,记第i个标注文本对应的标注音频为x_real_i,对应的合成音频为x_synthesis_i;

11、步骤ss13:对步骤ss11和步骤ss12中的标注音频以及合成音频,过滤除无效音,提取感知线性预测plp特征,记第i个标注文本对应的感知线性预测plp特征为plp_real_i,对应的合成音频的感知线性预测plp特征为plp_synthesis_i;

12、步骤ss14:采用dtw算法,将plp_real_i与plp_synthesis_i做强制对齐,得到plp_real_i与plp_synthesis_i帧级别的特征对应关系;

13、步骤ss15:将步骤ss14中的感知线性预测plp特征,以plp_real_i作为输入,以plp_synthesis_i的dtw强制对齐结果作为标签,训练稀疏神经网络,记为dtw-autoencoder模型;dtw-autoencoder模型可以用于提取更优于plp特征的声学特征,它可以去除合成算法与真实语音之间由于语速、语调、韵律等不同,导致文本内容相同的两个音频声学特征差异较大;

14、步骤ss16:利用步骤ss15中的稀疏神经网络,对步骤ss13中的感知线性预测plp特征提取稀疏编码特征,记第i个标注文本对应的稀疏编码特征为plp_encode_real_i,对应的合成音频的稀疏编码特征为plp_encode_synthesis_i;

15、步骤ss17:将步骤ss16中的稀疏编码特征,一次送一个batch的特征到resnet网络中,所述batch的特征中含有k对标注/合成音频;

16、步骤ss18:设置高斯混合模型的高斯混合系m,利用k-means聚类得到gmm初始模型,之后利用em算法对步骤ss16中的稀疏编码特征做迭代训练,训练gmm模型,反复迭代至gmm模型收敛。

17、步骤ss19:获取与待检查数据语种相同的文本语料,利用所述文本语料训练ngram语言模型,得到ngram语言模型。

18、作为一种较佳的实施例,所述步骤ss15中的dtw-autoencoder模型为一个中间节点少,两端节点数与感知线性预测plp特征维度大小相同的网络结构,类似与自编码器,但不同与传统的自编码器,传统自编码器中,输入特征与输出标签是一致的,通过计算输出特征与输入特征之间的mse loss来迭代自编码器,稀疏神经网络的输入为原始标注音频的感知线性预测plp特征,输出标签为dtw强制对齐的合成音频的感知线性预测plp特征,计算输入的特征与对齐的特征之间的均方误差损失mse loss,迭代稀疏神经网络,这样做的好处除了继承了传统自编码器的抗噪性优点,还能去除合成音频与真实语音之间由于语速、语调、韵律等不同,导致文本内容相同的两个音频原始声学特征差异较大。设置初始学习率0.1,采用mse loss反复迭代至稀疏网络不在损失函数值不在明显下降为止,如图1所示。

19、作为一种较佳的实施例,所述步骤ss17中的resnet网络的最后一层为全连接层,所述全连接层的维度大小为dim,dim取64或者128的正整数,所述全连接层不是用来做分类,仅用来提取音频的声学表征向量。

20、作为一种较佳的实施例,所述步骤ss18中的m为一个正整数值,m的值取256或者512或者1024。

21、作为一种较佳的实施例,所述方法还包括数据筛查步骤,所述数据筛查步骤具体包括:

22、步骤ss21:对待检查的原始语音test_real,对应的文本标注为text_test,采用语音合成工具,利用文本标注text_test,合成音频test_synthesis;

23、步骤ss22:对步骤ss21中的原始语音test_real及合成音频test_synthesis提取感知线性预测plp特征,分别记为test_plp_real、test_plp_synthesis;

24、步骤ss23:加载训练好的dtw-autoencoder模型,将步骤ss22中的感知线性预测plp特征提取自编码特征,记为test_plp_encode_real、test_plp_encoder_synthesis;

25、步骤ss24:加载训练好的resnet网络,将步骤ss23中的自编码特征提取声学表征向量,分别记为test_xvector_real、test_xvector_synthesis;

26、步骤ss25:分别计算步骤ss24获得的test_xvector_real与test_xvector_synthesis之间的余弦相似度cos_sim,如式(1)所示:

27、

28、cos_sim作为第一声学相似度,cos_sim值越大,说明标注语音与合成音之间的发音越相似,即标注的文本越可能是正确的;

29、步骤ss26:加载训练好的gmm模型,分别计算步骤ss23中的自编码特征test_plp_encode_real、test_plp_encoder_synthesis每一帧特征归属于gmm模型中的单高斯,如式(2)所示:

30、

31、其中wi表示gmm模型的第i个高斯混合系数,ni(g)表示gmm模型的第i个高斯,xt表示第t帧特征,rect表示xt表的识别结果;根据test_plp_encode_real、test_plp_encoder_synthesis的帧级别识别结果,计算各自的状态帧方差;

32、步骤ss27:作为第二声学相似度δvariance,原始语音及合成音频特征计算出来的状态帧方差的差值的绝对值,其计算公式如式(3)所示:

33、δvariance=|sreal-ssynthesis|  (3)

34、其中,sreal为原始语音自编码特征计算出来的状态帧方差,ssynthesis为合成音频自编码特征计算出来的状态帧方差;

35、步骤ss28:加载训练好的ngram语言模型,利用ngram语言模型对步骤ss21阶段的text_test计算混淆度ppl,记text_test的词数为l,得到平均ppl分数,记为pplavg,

36、

37、pplavg值越低,表示该句标注越符合人的语言交流习惯,即从语法层面排除标注错误的可能;

38、步骤ss29:根据步骤ss25中的第一声学相似度cos_sim,步骤ss26中的第二声学相似度δvariance,步骤ss27中的pplavg,计算待检测音频的声学及语言学的标注打分score,如式(5)所示:

39、score=cos_sim-α·δvariance-β·pplavg  (5)

40、式(5)中的α及β为调节因子,取值根据实际情况而定;

41、步骤ss210:划定阈值score_thred,根据阈值判别最终的标注是否合格,即如果当前待检测的标注打分score大于score_thred,则判为标注合格;否则该条标注打分则被判断为不合格,需要送入检查,重新标注。

42、作为一种较佳的实施例,所述步骤ss23中的dtw-autoencoder模型为一个中间节点少,两端节点数与感知线性预测plp特征维度大小相同的网络结构,稀疏神经网络的输入为原始标注音频的感知线性预测plp特征,输出标签为dtw强制对齐的合成音频的感知线性预测plp特征,计算输入的特征与对齐的特征之间的均方误差损失mse loss,迭代稀疏神经网络。

43、作为一种较佳的实施例,所述步骤ss24中的resnet网络的最后一层为全连接层,所述全连接层的维度大小为dim,dim取64或者128的正整数,所述全连接层不是用来做分类,仅用来提取音频的声学表征向量。

44、作为一种较佳的实施例,所述步骤ss26中的gmm模型的训练过程为:设置高斯混合模型的高斯混合系m,利用k-means聚类得到gmm初始模型,之后利用em算法对步骤ss16中的稀疏编码特征做迭代训练,训练gmm模型,反复迭代至gmm模型收敛。

45、本发明所达到的有益效果:第一,本发明设计了一个基于dtw强制对齐的自编码器网络,避免了相同文本内容,不同原始音频/合成音频对之间由于语速、语调、韵律等因素造成声学特征差异较大,不利于后续的声学相似度打分网络的训练。同时也为第二声学相似度的计算打好了特征基础;本发明设计了第一声学相似度、第二声学相似度、语言模型打分等,通过从两个方面考虑对标注数据做出检查,声学及语言学两方面打分算法形成互补,避免了单一一种打分算法检查不全面的情况(如,标注的词发音正确,但是词标注错误;或者标注文本符合人的语言习惯,但是却与原始语音发音不对应);本发明避免不分标注质量好坏而做逐一检查,通过一套打分打算,有针对性的筛选出标注质量不达标的数据供业务人员检查,极大的节省人力及时间成本。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23074.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。