技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音数据处理方法、装置、设备及存储介质与流程  >  正文

语音数据处理方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:44:22

本公开涉及语音处理,尤其涉及一种语音数据处理方法、装置、设备及存储介质。

背景技术:

1、在训练各类语音模型时,通常需要从一段很长的语音数据中切割出合适长度的人声音频,用于作为训练语音模型的语料。目前在获取用于训练语音模型的语料时,有些技术将语音数据的切割成较大的语音块后,再逐一判定语音块是否为人声片段,然后将人声片段拼接作为用于训练语音模型的语料,这种方式最终得到的语料中夹杂较多的噪声片段或静音片段。有些技术则将语音数据切割的很散,将一句话基于每个孤立的词切分开,破坏了语音音节的连续性和多样性,使得最终得到的语料无法涵盖各种音节。无论是上述哪种方式,最终切割出来的语料都不太适合用于训练语音模型,致使最终训练的语音模型效果欠佳。

技术实现思路

1、本申请提供一种语音数据处理方法、装置、设备及存储介质。

2、根据本申请的第一方面,提供一种语音数据处理方法,包括:

3、按照预设的切分粒度将语音数据多次切分成语音片段,确定所述语音片段中的人声片段;当前一次切分得到的语音片段的长度大于上一次切分得到的语音片段的长度,当前一次切分所确定的人声片段中的目标片段为上一次切分确定的人声片段,所述目标片段在当前的人声片段中的占比大于预设占比;

4、基于最后一次切分确定的人声片段构建用于训练语音模型的语料。

5、根据本申请的第二方面,提供一种语音数据处理装置,所述装置包括:

6、切分模块,用于按照预设的切分粒度将语音数据多次切分成语音片段,确定所述语音片段中的人声片段;当前一次切分得到的语音片段的长度大于上一次切分得到的语音片段的长度,当前一次切分所确定的人声片段中的目标片段为上一次切分确定的人声片段,所述目标片段在当前的人声片段中的占比大于预设占比;

7、语料构建模块,用于基于最后一次切分确定的人声片段构建用于训练语音模型的语料。

8、根据本申请的第三方面,提供一种电子设备,所述电子设备包括处理器、存储器、存储在所述存储器可供所述处理器执行的计算机指令,所述处理器执行所述计算机指令时,可实现上述第一方面提及的方法。

9、根据本申请的第四方面,提供一种计算机可读存储介质,所述存储介质上存储有计算机指令,所述计算机指令被执行时实现上述第一方面提及的方法。

10、本申请中,在对语音数据进行切割,得到用于训练语音模型的语料时,可以按照预设的切分粒度对语音数据进行多次切分处理,并确定切分得到的语音片段中的人声片段。切分过程中,可以不断增大切分粒度,使得当前一次切分得到的语音片段的长度大于上一次切分得到的语音片段长度。并且每次切分完后,都可以基于上一次切分确定出来的人声片段筛选出本次切分得到的多个语音片段中的人声片段,既可以对语音数据进行细粒度切分,避免最后构建的人声音频中夹杂较多的噪声片段和静默片段,同时,也可以避免将语音数据切得过散,可以保留最终得到的人声音频中音节组合的多样性,从而可以保证最终得到的用于训练模型的语料的质量,提升训练的语音模型的效果。

11、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。

技术特征:

1.一种语音数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设的切分粒度包括以下一项或多项:语音帧粒度、音节粒度、短句粒度。

3.根据权利要求1或2所述的方法,其特征在于,按照预设的切分粒度将语音数据多次切分成语音片段,包括:

4.根据权利要求3所述的方法,其特征在于,所述确定所述多个语音帧中的人声帧,包括:

5.根据权利要求4所述的方法,其特征在于,所述语音特征包括以下一种或多种:mfcc特征、fbank特征、语谱图特征。

6.根据权利要求4所述的方法,其特征在于,所述基于所述语音特征对所述多个语音帧进行聚类处理,包括:

7.根据权利要求3所述的方法,其特征在于,所述将所述语音数据切分成多个音节片段,包括:

8.根据权利要求7所述的方法,其特征在于,所述音节窗口的移动步长等于所述音节窗口的长度。

9.根据权利要求3所述的方法,其特征在于,将所述语音数据切分成多个短句,包括:

10.根据权利要求9所述的方法,其特征在于,所述短句窗口的移动步长等于所述音节片段的长度。

11.根据权利要求1所述的方法,其特征在于,基于最后一次切分确定的人声片段构建用于训练语音模型的语料,包括:

12.根据权利要求1所述的方法,其特征在于,所述语音模型为语音识别模型,所述方法还包括:

13.一种语音数据处理装置,其特征在于,所述装置包括:

14.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、存储于所述存储器可供所述处理器执行的计算机指令,所述处理器执行所述计算机指令时实现如权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的方法。

技术总结本申请提供一种语音数据处理方法、装置、设备及存储介质。可以按照预设的切分粒度对语音数据执行多次切分,并确定每次切分得到的语音片段中的人声片段;其中,当前一次切分得到的语音片段的长度大于上一次切分得到的语音片段的长度,当前一次切分确定的人声片段中目标片段的占比大于预设占比,目标片段为上一次切分确定的人声片段基于最后一次切分处理确定的人声片段构建用于训练语音模型的语料。通过这种方式,可以避免最后构建的语料中夹杂较多的噪声片段和静默片段,同时,也可以避免将语音数据切得过散,可以保留最终得到的人声音频中音节组合的多样性。技术研发人员:李承翰,蒋宁,吴海英,陆全,夏粉,刘敏受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/2/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/21456.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。