技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音特征提取方法及相关方法、装置、设备和存储介质与流程  >  正文

语音特征提取方法及相关方法、装置、设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:56:29

本申请涉及语音处理,特别是涉及一种语音特征提取方法及相关方法、装置、设备和存储介质。

背景技术:

1、语音识别、语音情感分类等语音处理任务在国际会议、跨境旅游、智能客服等诸多场景中均存在极高的应用价值。

2、然而,语音处理的准确性极大地依赖于语音特征的提取精度。目前,现有的语音特征提取技术主要聚焦于单通道语音,并未关注多通道语音。此外,部分应用于多通道语音的语音特征提取技术,也仅仅是将多通道语音中各个语音通道分别视为独立的单通道语音进行特征提取,导致无法对多通道语音相较于单通道语音的额外信息进行充分建模,从而将极大限制后续语音处理任务的准确性。有鉴于此,如何提升对多通道语音的语音特征提取精度,成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音特征提取方法及相关方法、装置、设备和存储介质,能够提升对多通道语音的语音特征提取精度。

2、为了解决上述技术问题,本申请第一方面提供了一种语音特征提取方法,包括:获取待处理语音;其中,待处理语音包含多个语音通道;基于特征提取模型对多个语音通道中语音段进行特征提取,得到多个语音通道中各个语音段的语音特征;其中,特征提取模型采用样本语音集至少通过三种对比学习训练得到,样本语音集内包含来自多个样本多通道语音的样本语音段,三种对比学习包括:对比来自相同及不同样本多通道语音的样本语音段之间第一特征相似度、对比来自相同样本多通道语音中相同及不同通道的样本语音段之间第二特征相似度、对比来自相同样本多通道语音中相同及不同时序的样本语音段之间第三特征相似度。

3、为了解决上述技术问题,本申请第二方面提供了一种语音处理方法,包括:基于待处理语音进行特征提取,得到待处理语音内多个语音通道中各个语音段的语音特征;其中,语音特征基于上述第一方面中的语音特征提取方法得到;基于待处理语音内多个语音通道中各个语音段的语音特征进行处理,得到待处理语音的处理结果。

4、为了解决上述技术问题,本申请第三方面提供了一种语音特征提取装置,包括:获取模块和提取模块,获取模块,用于获取待处理语音;其中,待处理语音包含多个语音通道;提取模块,用于基于特征提取模型对多个语音通道中语音段进行特征提取,得到多个语音通道中各个语音段的语音特征;其中,特征提取模型采用样本语音集至少通过三种对比学习训练得到,样本语音集内包含来自多个样本多通道语音的样本语音段,三种对比学习包括:对比来自相同及不同样本多通道语音的样本语音段之间第一特征相似度、对比来自相同样本多通道语音中相同及不同通道的样本语音段之间第二特征相似度、对比来自相同样本多通道语音中相同及不同时序的样本语音段之间第三特征相似度。

5、为了解决上述技术问题,本申请第四方面提供了一种语音处理装置,包括:提取模块和处理模块,提取模块,用于基于待处理语音进行特征提取,得到待处理语音内多个语音通道中各个语音段的语音特征;其中,语音特征基于上述第三方面中的语音特征提取装置得到;处理模块,用于基于待处理语音内多个语音通道中各个语音段的语音特征进行处理,得到待处理语音的处理结果。

6、为了解决上述技术问题,本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音特征提取方法,或实现上述第二方面中的语音处理方法。

7、为了解决上述技术问题,本申请第六方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音特征提取方法,或实现上述第二方面中的语音处理方法。

8、上述方案,获取待处理语音,且待处理语音包含多个语音通道,再基于特征提取模型对多个语音通道中语音段进行特征提取,得到多个语音通道中各个语音段的语音特征,且特征提取模型采用样本语音集至少通过三种对比学习训练得到,样本语音集内包含来自多个样本多通道语音的样本语音段,三种对比学习包括:对比来自相同及不同样本多通道语音的样本语音段之间第一特征相似度、对比来自相同样本多通道语音中相同及不同通道的样本语音段之间第二特征相似度、对比来自相同样本多通道语音中相同及不同时序的样本语音段之间第三特征相似度,故特征提取模型能够利用多通道语音多个通道内容相似性的特性、相同通道的相似性、同一多通道语音中相同时序不同语音段的相似性进行对比学习,使得特征提取模型能够充分建模多通道相较于单通道的额外信息,进而能够提取出包含信息更为丰富的语音特征。故此,能够提升对多通道语音的语音特征提取精度。

技术特征:

1.一种语音特征提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述特征提取模型的训练步骤包括:

3.根据权利要求2所述的方法,其特征在于,来自相同所述样本多通道语音的样本语音段之间所述第一特征相似度与所述第一损失负相关,来自不同所述样本多通道语音的样本语音段之间所述第一特征相似度与所述第一损失正相关;

4.根据权利要求2所述的方法,其特征在于,所述基于所述两个第一子集彼此之间所含所述样本语音段的样本语音特征之间特征相似度进行第一度量,得到第一损失之前,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,所述两个第一子集内包含相同数量所述样本语音段,且在所述样本语音集包含奇数数量所述样本语音段的情况下,所述划分所述样本语音集为两个第一子集之前,所述方法还包括以下任一者:

6.根据权利要求1至5任一项所述的方法,其特征在于,所述特征提取模型在至少通过所述三种对比学习进行训练之前,还先至少通过第一对比学习训练至收敛,再至少通过第二对比学习和第三对比学习训练至收敛;

7.根据权利要求6所述的方法,其特征在于,所述至少通过第一对比学习训练至收敛,包括:

8.根据权利要求6所述的方法,其特征在于,所述至少通过第二对比学习和第三对比学习训练至收敛,包括:

9.根据权利要求1所述的方法,其特征在于,所述基于特征提取模型对所述多个语音通道中语音段进行特征提取,得到所述多个语音通道中各个所述语音段的语音特征,包括:

10.一种语音处理方法,其特征在于,包括:

11.一种语音特征提取装置,其特征在于,包括:

12.一种语音处理装置,其特征在于,包括:

13.一种电子设备,其特征在于,至少包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音特征提取方法,或实现权利要求10所述的语音处理方法。

14.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至9任一项所述的语音特征提取方法,或实现权利要求10所述的语音处理方法。

技术总结本申请公开了一种语音特征提取方法及相关方法、装置、设备和存储介质,其中,语音特征提取方法包括:获取待处理语音;基于特征提取模型对多个语音通道中语音段进行特征提取,得到多个语音通道中各个语音段的语音特征;其中,特征提取模型采用样本语音集至少通过三种对比学习训练得到,样本语音集内包含来自多个样本多通道语音的样本语音段,三种对比学习包括:对比来自相同及不同样本多通道语音的样本语音段之间第一特征相似度、对比来自相同样本多通道语音中相同及不同通道的样本语音段之间第二特征相似度、对比来自相同样本多通道语音中相同及不同时序的样本语音段之间第三特征相似度。上述方案,能够提升对多通道语音的语音特征提取精度。技术研发人员:胡今朝,吴重亮,李永超,吴明辉受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/6/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/24615.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。