技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、会议语音增强方法和语音模型训练方法与流程  >  正文

语音处理方法、会议语音增强方法和语音模型训练方法与流程

  • 国知局
  • 2024-06-21 11:26:59

本说明书实施例涉及语音处理方法、会议语音增强方法或者语音模型训练,特别涉及一种语音处理方法。

背景技术:

1、随着互联网技术的发展,语音数据在社交沟通、在线会议和视频制作等生产生活场景中具有广泛的应用。

2、目前,针对语音数据在生成、传播和接收的路径中不可避免地携带有噪声,给语音数据的使用造成了较大影响的问题,通过语音增强技术,提升了语音质量,解决噪音干扰的问题,提升了语音数据的使用效果。因此,如何合理地提取得到高质量的目标语音特征向量,完成语音增强操作,是一个亟需解决的问题。

技术实现思路

1、有鉴于此,本说明书实施例提供了一种语音处理方法。本说明书一个或者多个实施例同时涉及一种会议语音增强方法,一种语音模型训练方法,一种语音处理装置,一种会议语音增强装置,一种语音模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种语音处理方法,包括:

3、获取待处理的语音数据;

4、对语音数据编码获得语音特征向量,其中,语音特征向量包括时域通道和频域通道的特征序列;

5、对时域通道和频域通道的特征序列进行时频域同步特征处理,获得目标语音特征向量;

6、基于目标语音特征向量,解码得到语音处理结果。

7、根据本说明书实施例的第二方面,提供了一种会议语音增强方法,应用于云侧设备,包括:

8、获取会议语音数据;

9、对会议语音数据编码获得语音特征向量,其中,语音特征向量包括时域通道和频域通道的特征序列;

10、对时域通道和频域通道的特征序列进行时频域同步特征处理,获得目标语音特征向量;

11、基于目标语音特征向量,解码得到增强的会议语音数据;

12、将增强的会议语音数据发送至前端。

13、根据本说明书实施例的第三方面,提供了一种语音模型训练方法,应用于云侧设备,包括:

14、获取样本集,其中,样本集包括样本语音数据和标签语音数据;

15、将样本语音数据输入语音模型的编码模块,对样本语音数据编码获得样本语音特征向量,其中,语音模型包括编码模块、处理模块和解码模块;

16、将样本语音特征向量输入处理模块,对时域通道和频域通道的特征序列进行时频域同步特征处理,获得预测语音特征向量;

17、将预测语音特征向量输入解码模块,解码得到预测语音数据;

18、基于预测语音数据和标签语音数据,计算损失值;

19、基于损失值,调整语音模型的模型参数,在达到预设训练结束条件的情况下,获得训练完成的语音模型;

20、将语音模型的模型参数发送至端侧设备。

21、根据本说明书实施例的第四方面,提供了一种语音处理装置,包括:

22、第一获取模块,被配置为获取待处理的语音数据;

23、第一编码模块,被配置为对语音数据编码获得语音特征向量,其中,语音特征向量包括时域通道和频域通道的特征序列;

24、第一处理模块,被配置为对时域通道和频域通道的特征序列进行时频域同步特征处理,获得目标语音特征向量;

25、第一解码模块,被配置为基于目标语音特征向量,解码得到语音处理结果。

26、根据本说明书实施例的第五方面,提供了一种会议语音增强装置,应用于云侧设备,包括:

27、第二获取模块,被配置为获取会议语音数据;

28、第二编码模块,被配置为对会议语音数据编码获得语音特征向量,其中,语音特征向量包括时域通道和频域通道的特征序列;

29、第二处理模块,被配置为对时域通道和频域通道的特征序列进行时频域同步特征处理,获得目标语音特征向量;

30、第二解码模块,被配置为基于目标语音特征向量,解码得到增强的会议语音数据;

31、数据发送模块,被配置为将增强的会议语音数据发送至前端。

32、根据本说明书实施例的第六方面,提供了一种语音模型训练装置,应用于云侧设备,包括:

33、第三获取模块,被配置为获取样本集,其中,样本集包括样本语音数据和标签语音数据;

34、第三编码模块,被配置为将样本语音数据输入语音模型的编码模块,对样本语音数据编码获得样本语音特征向量,其中,语音模型包括编码模块、处理模块和解码模块;

35、第三处理模块,被配置为将样本语音特征向量输入处理模块,对时域通道和频域通道的特征序列进行时频域同步特征处理,获得预测语音特征向量;

36、第三解码模块,被配置为将预测语音特征向量输入解码模块,解码得到预测语音数据;

37、损失计算模块,被配置为基于预测语音数据和标签语音数据,计算损失值;

38、调整训练模块,被配置为基于损失值,调整语音模型的模型参数,在达到预设训练结束条件的情况下,获得训练完成的语音模型;

39、模型发送模块,被配置为将语音模型的模型参数发送至端侧设备。

40、根据本说明书实施例的第七方面,提供了一种计算设备,包括:

41、存储器和处理器;

42、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述方法的步骤。

43、根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述方法的步骤。

44、根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述方法的步骤。

45、本说明书一个实施例中,获取待处理的语音数据;对语音数据编码获得语音特征向量,其中,语音特征向量包括时域通道和频域通道的特征序列;基于语音特征向量,在时域通道和频域通道对语音特征向量进行注意力计算,获得目标语音特征向量;基于目标语音特征向量,解码得到语音处理结果。在对语音数据进行特征编码,获得包括时域通道和频域通道的特征序列的语音特征向量的情况下,在时域通道和频域通道上,同步进行特征处理,充分挖掘了时域通道、频域通道上的特征之间的密切关联,实现了有效的语音数据的上下文理解,捕捉到了时域和频域上的复杂互动,得到高准确度的目标语音特征向量来进行解码,获得高准确度的语音处理结果,提升了语音处理的有效性。

技术特征:

1.一种语音处理方法,包括:

2.根据权利要求1所述的方法,在所述对所述语音数据编码获得语音特征向量之前,还包括:

3.根据权利要求1所述的方法,在所述对所述时域通道和频域通道的特征序列进行时频域同步特征处理,获得目标语音特征向量之前,还包括:

4.根据权利要求3所述的方法,所述语音特征向量包括多个特征维度;

5.根据权利要求1-4任一项所述的方法,所述对所述时域通道和频域通道的特征序列进行时频域同步特征处理,获得目标语音特征向量,包括:

6.根据权利要求5所述的方法,在所述基于所述语音特征向量,在所述时域通道和所述频域通道对所述语音特征向量进行自注意力计算,获得自注意力特征之前,还包括:

7.根据权利要求5所述的方法,所述基于所述语音特征向量,在所述时域通道和所述频域通道对所述语音特征向量进行自注意力计算,获得自注意力特征,包括:

8.根据权利要求7所述的方法,在所述基于所述时域通道和所述频域通道的二次注意力特征,确定自注意力特征,包括:

9.根据权利要求1所述的方法,所述基于所述目标语音特征向量,解码得到语音处理结果,包括:

10.根据权利要求1所述的方法,所述对所述语音数据编码获得语音特征向量,包括:

11.根据权利要求10所述的方法,所述语音模型还包括:循环模块和局部卷积模块;

12.一种会议语音增强方法,应用于云侧设备,包括:

13.一种语音模型训练方法,应用于云侧设备,包括:

14.一种计算设备,包括:

15.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至13任意一项所述方法的步骤。

技术总结本说明书实施例提供语音处理方法、会议语音增强方法和语音模型训练方法,其中所述语音处理方法包括:获取待处理的语音数据;对语音数据编码获得语音特征向量,其中,语音特征向量包括时域通道和频域通道的特征序列;对时域通道和频域通道的特征序列进行时频域同步特征处理,获得目标语音特征向量;基于目标语音特征向量,解码得到语音处理结果。在时域通道和频域通道上,同步进行特征处理,充分挖掘了时域通道和频域通道上的特征之间的密切关联,实现了有效的上下文理解,得到高准确度的目标语音特征向量来进行解码,获得高准确度的语音处理结果,提升了语音处理的有效性。技术研发人员:赵胜奎,马斌受保护的技术使用者:杭州阿里云飞天信息技术有限公司技术研发日:技术公布日:2024/2/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/21593.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。