音频处理方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:39:06
本公开涉及一种音频处理方法、装置、电子设备及存储介质。
背景技术:
1、随着人工智能的发展,语音识别、语音翻译、语音问答等音频处理技术也得到了长足的发展。音频处理技术的一个关键过程为如何将连续的音频信号降维离散化成音频token(音频离散化后的表示)。现有技术中一般采用音频编码器实现该离散化过程。
2、然而,通过音频编码器处理连续音频得到的token的个数和质量很难满足音频处理模型的要求,要么过多超出音频处理模型的限制,要么过少质量太差不足以支持音频处理或者音频处理的质量较差。
技术实现思路
1、本公开提供了一种音频处理方法、装置、电子设备及存储介质。
2、根据本公开的一个方面,提供一种音频处理方法,包括:
3、将待处理音频进行转换,得到第一频谱图;
4、将所述第一频谱图输入预先训练的vqgan模型,得到第一编码;
5、将所述第一编码进行处理,得到第一音频token。
6、根据本公开的至少一个实施方式的音频处理方法,还包括:
7、将所述第一音频token输入预先训练的音频处理模型,得到处理结果。
8、根据本公开的至少一个实施方式的音频处理方法,所述将所述第一音频token输入预先训练的音频处理模型,包括:
9、获取所述待处理音频的第一处理指示;
10、将所述第一处理指示和第一音频token输入预先训练的音频处理模型。
11、根据本公开的至少一个实施方式的音频处理方法,在所述将所述第一音频token输入预先训练的音频处理模型之前,还包括:
12、获取第一训练音频和对应的训练处理结果;
13、将所述第一训练音频进行转换,得到训练频谱图;
14、将所述训练频谱图输入所述预先训练的vqgan模型,得到第二编码;
15、将所述第二编码进行处理,得到第二音频token;
16、使用所述第二音频token和对应的训练处理结果训练初始处理模型,得到所述预先训练的音频处理模型。
17、根据本公开的至少一个实施方式的音频处理方法,所述使用所述第二音频token和对应的训练处理结果训练初始处理模型,包括:
18、获取训练处理结果对应的训练处理指示;
19、使用所述训练处理指示、对应的第二音频token和训练处理结果训练初始处理模型。
20、根据本公开的至少一个实施方式的音频处理方法,在所述将所述第一频谱图输入预先训练的vqgan模型之前,还包括:根据预设处理规则对所述第一频谱图进行处理,得到第二频谱图;
21、所述将所述第一频谱图输入预先训练的vqgan模型,包括:将所述第二频谱图输入预先训练的vqgan模型。
22、根据本公开的至少一个实施方式的音频处理方法,在所述将所述第一频谱图输入预先训练的vqgan模型之前,还包括:
23、根据预设第一时间从第二训练音频中随机截取音频,得到第三训练音频;
24、将所述第三训练音频进行转换,得到第三频谱图;
25、使用第三频谱图训练初始vqgan模型,得到所述预先训练的vqgan模型。
26、根据本公开的另一个方面,提供一种音频处理装置,包括:
27、语谱转换模块,用于将待处理音频进行转换,得到第一频谱图;
28、离散处理模块,用于将所述第一频谱图输入预先训练的vqgan模型,得到第一编码;
29、离散转换模块,用于将所述第一编码进行处理,得到第一音频token。
30、根据本公开的又一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行本公开任一个实施方式的音频处理方法。
31、根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现本公开任一个实施方式的音频处理方法。
技术特征:1.一种音频处理方法,其特征在于,包括:
2.根据权利要求1所述的音频处理方法,其特征在于,还包括:
3.根据权利要求2所述的音频处理方法,其特征在于,所述将所述第一音频token输入预先训练的音频处理模型,包括:
4.根据权利要求2或3所述的音频处理方法,其特征在于,在所述将所述第一音频token输入预先训练的音频处理模型之前,还包括:
5.根据权利要求4所述的音频处理方法,其特征在于,所述使用所述第二音频token和对应的训练处理结果训练初始处理模型,包括:
6.根据权利要求1至3中任意一项所述的音频处理方法,其特征在于,
7.根据权利要求1至3中任意一项所述的音频处理方法,其特征在于,在所述将所述第一频谱图输入预先训练的vqgan模型之前,还包括:
8.一种音频处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时实现如权利要求1至7中任一项所述的音频处理方法。
技术总结本公开提供了一种音频处理方法、装置、电子设备及存储介质。本公开提供的音频处理方法,包括:将待处理音频进行转换,得到第一频谱图;将第一频谱图输入预先训练的VQGAN模型,得到第一编码;将第一编码进行处理,得到第一音频token。技术研发人员:张莉娜,魏光辉,宋莎莎,杨喜鹏,田锋平,吴玉虎受保护的技术使用者:上海墨百意信息科技有限公司技术研发日:技术公布日:2024/3/27本文地址:https://www.jishuxx.com/zhuanli/20240618/22682.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表