音频处理方法、电子设备、可读存储介质及程序产品与流程
- 国知局
- 2024-06-21 11:55:51
本公开涉及音频处理方法、电子设备、可读存储介质及程序产品。
背景技术:
1、最近几年随着深度学习和智能语音技术的发展,语音关键词识别(keywordspotting,简称kws)已经成为智能生活的一个重要部分。kws的目的在于从连续的音频流中识别出我们预先指定的命令词。kws技术广泛应用于人们的生活和工作当中,从语音唤醒手机助手,到语音命令控制智能家电,这个技术给人们的生活和工作带来了便利。
2、目前常见的kws方案需要训练精准的连续语音识别模型。部署大的语音识别模型需要更高性能的硬件支持,例如部署在云端服务器中,这使得语音识别模型很难部署在性能较低的硬件环境中,例如离线部署在智能家居的低功耗且内存小的芯片上。因此,目前的kws方案对应用环境的硬件和性能的要求较高,使得语音识别的成本较高。
技术实现思路
1、为了解决上述技术问题中的至少一个,本公开提供了音频处理方法、装置、电子设备、可读存储介质及计算机程序产品。
2、本公开第一方面提出了一种音频处理方法,包括:对待识别的音频数据进行特征提取,得到目标频域特征;对所述目标频域特征进行下采样,得到多个帧的目标特征向量;基于训练好的网络模型得到预测结果,所述网络模型的输入包括多个帧的所述目标特征向量所形成的输入序列,所述预测结果包括多个帧各自相对于多个语音标签的概率;以及基于目标文本中的单位文本之间的关联关系以及所述预测结果进行所述目标文本的识别,得到识别结果,所述识别结果表征所述待识别的音频数据对应的待识别文本中是否包含所述目标文本。
3、根据本公开的一个实施方式,对所述目标频域特征进行下采样,得到多个帧的目标特征向量,包括:按预设的卷积核大小和预设的步长对所述目标频域特征进行一维卷积,得到多个帧的目标特征向量,所述目标特征向量为多维向量。
4、根据本公开的一个实施方式,按预设的卷积核大小和预设的步长对所述目标频域特征进行一维卷积,得到多个帧的目标特征向量,包括:按预设的卷积核大小和预设的步长对目标帧的所述目标频域特征进行一维卷积,得到多个输出通道各自的卷积结果;以及将同一所述目标帧的所述多个输出通道各自的卷积结果进行拼接,得到所述目标帧的目标特征向量。
5、根据本公开的一个实施方式,基于训练好的网络模型得到预测结果,包括:基于训练好的网络模型对所述网络模型的输入进行编码,得到编码结果;以及将所述编码结果映射为多个语音标签类别的后验概率。
6、根据本公开的一个实施方式,所述单位文本之间的关联关系通过所述单位文本形成的解码图表示,所述解码图包括状态节点,所述状态节点与所述单位文本一一对应,所述状态节点对应有令牌,所述令牌表示当前状态节点及其之前的状态节点的解码信息。
7、根据本公开的一个实施方式,所述状态节点对应有第一关联关系和第二关联关系,所述第一关联关系表示所述状态节点指向自身,所述第二关联关系表示所述状态节点指向下一状态节点。
8、根据本公开的一个实施方式,所述解码图还包括开始节点和结束节点,所述目标文本以所述开始节点为起点,以所述结束节点为终点,所述结束节点与所述目标文本一一对应。
9、根据本公开的一个实施方式,基于目标文本中的单位文本之间的关联关系以及所述预测结果进行所述目标文本的识别,包括:基于所述解码图和所述预测结果,通过集束搜索算法进行所述目标文本的识别。
10、本公开第二方面提出了一种音频处理装置,包括:特征提取模块,用于对待识别的音频数据进行特征提取,得到目标频域特征;下采样模块,用于对所述目标频域特征进行下采样,得到多个帧的目标特征向量;概率预测模块,用于基于训练好的网络模型得到预测结果,所述网络模型的输入包括多个帧的所述目标特征向量所形成的输入序列,所述预测结果包括多个帧各自相对于多个语音标签的概率;以及文本识别模块,用于基于目标文本中的单位文本之间的关联关系以及所述预测结果进行所述目标文本的识别,得到识别结果,所述识别结果表征所述待识别的音频数据对应的待识别文本中是否包含所述目标文本。
11、本公开第三方面提出了一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一实施方式所述的音频处理方法。
12、本公开第四方面提出了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一实施方式所述的音频处理方法。
13、本公开第五方面提出了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述任一实施方式所述的音频处理方法。
技术特征:1.一种音频处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述目标频域特征进行下采样,得到多个帧的目标特征向量,包括:
3.根据权利要求2所述的方法,其特征在于,按预设的卷积核大小和预设的步长对所述目标频域特征进行一维卷积,得到多个帧的目标特征向量,包括:
4.根据权利要求1所述的方法,其特征在于,基于训练好的网络模型得到预测结果,包括:
5.根据权利要求1所述的方法,其特征在于,所述单位文本之间的关联关系通过所述单位文本形成的解码图表示,所述解码图包括状态节点,所述状态节点与所述单位文本一一对应,所述状态节点对应有令牌,所述令牌表示当前状态节点及其之前的状态节点的解码信息。
6.根据权利要求5所述的方法,其特征在于,所述状态节点对应有第一关联关系和第二关联关系,所述第一关联关系表示所述状态节点指向自身,所述第二关联关系表示所述状态节点指向下一状态节点。
7.根据权利要求5或6所述的方法,其特征在于,基于目标文本中的单位文本之间的关联关系以及所述预测结果进行所述目标文本的识别,包括:
8.一种电子设备,其特征在于,包括:
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的音频处理方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至7任一项所述的音频处理方法。
技术总结本公开提供了一种音频处理方法、电子设备、可读存储介质及程序产品,该音频处理方法首先对待识别的音频数据进行特征提取,得到目标频域特征,然后对目标频域特征进行下采样,得到多个帧的目标特征向量,之后基于训练好的网络模型得到预测结果,网络模型的输入包括多个帧的目标特征向量所形成的输入序列,预测结果包括多个帧各自相对于多个语音标签的概率,最后基于目标文本中的单位文本之间的关联关系以及预测结果进行目标文本的识别,得到识别结果,识别结果表征所述待识别的音频数据对应的待识别文本中是否包含目标文本。技术研发人员:张岩,孙鹏飞,李志飞受保护的技术使用者:出门问问创新科技有限公司技术研发日:技术公布日:2024/6/2本文地址:https://www.jishuxx.com/zhuanli/20240618/24544.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。