技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、计算机设备和存储介质与流程  >  正文

音频处理方法、装置、计算机设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:49:31

本申请涉及人工智能,特别是涉及一种音频处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术:

1、音频处理方法主要是用于检验给定的一段音频信号是否为语音信号,本质上是对音频信号进行分类。传统的音频处理是将音频信号切分为多个音频帧,然后采用音频检测算法对每一音频帧分别进行检测,得到音频信号的语音检测结果。

技术实现思路

1、基于此,提供一种音频处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,能够提高语音检测结果的准确性。

2、第一方面,本申请提供了一种音频处理方法,包括:

3、获取音频信号中的m个音频帧,并确定m个音频帧的初始特征;其中,m为大于1的正整数;

4、根据m个音频帧的初始特征构建输入特征矩阵;

5、根据不同音频帧间的关联关系构建邻接矩阵,并基于邻接矩阵和输入特征矩阵进行图处理,得到与m个音频帧对应的m个目标特征;

6、基于m个目标特征进行语音检测,得到语音检测结果。

7、第二方面,本申请还提供了一种音频处理装置,包括:

8、获取模块,用于获取音频信号中的m个音频帧,并确定m个音频帧的初始特征;其中,m为大于1的正整数;

9、构建模块,用于根据m个音频帧的初始特征构建输入特征矩阵;

10、处理模块,用于根据不同音频帧间的关联关系构建邻接矩阵,并基于邻接矩阵和输入特征矩阵进行图处理,得到与m个音频帧对应的m个目标特征;

11、检测模块,用于基于m个目标特征进行语音检测,得到语音检测结果。

12、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

13、获取音频信号中的m个音频帧,并确定m个音频帧的初始特征;其中,m为大于1的正整数;

14、根据m个音频帧的初始特征构建输入特征矩阵;

15、根据不同音频帧间的关联关系构建邻接矩阵,并基于邻接矩阵和输入特征矩阵进行图处理,得到与m个音频帧对应的m个目标特征;

16、基于m个目标特征进行语音检测,得到语音检测结果。

17、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

18、获取音频信号中的m个音频帧,并确定m个音频帧的初始特征;其中,m为大于1的正整数;

19、根据m个音频帧的初始特征构建输入特征矩阵;

20、根据不同音频帧间的关联关系构建邻接矩阵,并基于邻接矩阵和输入特征矩阵进行图处理,得到与m个音频帧对应的m个目标特征;

21、基于m个目标特征进行语音检测,得到语音检测结果。

22、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

23、获取音频信号中的m个音频帧,并确定m个音频帧的初始特征;其中,m为大于1的正整数;

24、根据m个音频帧的初始特征构建输入特征矩阵;

25、根据不同音频帧间的关联关系构建邻接矩阵,并基于邻接矩阵和输入特征矩阵进行图处理,得到与m个音频帧对应的m个目标特征;

26、基于m个目标特征进行语音检测,得到语音检测结果。

27、上述音频处理方法、装置、计算机设备、存储介质和计算机程序产品,通过获取音频信号中的m个音频帧,根据不同音频帧间的关联关系构建的邻接矩阵和m个音频帧的初始特征构建的输入特征矩阵进行图处理,得到与m个音频帧对应的m个目标特征。由于不同音频帧之间具有相关性,采用图处理的方法,m个目标特征均融合了所对应的音频帧自身的特征和相邻接的音频帧的特征,基于m个目标特征进行语音检测,能够提高语音检测结果的准确性。

技术特征:

1.一种音频处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述m个音频帧的初始特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述图处理包括图卷积处理;所述基于所述邻接矩阵和所述输入特征矩阵进行图处理,得到与所述m个音频帧对应的m个目标特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述m个目标特征进行语音检测,得到语音检测结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第一增强特征矩阵和所述规范化特征矩阵进行第二增强处理,得到第二增强特征矩阵,包括:

6.根据权利要求1所述的方法,其特征在于,所述图处理包括图注意力处理;所述基于所述邻接矩阵和所述输入特征矩阵进行图处理,得到与所述m个音频帧对应的m个目标特征,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述m个目标特征进行语音检测,得到语音检测结果,包括:

8.根据权利要求7所述的方法,其特征在于,所述根据由m个目标特征构成的第二输出特征矩阵进行第三增强处理,得到第三增强特征矩阵,包括:

9.一种音频处理装置,其特征在于,所述装置包括:

10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结本申请涉及一种音频处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取音频信号中的M个音频帧,并确定M个音频帧的初始特征;其中,M为大于1的正整数;根据M个音频帧的初始特征构建输入特征矩阵;根据不同音频帧间的关联关系构建邻接矩阵,并基于邻接矩阵和输入特征矩阵进行图处理,得到与M个音频帧对应的M个目标特征;基于M个目标特征进行语音检测,得到语音检测结果。采用本方法能够提高语音检测结果的准确性。技术研发人员:熊雪军受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/5/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/23780.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。