音频信号内容分析方法、装置、设备及存储介质
- 国知局
- 2024-06-21 11:30:02
本申请属于人工智能,具体涉及一种音频信号内容分析方法、装置、设备及存储介质。
背景技术:
1、目前,音频信号能在日常生活中给提供给我们丰富的信息。而音频信号内容分析是一项让机器能够像人一样准确感受音频信号内容的任务,也是通向通用人工智能的关键一步,使机器具有像人一样的听觉感知能力。在日常生活中,有着极大的应用前景,例如,可以帮助残障人士更加自然的融入社会、作为生活助手提醒用户等。
2、目前,可以基于深度学习模型通过编码器来封装多模态信号,并使用解码器来生成有关该信号的语句。
3、由于音频信号的模糊性和语言表征的复杂性,人们对音频内容的描述更加多样化,目前的音频信号内容分析方法虽然可以生成比较准确的语句,但生成的语句比较单一。
技术实现思路
1、本申请提出一种音频信号内容分析方法、装置、设备及存储介质,能够解决当前基于音频信号生成的文字语句比较单一的技术问题。
2、本申请第一方面实施例提出了一种音频信号内容分析方法,包括:
3、获取待处理的目标音频信号的目标音频特征;
4、基于目标嵌入特征和所述目标音频特征,确定当前时间步的特征概率分布,所述目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者所述目标音频信号的预设词嵌入特征;
5、基于所述特征概率分布从所述特征概率分布中通过重采样操作选取所述当前时间步的目标潜在特征;
6、基于多个时间步的目标潜在特征和所述目标音频特征,生成所述目标音频信号对应的目标描述信息。
7、本申请第二方面的实施例提供了一种音频信号内容分析装置,包括:
8、获取模块,用于获取待处理的目标音频信号的目标音频特征;
9、确定模块,用于基于目标嵌入特征和所述目标音频特征,确定当前时间步的特征概率分布,所述目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者所述目标音频信号的预设词嵌入特征;
10、选取模块,用于基于所述特征概率分布从所述特征概率分布中通过重采样操作选取所述当前时间步的目标潜在特征;
11、生成模块,用于基于多个时间步的目标潜在特征和所述目标音频特征,生成所述目标音频信号对应的目标描述信息。
12、本申请第三方面的实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序以实现上述第一方面所述的方法。
13、本申请第四方面的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述第一方面所述的方法。
14、本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
15、在本申请实施例中,首先获取待处理的目标音频信号的目标音频特征,进一步通过目标嵌入特征与目标音频特征与目标音频特征,得到当前时间步的特征概率分布,目标嵌入特征为上一时间步的原始词嵌入特征或者样本音频信号的预设词嵌入特征,由于在确定特征概率分布的过程中加入目标嵌入特征,可以有效提高特征概率分布的准确性,并且由于每一次的文字生成过程都会基于特征概率分布从特征概率分布中重新采样出当前时间步的目标潜在特征,可以实现不会每次音频信号内容分析过程中的同一时间步均基于同一目标潜在特征生成对应的描述词,从而在保证生成目标描述信息准确性的前提下,可以基于同一音频信号生成不同的目标描述信息。
16、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变的明显,或通过本申请的实践了解到。
技术特征:1.一种音频信号内容分析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于目标嵌入特征和所述目标音频特征,确定当前时间步的特征概率分布,包括:
3.根据权利要求2所述的方法,其特征在于,所述音频信号内容分析模型还包括:语言解码模型和文字编排模型,所述基于多个时间步的目标词潜在特征和所述目标音频特征,生成所述目标音频信号对应的目标描述信息,包括:
4.根据权利要求2所述的方法,其特征在于,所述音频信号内容分析模型预先通过训练得到,所述音频信号内容分析模型的训练过程包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述样本音频特征和所述多个标签词嵌入特征输入所述初始音频信号内容分析模型后验模型以及将样本嵌入特征和所述样本音频特征输入所述初始音频信号内容分析模型初始先验模型,计算得到第一损失函数值,包括:
6.根据权利要求5所述的方法,其特征在于,所述第一输出结果为当前时间步的样本后验概率分布,所述基于将所述样本音频特征和所述多个标签词入特征输入所述初始先验模型得到的第一输出结果和所述初始音频信号内容分析模型的初始语言解码模型,计算得到第二损失函数值,包括:
7.根据权利要求6所述的方法,其特征在于,所述第二输出结果为当前时间步的样本描述词,所述基于将所述第一结果输入所述初始语言解码模型的第二输出结果和所述初始音频信号内容分析模型的文字编排模型,计算得到第三损失函数值,包括:
8.一种音频信号内容分析装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
技术总结本申请提出一种音频信号内容分析方法、设备及存储介质,该方法包括:获取待处理的目标音频信号的目标音频特征;基于目标嵌入特征和目标音频特征,确定当前时间步的特征概率分布,目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征;基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征;基于多个时间步的目标词潜在特征和目标音频特征,生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。技术研发人员:马占宇,张益铭,杜若一,梁孔明受保护的技术使用者:北京邮电大学技术研发日:技术公布日:2024/2/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21878.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
双共鸣箱的箜篌的制作方法
下一篇
返回列表