技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频分析方法和装置、存储介质及电子设备与流程 > 正文

音频分析方法和装置、存储介质及电子设备与流程

国知局
2024-06-21 11:37:28

本技术涉及语言模型领域，具体而言，涉及一种音频分析方法和装置、存储介质及电子设备。

背景技术：

1、目前，针对音频模态的大语言模型适配技术主要通过使用神经网络模型以及transformer模型等模型对音频表征序列进行变换分析，大语言模型的各项语音处理功能例如语音识别、情感分析等功能所需要分析的音频特征尺度是不同的，而现有技术通常仅提取音频的局部表征或仅提取全局表征，因此仅能基于单一尺度分析音频特征，从而导致大语言模型缺乏同时处理多项任务的能力。

2、针对相关技术中，大语言模型仅能基于单一尺度分析音频的问题，尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种音频分析方法和装置、存储介质及电子设备，以至少解决相关技术中，大语言模型仅能基于单一尺度分析音频的问题。

2、根据本技术实施例的一个实施例，提供了一种音频分析方法，包括：获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；通过查询变换器模型提取所述音频特征序列的多尺度语义特征；将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

3、在一个示例性实施例中，通过音频编码器提取所述音频特征在不同层次的音频特征序列之前，所述方法还包括：确定所述音频编码器的类型；根据所述音频编码器的类型确定所述音频编码器的训练尺度大小；选择与所述训练尺度大小对应的训练任务对所述音频编码器进行训练。

4、在一个示例性实施例中，通过音频编码器提取所述音频特征在不同层次的音频特征序列，包括：确定所述音频编码器待提取的音频特征的目标层次，其中，所述目标层次包括：至少三个不同的层次；提取所述音频特征在所述至少三个不同的层次的隐层特征；将所述音频特征在所述至少三个不同的层次的隐层特征确定为所述音频特征序列。

5、在一个示例性实施例中，通过查询变换器模型提取所述音频特征序列的多尺度语义特征，包括：确定所述查询变换器模型需要从所述音频特征序列中提取的语义特征对应的尺度大小；根据所述尺度大小对所述查询变换器模型的模型参数进行配置；通过配置模型参数后的查询变换器模型提取所述音频特征序列的多尺度语义特征。

6、在一个示例性实施例中，根据所述尺度大小对所述查询变换器模型的模型参数进行配置，包括：在确定从所述音频特征序列中提取第一尺度的语义特征的情况下，将第一查询令牌数确定为所述模型参数包括的查询令牌数，将第一编码层数确定为所述模型参数包括的编码层数，将第一输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的低层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第二尺度的语义特征的情况下，将第二查询令牌数确定为所述模型参数包括的查询令牌数，将第二编码层数确定为所述模型参数包括的编码层数，将第二输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的中层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第三尺度的语义特征的情况下，将第三查询令牌数确定为所述模型参数包括的查询令牌数，将第三编码层数确定为所述模型参数包括的编码层数，将第三输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的高层特征确定为所述模型参数包括的输入特征，其中，所述第二尺度大于所述第一尺度且小于所述第三尺度，所述第二查询令牌数大于所述第一查询令牌数且小于所述第三查询令牌数，所述第二编码层数大于所述第一编码层数且小于所述第三编码层数，所述第二输入窗长大于所述第一输入窗长且小于所述第三输入窗长。

7、在一个示例性实施例中，将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果，包括：确定所述大语言模型的模型输入内容对应的输入格式，其中，所述模型输入内容至少包括语义特征和任务指令；将所述多尺度语义特征中每一种尺度下的语义特征拼接成语义特征序列；根据所述输入格式将所述语义特征序列与任务指令进行拼接得到所述模型输入内容；将所述模型输入内容输入所述大语言模型，得到所述待分析音频的分析结果。

8、在一个示例性实施例中，获取待分析音频中局部平稳的音频特征，包括：将所述待分析音频分割为多个短时音频片段；针对所述多个短时音频片段中的每一个短时音频片段进行傅里叶变换得到所述每一个短时音频片段的频谱信息；在所述频谱信息符合预设频谱信息的情况下，获取所述频谱信息对应的短时音频片段的音频特征。

9、根据本技术实施例的另一个实施例，还提供了一种音频分析装置，包括：音频特征提取模块，用于获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；语义特征提取模块，用于通过查询变换器模型提取所述音频特征序列的多尺度语义特征；分析结果获取模块，用于将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

10、在一个示例性实施例中，上述音频特征提取模块还用于：确定所述音频编码器的类型；根据所述音频编码器的类型确定所述音频编码器的训练尺度大小；选择与所述训练尺度大小对应的训练任务对所述音频编码器进行训练。

11、在一个示例性实施例中，上述音频特征提取模块还用于：确定所述音频编码器待提取的音频特征的目标层次，其中，所述目标层次包括：至少三个不同的层次；提取所述音频特征在所述至少三个不同的层次的隐层特征；将所述音频特征在所述至少三个不同的层次的隐层特征确定为所述音频特征序列。

12、在一个示例性实施例中，上述语义特征提取模块还包括：确定单元，用于确定所述查询变换器模型需要从所述音频特征序列中提取的语义特征对应的尺度大小；配置单元，用于根据所述尺度大小对所述查询变换器模型的模型参数进行配置；提取单元，用于通过配置模型参数后的查询变换器模型提取所述音频特征序列的多尺度语义特征。

13、在一个示例性实施例中，上述配置单元还用于：在确定从所述音频特征序列中提取第一尺度的语义特征的情况下，将第一查询令牌数确定为所述模型参数包括的查询令牌数，将第一编码层数确定为所述模型参数包括的编码层数，将第一输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的低层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第二尺度的语义特征的情况下，将第二查询令牌数确定为所述模型参数包括的查询令牌数，将第二编码层数确定为所述模型参数包括的编码层数，将第二输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的中层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第三尺度的语义特征的情况下，将第三查询令牌数确定为所述模型参数包括的查询令牌数，将第三编码层数确定为所述模型参数包括的编码层数，将第三输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的高层特征确定为所述模型参数包括的输入特征，其中，所述第二尺度大于所述第一尺度且小于所述第三尺度，所述第二查询令牌数大于所述第一查询令牌数且小于所述第三查询令牌数，所述第二编码层数大于所述第一编码层数且小于所述第三编码层数，所述第二输入窗长大于所述第一输入窗长且小于所述第三输入窗长。

14、在一个示例性实施例中，上述分析结果获取模块还用于：确定所述大语言模型的模型输入内容对应的输入格式，其中，所述模型输入内容至少包括语义特征和任务指令；将所述多尺度语义特征中每一种尺度下的语义特征拼接成语义特征序列；根据所述输入格式将所述语义特征序列与任务指令进行拼接得到所述模型输入内容；将所述模型输入内容输入所述大语言模型，得到所述待分析音频的分析结果。

15、在一个示例性实施例中，上述音频特征提取模块还用于：将所述待分析音频分割为多个短时音频片段；针对所述多个短时音频片段中的每一个短时音频片段进行傅里叶变换得到所述每一个短时音频片段的频谱信息；在所述频谱信息符合预设频谱信息的情况下，获取所述频谱信息对应的短时音频片段的音频特征。

16、根据本技术实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频分析方法。

17、根据本技术实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的音频分析方法。

18、在本技术实施例中，通过音频编码器提取待分析音频在不同层次的音频特征，进而通过查询变换器模型从音频特征中提取不同尺度语义特征，将不同尺度语义特征和任务指令输入大语言模型得到音频分析结果。采用上述技术方案，解决了大语言模型仅能基于单一尺度分析音频的问题，进而实现了提升大语言模型音频分析能力的效果。