技术新讯 > 电子通信装置的制造及其应用技术 > 基于音频识别的分类播放方法、音响、设备及可存储介质与流程 > 正文

基于音频识别的分类播放方法、音响、设备及可存储介质与流程

国知局
2024-11-21 11:37:34

本发明音频检测，尤其涉及一种基于音频识别的分类播放方法、音响、设备及可存储介质。

背景技术：

1、在现有技术中，当手机、电脑或其他智能设备在不同场景下播放音频，可以选择不同的播放模式，以取得更好的听觉效果，比如看电影时选择电影模式，玩游戏时选择游戏模式，在听歌时选择音乐模式。这些播放模式需要人们手动切换，十分不便。

2、以及，即使在播放模式锁定在音乐后，由于不同音乐具有不同流派、不同风格，人们在播放音乐时，可以选择该音乐对应的播放音效，如流行音乐对应流行音乐的均衡器和室内响度，摇滚对应摇滚均衡器和现场响度，然后使得音响以对应播放音效进行音乐播放，这样音乐中的人声、音高会更加精准，所播放的音乐会更加动听。这样同样需要人工手动选择，十分不方便。

技术实现思路

1、鉴于以上技术问题，本发明提供了一种基于音频识别的分类播放方法、音响、设备及可存储介质，以解决现有技术中音频播放中遇到的问题。

2、本公开的其他特征和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

3、根据本发明的一方面，公开一种基于音频识别的分类播放方法，所述方法运行于音响设备、计算机或移动设备中，所述方法包括：

4、获取音频信息；

5、基于cnn网络、长短期记忆网络、多模态紧凑双线性池化和分类器构成的检测模型，在训练后对所述音频信息进行分类，其中，在分类时仅将所述音频信息的梅尔频谱作为输入，通过所述cnn网络的堆叠的卷积池化层提取音频特征，将注意力机制和所述长短期记忆网络结合，在所述音频信息存在歌词时，提取所述歌词中的重要字词，形成歌词特征，在所述音频信息无歌词时，形成预设的填充特征，利用所述多模态紧凑双线性池化，将所述歌词特征与所述音频特征连接，或将所述填充特征与所述音频特征连接，得到组合特征，并将所述组合特征输入到由全连接层和softmax函数组成的所述分类器中，得到所述音频信息的分类结果；

6、根据所述分类结果，为所述音频信息匹配对应的播放模式，并使得扬声器在播放所述音频信息时切换至所述播放模式，所述播放模式包括音乐、电影、人声、运动、游戏、节日的一种，以及在所述播放模式为音乐时，根据所述分类结果所确定音乐流派，选择对应的均衡器播放效果。

7、进一步的，在提取所述音频特征前，选取所述音频信息的n秒的中间片段，生成所述中间片段的所述梅尔频谱，且所述梅尔频谱被分为多个窗口，每相邻的两个窗口之间有50％的重叠。

8、进一步的，在提取所述歌词特征时，具体包括：

9、对所述歌词进行分词，形成以热向量表示的字词集合；

10、将所述字词集合中的每个字词嵌入到向量空间中；

11、基于长短期记忆网络，提取所述向量空间的每个字词的高级特征，并根据所述歌词中的每个字词对音乐流派分类的影响，使用注意力机制为每个字词分配不同的权重；

12、使用加权和计算每个加权后的字词的高级特征的关注特征，得到所述歌词特征。

13、进一步的，所述利用所述多模态紧凑双线性池化，将所述歌词特征与所述音频特征连接，包括：

14、基于计数草图投影函数，将分别所述歌词特征和所述音频特征投影到低维表示中；

15、计算投影后的所述歌词特征和所述音频特征的卷积，得到代表着不同模态交互的所述组合特征。

16、进一步的，在根据所述组合特征进行分类时，具体包括：

17、通过所述全连接层对所述组合特征进行处理，并通过softmax函数处理所述全连接层的输出，将所述全连接层的输出转换为概率分布，得到所述音频信息在每个所述播放模式上的概率以及在音乐模式上的音乐流派的概率，以得到所述分类结果。

18、根据本公开的第二方面，提供一种基于音频识别的分类播放音响，所述音响包括扬声器，还包括：采集模块，用于获取音频信息；分类模块，用于基于cnn网络、长短期记忆网络、多模态紧凑双线性池化和分类器构成的检测模型，在训练后对所述音频信息进行分类，其中，在分类时仅将所述音频信息的梅尔频谱作为输入，通过所述cnn网络的堆叠的卷积池化层提取音频特征，将注意力机制和所述长短期记忆网络结合，在所述音频信息存在歌词时，提取所述歌词中的重要字词，形成歌词特征，在所述音频信息无歌词时，形成预设的填充特征，利用所述多模态紧凑双线性池化，将所述歌词特征与所述音频特征连接，或将所述填充特征与所述音频特征连接，得到组合特征，并将所述组合特征输入到由全连接层和softmax函数组成的所述分类器中，得到所述音频信息的分类结果；播放切换模块，用于根据所述分类结果，为所述音频信息匹配对应的播放模式，并使得扬声器在播放所述音频信息时切换至所述播放模式，所述播放模式包括音乐、电影、人声、运动、游戏、节日的一种，以及在所述播放模式为音乐时，根据所述分类结果所确定音乐流派，选择对应的均衡器播放效果。

19、根据本公开的第三方面，提供一种基于音频识别的分类播放设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器实现如上述的基于音频识别的分类播放方法；

20、根据本公开的第四方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于音频识别的分类播放方法。

21、本公开的技术方案具有以下有益效果：

22、本公开可以在计算机或手机上执行，自动识别音频的类型，然后对当前的播放任务中的音频的播放模式进行软件上的切换，从而无人手动选择播放模式；也可以是直接在音响，对音响当前播放的音频进行识别，根据识别结果改变音响的播放模式，达到兼容性高、方便使用、提高产品体验的效果。

23、将音频和歌词两种模态结合起来，可以提高识别的结果；基于双线性池化实现音频和歌词特征的所有元素的交互，同时可以避免过拟合和高计算量。

技术特征：

1.一种基于音频识别的分类播放方法，其特征在于，所述方法运行于音响设备、计算机或移动设备中，所述方法包括：

2.根据权利要求1所述的一种基于音频识别的分类播放方法，其特征在于，在提取所述音频特征前，选取所述音频信息的n秒的中间片段，生成所述中间片段的所述梅尔频谱，且所述梅尔频谱被分为多个窗口，每相邻的两个窗口之间有50％的重叠。

3.根据权利要求1所述的一种基于音频识别的分类播放方法，其特征在于，在提取所述歌词特征时，具体包括：

4.根据权利要求1所述的一种基于音频识别的分类播放方法，其特征在于，所述利用所述多模态紧凑双线性池化，将所述歌词特征与所述音频特征连接，包括：

5.根据权利要求1所述的一种基于音频识别的分类播放方法，其特征在于，在根据所述组合特征进行分类时，具体包括：

6.一种基于音频识别的分类播放音响，其特征在于，所述音响包括扬声器，还包括：

7.一种基于音频识别的分类播放设备，其特征在于，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于音频识别的分类播放方法。

技术总结本发明属于音频检测技术领域，提供了一种基于音频识别的分类播放方法、音响、设备及可存储介质。方法包括：获取音频信息；基于CNN网络、长短期记忆网络、多模态紧凑双线性池化和分类器构成的检测模型，对音频信息进行分类；根据分类结果，为音频信息匹配对应的播放模式，并使得扬声器在播放音频信息时切换至播放模式，播放模式包括音乐、电影、人声、运动、游戏、节日的一种，以及在播放模式为音乐时，根据分类结果所确定音乐流派，选择对应的均衡器播放效果；本发明可以解决现有技术中音频播放中遇到的问题。技术研发人员：彭子源,甄亮受保护的技术使用者：惠州中哲尚蓝柏科技有限公司技术研发日：技术公布日：2024/11/18