技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音乐文件识别方法及装置、设备和介质与流程 > 正文

一种音乐文件识别方法及装置、设备和介质与流程

国知局
2024-06-21 11:38:39

本发明涉及计算机，尤其涉及一种音乐文件识别方法及装置、设备和介质。

背景技术：

1、目前，大多数音乐应用可以通过音乐识别功能进行语音沟通或语音识别，但是其难以识别未知音乐文件，获取未知音乐文件的相关信息。

2、在相关技术中，虽然可以采用语音识别或者声纹比较方式对音乐进行识别，但是这些音乐识别方式主要是对音频特征进行简单提取，然后基于识别到的音频特征在互联网上搜索，导致音频识别效果比较差，且识别效率低下。

技术实现思路

1、根据本公开的一方面，提供了一种音乐文件识别方法，包括：

2、对待识别音乐文件包含的人声音频数据进行文本识别，确定所述待识别音乐文件的音频文本数据；

3、对所述待识别音乐文件包含的伴奏音频数据进行情感分析，获得所述待识别音乐文件的情感预测结果；

4、基于所述情感预测结果和所述音频文本数据，获取所述待识别音乐文件对应的目标音乐相关信息。

5、根据本公开的另一方面，提供了一种音乐文件识别装置，其特征在于，包括：

6、识别模块，用于对待识别音乐文件包含的人声音频数据进行文本识别，确定所述待识别音乐文件的音频文本数据，对所述待识别音乐文件包含的伴奏音频数据进行情感分析，获得所述待识别音乐文件的情感预测结果；

7、搜索模块，用于基于所述情感预测结果和所述音频文本数据，获取所述待识别音乐文件对应的目标音乐相关信息。

8、根据本公开的另一方面，提供了一种电子设备，包括：

9、处理器；以及，

10、存储程序的存储器；

11、其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开示例性实施例所述的方法。

12、根据本公开的另一方面，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据本公开示例性实施例所述的方法。

13、本公开示例性实施例中提供的一个或多个技术方案，可以对待识别音乐文件包含的人声音频数据进行文本识别，确定待识别音乐文件的音频文本数据，对待识别音乐文件包含的伴奏音频数据进行情感分析，获得待识别音乐文件的情感预测结果。在此基础上，基于情感预测结果和音频文本数据进行音乐信息搜索，从而获得待识别音乐文件对应的目标音乐相关信息。可见，本公开示例性实施例的方法只需要输入待识别音乐文件，就可以获取到待识别音乐文件对应的目标音乐相关信息，因此，本公开示例性实施例的方法可以适用于未知音乐的音乐相关信息搜索，填补了相关技术中音乐应用的技术空白。

14、另外，基于情感预测结果和音频文本数据进行音乐信息搜索，不仅可以缩小音乐信息的搜索范围，提高待识别音乐文件对应的音乐相关信息的搜索效率，还可以综合情感预测结果和音频文本数据两方面数据对音乐信息进行搜索，保证所搜索到的目标音乐相关信息的准确度。

技术特征：

1.一种音乐文件识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述待识别音乐文件的混合幅度谱，提取伴奏音频掩蔽信息和人声音频掩蔽信息，包括：

4.根据权利要求3所述的方法，其特征在于，第n级所述解码器的输入特征为第n-1级幅度解码特征和第n-n+1级编码器的输入特征确定的第一跳跃注意力特征，第n-n+1级编码器的输入端和第n-1级解码器的输出端均通过第一跳跃注意力模块与第n级解码器的输入端连接，n表示大于或等于2，且小于或等于n的整数；

5.根据权利要求3所述的方法，其特征在于，所述基于所述待识别音乐文件的混合幅度谱和第n级幅度谱解码特征，确定所述伴奏音频掩蔽信息和所述人声音频掩蔽信息，包括：

6.根据权利要求3所述的方法，其特征在于，至少一个所述编码器包括串接的m级下采样模块、m级上采样模块和空间注意力模块，m表示大于或等于1的整数；

7.根据权利要求1～6任一项所述的方法，其特征在于，所述对所述待识别音乐文件包含的伴奏音频数据进行情感分析，获得所述待识别音乐文件的情感预测结果，包括：

8.一种音乐文件识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据权利要求1～7中任一项所述的方法。

技术总结本公开提供一种音乐文件识别方法及装置、设备和介质，所述方法包括：对待识别音乐文件包含的人声音频数据进行文本识别，确定待识别音乐文件的音频文本数据，对待识别音乐文件包含的伴奏音频数据进行情感分析，获得待识别音乐文件的情感预测结果，基于情感预测结果和音频文本数据，获取目标音乐相关信息。所述方法可以填补音乐应用在音乐文件识别的空白，还可以提高音频识别效果和识别效率。技术研发人员：方晓胤受保护的技术使用者：咪咕音乐有限公司技术研发日：技术公布日：2024/3/24