人声音符识别模型的训练方法、人声音符识别方法及设备与流程

2023-05-03 06:25:33 来源：中国专利 TAG：

技术特征：
1.一种人声音符识别模型的训练方法，其特征在于，所述方法包括：获取至少一个标注人声音频、各个所述标注人声音频分别对应的人声音符标注结果、至少一个纯人声音频以及至少一个伴奏音频；基于所述标注人声音频、所述伴奏音频和所述标注人声音频对应的人声音符标注结果，对第一网络进行训练，得到训练后的第一网络；所述第一网络用于根据所述标注人声音频和所述伴奏音频的合成音频，输出所述标注人声音频对应的人声音符识别结果；基于所述训练后的第一网络、所述纯人声音频和所述伴奏音频，对第二网络进行训练，得到人声音符识别模型；所述第二网络用于根据所述纯人声音频和所述伴奏音频的合成音频，输出所述纯人声音频对应的人声音符识别结果。2.根据权利要求1所述的方法，其特征在于，所述基于所述标注人声音频、所述伴奏音频和所述标注人声音频对应的人声音符标注结果，对第一网络进行训练，得到训练后的第一网络，包括：采用所述伴奏音频与所述标注人声音频进行合成，得到所述标注人声音频对应的合成音频；基于所述标注人声音频对应的合成音频以及所述标注人声音频对应的人声音符标注结果，对所述第一网络进行训练，得到所述训练后的第一网络。3.根据权利要求2所述的方法，其特征在于，所述采用所述伴奏音频与所述标注人声音频进行合成，得到所述标注人声音频对应的合成音频，包括：从所述至少一个伴奏音频中随机选择伴奏音频作为目标伴奏音频；对所述标注人声音频进行数据增强处理，得到处理后的标注人声音频；其中，所述数据增强处理包括以下至少之一：添加混响、改变基频；将所述目标伴奏音频与所述处理后的标注人声音频进行合成，得到所述标注人声音频对应的合成音频。4.根据权利要求2所述的方法，其特征在于，所述基于所述标注人声音频对应的合成音频以及所述标注人声音频对应的人声音符标注结果，对所述第一网络进行训练，得到所述训练后的第一网络，包括：通过所述第一网络对所述标注人声音频对应的合成音频进行处理，得到所述标注人声音频对应的人声音符识别结果，作为人声音符第一识别结果；根据所述人声音符第一识别结果和所述人声音符标注结果，确定所述第一网络的损失函数值；根据所述第一网络的损失函数值，对所述第一网络的参数进行调整，得到所述训练后的第一网络。5.根据权利要求1所述的方法，其特征在于，所述基于所述训练后的第一网络、所述纯人声音频和所述伴奏音频，对第二网络进行训练，得到人声音符识别模型，包括：通过所述训练后的第一网络对所述纯人声音频进行处理，得到所述纯人声音频对应的人声音符识别结果，作为人声音符第二识别结果；将所述人声音符第二识别结果确定为所述纯人声音频对应的伪标签信息；采用所述伴奏音频与所述纯人声音频进行合成，得到所述纯人声音频对应的合成音频；
通过所述第二网络对所述纯人声音频对应的合成音频进行处理，得到所述纯人声音频对应的人声音符识别结果，作为人声音符第三识别结果；根据所述人声音符第三识别结果和所述伪标签信息，对所述第二网络进行训练，得到人声音符识别模型。6.根据权利要求5所述的方法，其特征在于，所述将所述人声音符第二识别结果确定为所述纯人声音频对应的伪标签信息，包括：提取所述纯人声音频的基频；根据所述纯人声音频的基频，对所述人声音符第二识别结果进行修正，得到所述纯人声音频对应的伪标签信息。7.根据权利要求6所述的方法，其特征在于，所述根据所述纯人声音频的基频，对所述人声音符第二识别结果进行修正，得到所述纯人声音频对应的伪标签信息，包括：对于所述人声音符第二识别结果中包含的每一个音符，计算所述音符与所述音符对应的发音位置的基频之间的音高差；若所述音高差大于第一阈值，则将所述音符的音高修正为所述音符对应的发音位置的基频的音高；若所述音高差小于或等于所述第一阈值，则保持所述音符的音高不变；将音高调整后的所述人声音符第二识别结果，确定为所述纯人声音频对应的伪标签信息。8.根据权利要求5所述的方法，其特征在于，所述根据所述人声音符第三识别结果和所述伪标签信息，对所述第二网络进行训练，得到人声音符识别模型，包括：根据所述人声音符第三识别结果和所述伪标签信息，确定所述第二网络的损失函数值；根据所述第二网络的损失函数值，对所述第二网络的参数进行调整，得到所述人声音符识别模型。9.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述第二网络未满足停止训练条件的情况下，将训练后的第二网络确定为所述训练后的第一网络，并再次从所述基于所述训练后的第一网络、所述纯人声音频和所述伴奏音频，对第二网络进行训练的步骤开始执行。10.根据权利要求1所述的方法，其特征在于，所述获取至少一个标注人声音频、各个所述标注人声音频分别对应的人声音符标注结果、至少一个纯人声音频以及至少一个伴奏音频，包括：获取至少一个无伴奏的清唱音频、各个所述清唱音频分别对应的人声音符标注结果，以及至少一个带伴奏的歌曲音频；根据所述清唱音频以及所述清唱音频对应的人声音符标注结果，生成所述标注人声音频以及所述标注人声音频对应的人声音符标注结果；对所述歌曲音频进行人声分离操作，得到人声音频和所述伴奏音频；根据所述人声音频，生成所述纯人声音频。11.根据权利要求10所述的方法，其特征在于，所述根据所述清唱音频以及所述清唱音频对应的人声音符标注结果，生成所述标注人声音频以及所述标注人声音频对应的人声音
符标注结果，包括：对所述清唱音频进行检测，得到所述清唱音频中的静音部分和清音部分；将所述清唱音频确定为所述标注人声音频；从所述清唱音频对应的人声音符标注结果中，删除所述静音部分对应的人声音符标注结果和所述清音部分对应的人声音符标注结果，生成所述标注人声音频对应的人声音符标注结果。12.根据权利要求10所述的方法，其特征在于，所述根据所述人声音频，生成所述纯人声音频，包括：对所述人声音频进行检测，得到所述人声音频中的非人声部分；删除所述人声音频中的所述非人声部分，生成纯人声音频；对所述纯人声音频中的每一个音频帧，检测所述音频帧是否为人声音频帧，并计算所述音频帧的能量；若所述音频帧不是所述人声音频帧，且所述音频帧的能量小于第二阈值，则将所述音频帧确定为无效帧；若所述纯人声音频中的无效帧数量在所述纯人声音频包含的音频帧总数中的占比大于第三阈值，则将所述纯人声音频确定为无效纯人声音频；根据除所述无效纯人声音频之外的纯人声音频，生成所述纯人声音频。13.一种人声音符识别方法，其特征在于，所述方法包括：获取带伴奏的目标音频，所述目标音频中包含人声和伴奏；获取所述目标音频的音频特征，所述音频特征包括所述目标音频在时频域上相关的特征；通过人声音符识别模型对所述音频特征进行处理，得到所述目标音频的音符特征，所述音符特征包括与所述目标音频的人声音符相关的特征；通过所述人声音符识别模型对所述音符特征进行处理，得到所述目标音频的人声音符序列；其中，所述人声音符识别模型是基于训练后的第一网络、纯人声音频和伴奏音频，对第二网络进行训练得到的；所述第一网络用于根据标注人声音频和所述伴奏音频的合成音频，输出所述标注人声音频对应的人声音符识别结果；所述第二网络用于根据所述纯人声音频和所述伴奏音频的合成音频，输出所述纯人声音频对应的人声音符识别结果。14.根据权利要求13所述的方法，其特征在于，所述通过所述人声音符识别模型根据所述音频特征，提取所述目标音频的音符特征，包括：对于所述目标音频包含的每个音频帧，通过所述人声音符识别模型对所述音频帧的音频特征，和所述音频帧的音频特征的上下文信息进行处理，得到所述音频帧对应的第一中间特征；根据所述音频帧对应的第一中间特征，提取所述音频帧对应的第二中间特征；根据所述音频帧对应的第二中间特征，和所述音频帧对应的第二中间特征的上下文信息，得到所述音频帧对应的音符特征；其中，所述目标音频的音符特征包括所述目标音频包含的各个音频帧分别对应的音符特征。
15.根据权利要求13所述的方法，其特征在于，所述获取所述目标音频的音频特征，包括：对所述目标音频进行时频变换，得到所述目标音频的频域特征；对所述频域特征进行滤波处理，得到所述目标音频的音频特征。16.根据权利要求13所述的方法，其特征在于，所述通过所述人声音符识别模型根据所述音符特征，得到所述目标音频的人声音符序列，包括：通过所述人声音符识别模型对所述目标音频的音符特征进行分类处理，得到所述目标音频的人声音符序列。17.根据权利要求13所述的方法，其特征在于，所述人声音符识别模型包括：输入层、中间层和输出层；所述输入层用于输入所述目标音频的音频特征；所述中间层用于根据所述音频特征，提取所述目标音频的音符特征；所述输出层用于根据所述音符特征，得到所述目标音频的人声音符序列。18.一种人声音符识别模型的训练装置，其特征在于，所述装置包括：样本获取模块，用于获取至少一个标注人声音频、各个所述标注人声音频分别对应的人声音符标注结果、至少一个纯人声音频以及至少一个伴奏音频；第一网络训练模块，用于基于所述标注人声音频、所述伴奏音频和所述标注人声音频对应的人声音符标注结果，对第一网络进行训练，得到训练后的第一网络；所述第一网络用于根据所述标注人声音频和所述伴奏音频的合成音频，输出所述标注人声音频对应的人声音符识别结果；第二网络训练模块，用于基于所述训练后的第一网络、所述纯人声音频和所述伴奏音频，对第二网络进行训练，得到人声音符识别模型；所述第二网络用于根据所述纯人声音频和所述伴奏音频的合成音频，输出所述纯人声音频对应的人声音符识别结果。19.一种人声音符识别装置，其特征在于，所述装置包括：音频获取模块，用于获取带伴奏的目标音频，所述目标音频中包含人声和伴奏；特征获取模块，用于获取所述目标音频的音频特征，所述音频特征包括所述目标音频在时频域上相关的特征；特征提取模块，用于通过人声音符识别模型对所述音频特征进行处理，得到所述目标音频的音符特征，所述音符特征包括与所述目标音频的人声音符相关的特征；结果得到模块，用于通过所述人声音符识别模型对所述音符特征进行处理，得到所述目标音频的人声音符序列；其中，所述人声音符识别模型是基于训练后的第一网络、纯人声音频和伴奏音频，对第二网络进行训练得到的；所述第一网络用于根据标注人声音频和所述伴奏音频的合成音频，输出所述标注人声音频对应的人声音符识别结果；所述第二网络用于根据所述纯人声音频和所述伴奏音频的合成音频，输出所述纯人声音频对应的人声音符识别结果。20.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如权利要求1至12任一项所述的方法，或者实现如权利要求13至17任一项所述的方法。21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机
程序，所述计算机程序用于被处理器执行，以实现如权利要求1至12任一项所述的方法，或者实现如权利要求13至17任一项所述的方法。22.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机程序，以实现如权利要求1至12任一项所述的方法，或者实现如权利要求13至17任一项所述的方法。

技术总结
一种人声音符识别模型的训练方法、人声音符识别方法及设备，涉及人工智能技术领域。上述方法包括：获取至少一个标注人声音频、各个标注人声音频分别对应的人声音符标注结果、至少一个纯人声音频以及至少一个伴奏音频；基于标注人声音频、伴奏音频和标注人声音频对应的人声音符标注结果，对第一网络进行训练，得到训练后的第一网络；基于训练后的第一网络、纯人声音频和伴奏音频，对第二网络进行训练，得到人声音符识别模型。得到的人声音符识别模型，无需调用人声伴奏分离算法，降低了人声音符识别的计算复杂度。符识别的计算复杂度。符识别的计算复杂度。

技术研发人员：罗程方万景轩陈传艺
受保护的技术使用者：广州酷狗计算机科技有限公司
技术研发日：2022.11.16
技术公布日：2023/4/29

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于音频渲染的预渲染信号的方法、设备和系统与流程

人声音符识别模型的训练方法、人声音符识别方法及设备与流程

最热文献