目标音频识别模型的确定方法、装置及计算设备与流程
- 国知局
- 2024-06-21 11:28:49
本技术涉及计算机,特别涉及一种目标音频识别模型的确定方法和装置、计算设备、计算机可读存储介质及计算机程序产品。
背景技术:
1、随着网络技术的普及和发展,短视频、直播等音视频应用开始越发流行,这导致每天都会产生海量的音频、视频等。在这些音频、视频中,可能存在部分违规音频、视频。为了净化网络环境,通常需要对音频和视频进行人工审核。由于音频、视频数量庞大且内容各异,因此针对音视频的审核通常耗时耗力。特别是针对包含违规音频的音频、视频,更是需要审核人员从头听到尾,才能进行准确的辨别,这进一步增大了审核难度。为此,本领域技术人员一直希望提出一种音频识别模型,能够快速、准确地自动识别出违规音频或者包含违规音频的视频,以实现对违规音频或违规视频的快速发现。
技术实现思路
1、鉴于此,本技术提供了一种目标音频识别模型的确定方法和装置、计算设备、计算机可读存储介质及计算机程序产品,期望缓解或克服上面提到的部分或全部缺陷以及其他可能的缺陷。
2、根据本技术的一个方面,提供了一种目标音频识别模型的确定方法,包括:获取初始音频识别模型,初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到,初始训练样本集包括多个训练样本,每个训练样本包括一个音频样本和对应的第一标签,一个音频样本对应的第一标签被设置为表明一个音频样本是目标类型的音频;以初始音频识别模型为当前分类模型,对当前分类模型执行调整步骤组以确定目标音频识别模型,用于识别目标类型的音频;其中,调整步骤组包括迭代执行获取步骤、确定步骤、训练步骤和验证步骤。获取步骤包括:获取多个测试音频样本,利用当前分类模型对测试音频样本进行分类以确定测试音频样本对应的分类结果,分类结果包括:是目标类型的音频或不是目标类型的音频。确定步骤包括:确定调整训练样本集,调整训练样本集包含多个调整样本,每个调整样本包含被当前分类模型分类为目标类型的音频的测试音频样本及测试音频样本对应的第二标签,第二标签表明测试音频样本实际上是否是目标类型的音频。训练步骤包括:以调整样本的测试音频样本作为输入,调整样本的第二标签作为预期分类结果,利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型。验证步骤包括:验证中间音频识别模型用于识别目标类型的音频的准确度,响应于准确度小于预定准确度阈值,将中间音频识别模型确定为当前分类模型并转到获取步骤;响应于准确度大于或等于预定准确度阈值,确定中间音频识别模型是目标音频识别模型。
3、根据本技术的另一方面,提供了一种目标音频识别模型的确定装置,目标音频识别模型的确定装置包括:获取模块,其被配置成获取初始音频识别模型,初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到,初始训练样本集包括多个训练样本,每个训练样本包括一个音频样本和对应的第一标签,一个音频样本对应的第一标签被设置为表明一个音频样本是目标类型的音频;调整模块,其被配置成以初始音频识别模型为当前分类模型,对当前分类模型执行调整步骤组以确定目标音频识别模型,用于识别目标类型的音频。调整步骤组包括迭代执行获取步骤、确定步骤、训练步骤和验证步骤。获取步骤包括:获取多个测试音频样本,利用当前分类模型对测试音频样本进行分类以确定测试音频样本对应的分类结果。分类结果包括:是目标类型的音频或不是目标类型的音频。确定步骤包括:确定调整训练样本集,调整训练样本集包含多个调整样本,每个调整样本包含被当前分类模型分类为目标类型的音频的测试音频样本及测试音频样本对应的第二标签,第二标签表明测试音频样本实际上是否是目标类型的音频;训练步骤包括:以调整样本的测试音频样本作为输入,调整样本的第二标签作为预期分类结果,利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型。验证步骤包括:验证中间音频识别模型用于识别目标类型的音频的准确度,响应于准确度小于预定准确度阈值,将中间音频识别模型确定为当前分类模型并转到获取步骤;响应于准确度大于或等于预定准确度阈值,确定中间音频识别模型是目标音频识别模型。
4、在根据本技术的一些实施例的目标音频识别模型的确定装置中,初始训练样本集通过如下步骤得到:获取候选样本集,候选样本集包含多个音频样本;利用第一分类模型对候选样本集中的每个音频样本进行分类,第一分类模型将音频样本分为第一类音频样本和非第一类音频样本,第一类音频样本包括噪声音频样本或无声音频样本;利用第二分类模型对候选样本集中的每个音频样本进行分类,第二分类模型将音频样本分为第二类音频样本和非第二类音频样本,第二类音频样本包括讲话音频样本;利用第三分类模型对候选样本集中的每个音频样本进行分类,第三分类模型将音频样本分为第三类音频样本和非第三类音频样本,第三类音频样本包括音乐背景音样本;利用第四分类模型对候选样本集中的每个音频样本进行分类,第四分类模型将音频样本分为第四类音频样本和非第四类音频样本,第四类音频样本包括唱歌音频样本;以及,去除获取候选样本集中的第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本,将去除第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本后的候选样本集确定为初始训练样本集。
5、在根据本技术的一些实施例的目标音频识别模型的确定装置中,获取初始音频识别模型包括:将训练样本的音频样本输入初始分类模型,得到初始分类模型对训练样本的音频样本的分类结果,分类结果包括:是目标类型的音频或不是目标类型的音频;将分类结果与训练样本的第一标签进行对比,得到训练样本的第一差异;基于训练样本集中每个训练样本的第一差异计算初始分类模型的第一损失;以及,调整初始分类模型的参数直到初始分类模型的第一损失最小化,将最小化的第一损失对应的初始分类模型确定为初始音频识别模型。
6、在根据本技术的一些实施例的目标音频识别模型的确定装置中,在训练步骤中,利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型包括:将调整样本的音频样本输入当前分类模型,得到当前分类模型对调整样本的音频样本的分类结果,分类结果包括:调整样本的音频样本是目标类型的音频或调整样本的音频样本不是目标类型的音频;将分类结果与调整样本的第二标签进行对比,得到调整样本的第二差异;基于调整训练样本集中每个调整样本的第二差异计算当前分类模型的第二损失;以及,调整当前分类模型的参数直到当前分类模型的第二损失最小化,将最小化的第二损失对应的当前分类模型确定为中间音频识别模型。
7、在根据本技术的一些实施例的目标音频识别模型的确定装置中,调整样本的第二标签通过第二标签确定步骤得到,第二标签确定步骤包括:以预定时长对调整样本的测试音频样本进行节选,得到测试音频样本对应的节选音频样本,预定时长小于测试音频样本的时长;响应于节选音频样本是目标类型的音频,将第二标签设置为表明测试音频样本实际上是目标类型的音频;以及,响应于节选音频样本不是目标类型的音频,将第二标签设置为表明测试音频样本实际上不是目标类型的音频。
8、在根据本技术的一些实施例的目标音频识别模型的确定装置中,确定节选音频样本是否是目标类型的音频包括:确定节选音频样本中的任一音频帧是否是目标类型的音频;响应于节选音频样本中的任一音频帧是目标类型的音频,确定节选音频样本是目标类型的音频;以及,响应于节选音频样本中没有音频帧是目标类型的音频,确定节选音频样本不是目标类型的音频。
9、在根据本技术的一些实施例的目标音频识别模型的确定装置中,将调整样本的音频样本输入当前分类模型,得到当前分类模型对调整样本的音频样本的分类结果包括:对调整样本的音频样本的部分音频帧进行遮挡操作,以便仅留下音频样本对应的节选样本的音频帧未被遮挡;以及,将经遮挡操作的调整样本的音频样本输入当前分类模型,使得当前分类模型根据输入的音频样本中未被遮挡的音频帧确定音频样本的分类结果。
10、在根据本技术的一些实施例的目标音频识别模型的确定装置中,将分类结果与调整样本的第二标签进行对比,得到调整样本的第二差异包括:响应于分类结果是目标类型的音频且调整样本的第二标签表明测试音频样本实际上是目标类型的音频,确定调整样本的第二差异是0;响应于分类结果是目标类型的音频且调整样本的第二标签表明测试音频样本实际上不是目标类型的音频,确定调整样本的第二差异是1;响应于分类结果不是目标类型的音频且调整样本的第二标签表明测试音频样本实际上是目标类型的音频,确定调整样本的第二差异是1;以及,响应于分类结果不是目标类型的音频且调整样本的第二标签表明测试音频样本实际上不是目标类型的音频,确定调整样本的第二差异是0。
11、在根据本技术的一些实施例的目标音频识别模型的确定装置中,基于调整训练样本集中每个调整样本的第二差异计算当前分类模型的第二损失包括:对调整训练样本集中所有调整样本的第二差异进行叠加,将叠加结果确定为当前分类模型的第二损失。
12、在根据本技术的一些实施例的目标音频识别模型的确定装置中,获取候选样本集包括:获选候选音频;以固定时长对候选音频进行节选,得到多个音频样本;以及,确定候选样本集,候选样本集包括经节选得到的多个音频样本。
13、根据本技术的另一方面,提供了一种目标音频识别方法,包括:获取待识别音频;将待识别音频输入如本文任一实施例中的目标音频识别模型,以得到目标音频识别模型对待识别音频的分类结果;以及,响应于待识别音频的分类结果是目标类型的音频,将待识别音频确定为目标类型的音频。
14、根据本技术的另一方面,提供了一种计算设备,包括:存储器,其被配置成存储计算机可执行指令;以及处理器,其被配置成当计算机可执行指令被处理器执行时执行根据本技术一些实施例的目标音频识别模型的确定方法的步骤。
15、根据本技术的另一方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,计算机可执行指令在被执行时实现根据本技术一些实施例的目标音频识别模型的确定方法的步骤。
16、根据本技术的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本技术一些实施例的目标音频识别模型的确定方法的步骤。
17、在根据本技术一些实施例的目标音频识别模型的确定方法和装置中,首先利用初始训练样本集来得到初始音频识别模型。为了减少训练样本的标注时间,直接将训练样本对应的第一标签设置为表明训练样本的音频是目标音频。这使得可以快速得到初始音频模型。然后,对初始音频模型执行调整步骤组,以提升识别目标类型的音频的准确度。在调整步骤组中,通过建立调整训练样本集对初始音频模型进行进一步训练的方式来进行调整。调整训练样本集包含多个调整样本及对应的第二标签,第二标签用于指示调整样本实际上是否是目标类型的音频。由于调整训练集的样本数量通常小于甚至远小于初始训练样本集,因此即使需要人工标注也不会占用过多人力或时间资源。可见,通过本技术提出的方法,可以快速、准确且低成本地建立目标音频识别模型,进而用于目标类型的音频的识别。
18、根据下文描述的实施例,本技术的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本技术的这些和其它优点。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21745.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表