一种对音频文件进行审核的方法、装置和设备与流程
- 国知局
- 2024-06-21 11:44:32
本公开的各实施例涉及机器审核,尤其涉及一种对音频文件进行审核的技术。
背景技术:
1、当前对音频文件的审核,不能直接基于音频文件的语音序列来进行相关合规审核,而只能通过各种特定类型的音频审核模型来进行识别/审核,诸如识别音频内容、识别说话人、识别包含的歌曲等。
技术实现思路
1、本公开的各实施例的目的是提供一种对音频文件进行审核的方法、装置和设备。
2、根据本公开的一个方面,提供了一种对音频审核模型进行训练的方法,其中,所述音频审核模型包括编码部和解码部,所述编码部包括tdnn模型及傅里叶变换模型,所述解码部包括预训练的大语言模型;
3、其中,该方法包括以下步骤:
4、使用音频样本对来训练所述tdnn模型的第一输出向量序列以及所述傅里叶变换模型的第二输出向量序列与所述预训练的大语言模型的输入向量序列之间的映射权重,其中,所述tdnn模型和所述预训练的大语言模型已预训练好并保持各自当前的模型参数不变;
5、其中,一个所述音频样本对包括一个音频数据样本及其对应的结构化描述信息,所述结构化描述信息包括审核结果;
6、保持所述tdnn模型的当前模型参数不变,使用所述音频样本对来调整所述映射权重以及所述预训练的大语言模型的模型参数。
7、在一些实施例中,该方法还包括构建所述音频样本对。
8、其中,所述构建步骤包括以下步骤:
9、对于一个所述音频数据样本,通过各音频检测模型来获得一项或多项结构化描述信息;
10、其中,所述音频数据样本的结构化描述信息包括所述一项或多项结构化描述信息以及所述审核结果,所述审核结果基于所述一项或多项结构化描述信息确定。
11、进一步地,所述一项或多项结构化描述信息被作为对所述审核结果的提示,以帮助所述预训练的大语言模型获得所述审核结果。
12、在一些实施例中,所述训练的步骤具体包括:
13、针对一个所述音频数据样本,所述tdnn模型的嵌入层将输入的语音序列转换为所述第一输出向量序列,所述傅里叶变换模型将所述语音序列转换为所述第二输出向量序列;
14、基于多个所述音频样本对来迭代训练所述第一输出向量序列及所述第二输出向量序列与所述预训练的大语言模型的输入向量序列之间的映射权重。
15、其中,所述第一输出向量序列及所述第二输出向量序列在最小单元的数量上一致,两者被连接后与所述预训练的大语言模型的输入向量序列之间进行映射。
16、在一些实施例中,该方法还包括使用rhlf模型来对所述预训练的大语言模型生成的每次审核结果进行打分,以更新所述预训练的大语言模型的模型参数。
17、根据本公开的一个方面,还提供了一种对音频文件进行审核的方法,其中,音频审核模型包括编码部和解码部,所述编码部包括tdnn模型及傅里叶变换模型,所述解码部包括预训练的大语言模型;
18、其中,该方法包括以下步骤:
19、将待审核音频文件输入所述tdnn模型,以获得第一输出向量序列;
20、将所述待审核音频文件输入所述傅里叶变换模型,以获得第二输出向量序列;
21、根据所述第一输出向量序列以及所述第二输出向量与所述预训练的大语言模型的输入向量序列之间的映射权重,将所述第一输出向量序列以及所述第二输出向量映射到所述输入向量序列;
22、所述预训练的大语言模型根据所述输入向量序列,解码获得所述待审核音频文件的审核结果。
23、根据本公开的一个方面,还提供了一种音频审核模型,包括编码部和解码部,所述编码部包括tdnn模型及傅里叶变换模型,所述解码部包括预训练的大语言模型;
24、其中,
25、所述tdnn模型根据输入的待审核音频文件,编码获得对应的第一输出向量序列;
26、所述傅里叶变换模型根据所述待审核音频文件,编码获得对应的第二输出向量序列;
27、根据所述第一输出向量序列以及所述第二输出向量与所述预训练的大语言模型的输入向量序列之间的映射权重,所述第一输出向量序列以及所述第二输出向量被映射到所述输入向量序列;
28、所述预训练的大语言模型根据所述输入向量序列,解码获得所述待审核音频文件的审核结果。
29、根据本公开的一个方面,还提供了一种计算机设备,其中,该计算机设备包括处理器和存储器,所述存储器包括计算机可执行指令,当所述计算机可执行指令被所述处理器执行时,该计算机设备被配置来执行根据本公开的一个方面的一种对音频审核模型进行训练的方法。
30、根据本公开的一个方面,还提供了一种计算机设备,其中,该计算机设备包括处理器和存储器,所述存储器包括计算机可执行指令,当所述计算机可执行指令被所述处理器执行时,该计算机设备被配置来执行根据本公开的一个方面的一种对音频文件进行审核的方法。
31、本公开的各实施例通过对多模态音频审核模型的训练,使得训练后的音频审核模型可以用于多模态音频任务,即直接根据音频文件的语音序列来审核其是否违规,而无需进行音频内容识别或说话人识别等。
技术特征:1.一种对音频审核模型进行训练的方法,其中,所述音频审核模型包括编码部和解码部,所述编码部包括tdnn模型及傅里叶变换模型,所述解码部包括预训练的大语言模型;
2.根据权利要求1所述的方法,其中,该方法还包括以下步骤:
3.根据权利要求2所述的方法,其中,所述构建步骤包括以下步骤:
4.根据权利要求3所述的方法,其中,所述一项或多项结构化描述信息被作为对所述审核结果的提示,以帮助所述预训练的大语言模型获得所述审核结果。
5.根据权利要求1至4中任一项所述的方法,其中,所述训练的步骤具体包括:
6.根据权利要求5所述的方法,其中,所述第一输出向量序列及所述第二输出向量序列在最小单元的数量上一致,两者被连接后与所述预训练的大语言模型的输入向量序列之间进行映射。
7.根据权利要求1至4中任一项所述的方法,其中,该方法还包括以下步骤:
8.一种对音频文件进行审核的方法,其中,音频审核模型包括编码部和解码部,所述编码部包括tdnn模型及傅里叶变换模型,所述解码部包括预训练的大语言模型;
9.一种音频审核模型,包括编码部和解码部,所述编码部包括tdnn模型及傅里叶变换模型,所述解码部包括预训练的大语言模型;
10.一种计算机设备,其中,该计算机设备包括处理器和存储器,所述存储器包括计算机可执行指令,当所述计算机可执行指令被所述处理器执行时,该计算机设备被配置来执行如权利要求1至7中任一项所述的一种对音频审核模型进行训练的方法。
11.一种计算机设备,其中,该计算机设备包括处理器和存储器,所述存储器包括计算机可执行指令,当所述计算机可执行指令被所述处理器执行时,该计算机设备被配置来执行如权利要求8所述的一种对音频文件进行审核的方法。
技术总结本公开的各实施例的目的是提供一种对音频文件进行审核的方法、装置和设备。其中,所述音频审核模型包括编码部和解码部,所述编码部包括TDNN模型及傅里叶变换模型,所述解码部包括预训练的大语言模型;其中,使用音频样本对来训练所述TDNN模型的第一输出向量序列以及所述傅里叶变换模型的第二输出向量序列与所述预训练的大语言模型的输入向量序列之间的映射权重,其中,所述TDNN模型和所述预训练的大语言模型已预训练好并保持各自当前的模型参数不变;仍保持所述TDNN模型的当前模型参数不变,使用所述音频样本对来调整所述映射权重以及所述预训练的大语言模型的模型参数。本公开的各实施例可以用于多模态音频审核任务。技术研发人员:李佩易受保护的技术使用者:上海哔哩哔哩科技有限公司技术研发日:技术公布日:2024/4/17本文地址:https://www.jishuxx.com/zhuanli/20240618/23274.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。