文本声音事件检测模型训练方法及检测方法与流程
- 国知局
- 2024-06-21 11:33:46
本申请涉及人工智能,尤其涉及一种文本声音事件检测模型训练方法及检测方法。
背景技术:
1、相关技术中提出了句子级弱监督文本声音事件检测(wstag,weakly-supervisedtext-to-audio grounding),以降低对训练数据的要求。然而该弱监督学习技术得到的文本声音事件检测技术的准确率较低。
技术实现思路
1、本申请实施例提供一种文本声音事件检测模型训练方法及检测方法,用于至少解决上述技术问题之一。
2、第一方面,本申请实施例提供一种文本声音事件检测模型训练方法,包括:
3、对样本音频进行音频编码获得多个音频帧嵌入;
4、将对应于所述样本音频的样本文本分解为多个正短语;
5、至少对所述多个正短语进行文本编码获得多个短语嵌入;
6、根据所述多个音频帧嵌入和所述多个短语嵌入确定音频-文本相似度;
7、至少根据所述音频-文本相似度与真实音频-文本相似度之间的损失进行模型训练。
8、在一些实施例中,音频-文本相似度包括音频片段-句子相似度;
9、至少根据所述音频-文本相似度与真实音频-文本相似度之间的损失进行模型训练,包括:
10、至少根据所述音频片段-句子相似度与真实音频片段-句子相似度之间的损失进行模型训练。
11、在一些实施例中,根据所述多个音频帧嵌入和所述多个短语嵌入确定音频-文本相似度,包括:
12、根据所述多个音频帧嵌入和所述多个短语嵌入确定多个音频帧-短语相似度;
13、对所述多个音频帧-短语相似度进行池化处理得到多个音频片段-短语相似度;
14、对所述多个音频片段-短语相似度进行池化处理得到所述音频片段-句子相似度。
15、在一些实施例中,还包括:
16、采用预训练模型对所述样本音频、对应于所述样本音频的多个正短语和多个负短语处理得到优化音频片段-短语相似度;
17、根据所述优化音频片段-短语相似度确定片段级损失;
18、根据所述预训练模型输出的多个音频片段-短语相似度确定帧级损失;
19、根据所述片段级损失和帧级损失进行模型训练。
20、在一些实施例中,采用预训练模型对所述样本音频、对应于所述样本音频的多个正短语和多个负短语处理得到优化音频片段-短语相似度,包括:
21、采用预训练模型对所述样本音频、对应于所述样本音频的多个正短语和多个负短语处理得到多个音频片段-短语相似度;
22、对所述多个音频片段-短语相似度进行池化处理得到多个音频片段-短语相似度;
23、选取所述多个音频片段-短语相似度和所述真实音频片段-短语相似度中的最大值最为优化音频片段-短语相似度。
24、在一些实施例中,还包括:获取对应于其它样本音频的多个负短语;
25、至少对所述多个正短语进行文本编码获得多个短语嵌入,包括:对所述多个正短语和所述多个负短语进行文本编码获得多个短语嵌入。
26、在一些实施例中,还包括:
27、获取对应于其它样本音频的多个负短语;
28、计算每个所述负短语与所述多个正短语之间的短语相似度值;
29、筛选短语相似度值小于设定阈值的负短语为目标负短语;
30、至少对所述多个正短语进行文本编码获得多个短语嵌入,包括:对所述多个正短语和所述目标负短语进行文本编码获得多个短语嵌入。
31、第二方面,本申请实施例提供一种文本声音事件检测方法,采用本申请任一实施例所述的方法训练得到的模型。
32、第三方面,本申请实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本申请上述任一项文本声音事件检测模型训练方法。
33、第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请上述任一项文本声音事件检测模型训练方法。
34、本申请实施例的有益效果在于:本申请通过使用短语级别的匹配而非句子级别的匹配进行模型训练,大大提升了准确率。
技术特征:1.一种文本声音事件检测模型训练方法,包括:
2.根据权利要求1所述的方法,其特征在于,所述音频-文本相似度包括音频片段-句子相似度;
3.根据权利要求2所述的方法,其特征在于,根据所述多个音频帧嵌入和所述多个短语嵌入确定音频-文本相似度,包括:
4.根据权利要求1所述的方法,其特征在于,还包括:
5.根据权利要求4所述的方法,其特征在于,采用预训练模型对所述样本音频、对应于所述样本音频的多个正短语和多个负短语处理得到优化音频片段-短语相似度,包括:
6.根据权利要求1-5中任一项所述的方法,其特征在于,还包括:获取对应于其它样本音频的多个负短语;
7.根据权利要求1-5中任一项所述的方法,其特征在于,还包括:
8.一种文本声音事件检测方法,采用权利要求1-7中任一项所述的方法训练得到的模型。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任意一项所述方法的步骤。
技术总结本申请公开一种文本声音事件检测模型训练方法,包括:对样本音频进行音频编码获得多个音频帧嵌入;将对应于所述样本音频的样本文本分解为多个正短语;至少对所述多个正短语进行文本编码获得多个短语嵌入;根据所述多个音频帧嵌入和所述多个短语嵌入确定音频‑文本相似度;至少根据所述音频‑文本相似度与真实音频‑文本相似度之间的损失进行模型训练。本申请通过使用短语级别的匹配而非句子级别的匹配进行模型训练,大大提升了准确率。技术研发人员:俞凯,吴梦玥,徐薛楠受保护的技术使用者:思必驰科技股份有限公司技术研发日:技术公布日:2024/3/11本文地址:https://www.jishuxx.com/zhuanli/20240618/22252.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。