技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多事件音频-文本对生成方法及装置与流程 > 正文

多事件音频-文本对生成方法及装置与流程

国知局
2024-06-21 11:32:36

本发明涉及人工智能，尤其涉及一种多事件音频-文本对生成方法及装置。

背景技术：

1、近年来，音频-文本学习越来越受到关注。与视觉语言学习类似，与标签为预定义类别的分类数据相比，机器在文本监督信号下学习声音概念的效率更高。音频-文本跨模态任务的开发为开发更自然的人机交互系统带来了希望。

2、现有的人工标注数据数量有限，这给音频-文本学习带来了巨大挑战。有几项研究利用模板或生成模型将类别标签或网络抓取的描述转换为描述语句，从而整理出更大的数据集。然而，无论是人工标注还是自动生成，这些数据集中的文字描述主要局限于声音事件，而忽略了详细信息(例如，声音事件的时序关系、音量、说话者身份以及出现次数等)。

技术实现思路

1、本发明实施例提供一种多事件音频-文本对生成方法、装置、电子设备及存储介质，用于至少解决上述技术问题之一。

2、第一方面，本发明实施例提供一种多事件音频-文本对生成方法，包括：

3、获取多个单事件音频片段；

4、确定将所述多个单事件音频片段合成多事件音频所需的配置数据；

5、根据所述配置数据将所述多个单事件音频片段合成目标多事件音频；

6、至少根据所述配置数据生成对应于所述目标多事件音频的合成文本。

7、在一些实施例中，获取多个单事件音频片段包括：

8、获取样本音频片段；

9、对所述样本音频片段进行文本音频声音事件检测，确定包含目标声音事件的目标音频片段；

10、计算所述目标音频片段与相应的事件描述之间的文本音频相似度；

11、从大于预设阈值的文本音频相似度所对应的目标音频片段中获取多个单事件音频片段。

12、在一些实施例中，配置数据类型包括：对应于所述多个单事件音频片段的时序关系、音量、说话者身份和出现次数中的至少一者。

13、在一些实施例中，至少根据所述配置数据生成对应于所述目标多事件音频的合成文本包括：

14、确定对应于所述多个单事件音频片段的多个描述语句；

15、根据所述多个描述语句和对应于所述多个单事件音频片段的时序关系、音量、说话者身份和出现次数中的至少一者，生成对应于所述目标多事件音频的合成文本。

16、在一些实施例中，还包括对单事件音频片段进行聚类的步骤：：

17、对预设数据集中的描述句子切分，生成多个描述单个事件的单声音事件短语；

18、将多个所述单声音事件短语转换至嵌入空间生成多个单声音事件词嵌入；

19、根据多个所述单声音事件词嵌入之间的相似度对多个所述单声音事件短语进行聚类；

20、根据聚类结果对单事件音频片段进行聚类。

21、在一些实施例中，还包括：对预设数据集中的描述句子进行词性标注；根据词性标注结果确定多个事件属性信息。

22、第二方面，本发明实施例提供一种多事件音频-文本对生成装置，包括：

23、音频片段获取模块，用于获取多个单事件音频片段；

24、配置数据确定模块，用于确定将所述多个单事件音频片段合成多事件音频所需的配置数据；

25、音频合成模块，用于根据所述配置数据将所述多个单事件音频片段合成目标多事件音频；

26、文本合成模块，用于至少根据所述配置数据生成对应于所述目标多事件音频的合成文本。

27、第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项多事件音频-文本对生成方法。

28、第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项多事件音频-文本对生成方法。

29、本发明实施例的有益效果在于：通过配置数据的设置使得生成的多事件音频－文本对不仅仅关注于声音事件本身，还能够通过配置实现各单声音事件在将要合成的多事件音频中的诸多细节，从而得到具有丰富细节的多事件音频－文本对。

技术特征：

1.一种多事件音频-文本对生成方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取多个单事件音频片段包括：

3.根据权利要求1所述的方法，其特征在于，确定将所述多个单事件音频片段合成多事件音频所需的配置数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述配置数据类型包括：对应于所述多个单事件音频片段的时序关系、音量、说话者身份和出现次数中的至少一者。

5.根据权利要求4所述的方法，其特征在于，至少根据所述配置数据生成对应于所述目标多事件音频的合成文本包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，还包括对单事件音频片段进行聚类的步骤：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种多事件音频-文本对生成装置，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。

技术总结本发明公开一种多事件音频‑文本对生成方法，包括：获取多个单事件音频片段；确定将所述多个单事件音频片段合成多事件音频所需的配置数据；根据所述配置数据将所述多个单事件音频片段合成目标多事件音频；至少根据所述配置数据生成对应于所述目标多事件音频的合成文本。通过配置数据的设置使得生成的多事件音频－文本对不仅仅关注于声音事件本身，还能够通过配置实现各单声音事件在将要合成的多事件音频中的诸多细节，从而得到具有丰富细节的多事件音频－文本对。技术研发人员：俞凯,吴梦玥,徐薛楠受保护的技术使用者：思必驰科技股份有限公司技术研发日：技术公布日：2024/3/5