技术新讯 > 乐器声学设备的制造及制作,分析技术 > 低资源的音频字幕生成方法、装置、电子设备及介质 > 正文

低资源的音频字幕生成方法、装置、电子设备及介质

国知局
2024-06-21 11:41:28

本申请中涉及音频数据处理技术，尤其是一种低资源的音频字幕生成方法、装置、电子设备及介质。

背景技术：

1、音频信号能在日常生活中给提供给人民丰富的信息。而音频字幕是一项让机器能够像人一样准确感受音频信号内容的任务，也是通向通用人工智能的关键一步，使机器具有像人一样的听觉感知能力。

2、传统的音频字幕生成模型通常包含一个音频编码器与音频语言解码器，音频编码器将输入音频进行编码后送入语言解码器中从而生成对应音频的字幕描述。然而，由于音频信号具有模糊性和时序性的特点，因此相关技术中在训练音频字幕生成模型的过程中，通常无法获取足量的可供于训练的音频配对数据(即音频-字幕数据)。而这也导致现有技术中得到的音频字幕生成模型会存在由于低资源的问题而导致出现训练精度不高的现象。进而无法为用户生成准确的音频字幕。

技术实现思路

1、本申请实施例提供一种低资源的音频字幕生成方法、装置、电子设备及介质，本申请实施例用于解决相关技术中存在的，由于可供训练的音频配对数据的数量不多进而导致无法训练得到高精度音频多模态预训练模型的问题。

2、其中，根据本申请实施例的一个方面，提供的一种低资源的音频字幕生成方法，所述方法包括：

3、利用多个文本数据以及所述语言编码器，得到文本语言解码器；

4、将所述语言编码器替换为所述音频编码器，并利用多个音频配对数据对所述文本语言解码器进行训练，得到音频语言解码器，其中每个音频配对数据包含音频数据以及相关联的音频描述文本；

5、利用所述多模态预训练模型中的音频编码器与所述音频语言解码器，为待识别音频生成对应的音频字幕。

6、可选地，在基于本申请上述方法的另一个实施例中，所述利用多个文本数据以及所述语言编码器，得到文本语言解码器，包括：

7、获取多个文本数据，并对所述文本数据进行分词操作，提取各个文本数据中的词嵌入特征；以及，

8、为所述多模态预训练模型的语言编码器创建对应的初始文本语言解码器，其中所述初始文本语言解码器包括映射层和语言模型；

9、利用各个文本数据中的词嵌入特征，对所述初始文本语言解码器进行训练，得到所述文本语言解码器。

10、可选地，在基于本申请上述方法的另一个实施例中，所述利用各个文本数据中的词嵌入特征，对所述初始文本语言解码器进行训练，得到所述文本语言解码器，包括：

11、将各个文本数据中的所述各个词嵌入特征输入到所述初始文本语言解码器中的所述映射层，以使由所述映射层将所述词嵌入特征映射为多个前缀向量；

12、将所述多个前缀向量输入到所述初始文本语言解码器中的所述语言模型，以使由所述语言模型将多个前缀向量进行重建，得到重建文本；

13、计算所述重建文本与所述文本数据之间的第一交叉熵损失，并进行梯度反向传播，直至所述交叉熵损失最小化后，确定得到所述文本语言解码器。

14、可选地，在基于本申请上述方法的另一个实施例中，所述将所述语言编码器替换为所述音频编码器，包括：

15、将所述多模态预训练模型中的语言编码器替换为所述音频编码器，并建立所述音频编码器与所述文本语言解码器之间的编解码关系。

16、可选地，在基于本申请上述方法的另一个实施例中，在所述建立所述音频编码器与所述文本语言解码器之间的编解码关系之后，还包括：

17、将所述音频配对数据中的音频数据输入到所述音频编码器中，得到各个音频数据对应的音频嵌入特征；

18、将各个音频嵌入特征输入到所述文本语言解码器中的所述映射层，以使由所述映射层将所述音频嵌入特征映射为多个音频前缀向量；

19、将所述多个音频前缀向量输入到所述文本语言解码器中的所述语言模型，以使由所述语言模型将多个音频前缀向量进行音频描述，得到重建音频描述文本；

20、计算所述重建音频描述文本与所述音频描述文本之间的第二交叉熵损失，并进行梯度反向传播，直至所述第交叉熵损失最小化后，确定得到所述音频语言解码器。

21、其中，根据本申请实施例的又一个方面，提供的一种低资源的音频字幕生成装置，所述装置包括：

22、获取模块，被设置为利用多个文本数据以及所述语言编码器，得到文本语言解码器；

23、训练模块，被设置为将所述语言编码器替换为所述音频编码器，并利用多个音频配对数据对所述文本语言解码器进行训练，得到音频语言解码器，其中每个音频配对数据包含音频数据以及相关联的音频描述文本；

24、生成模块，被设置为利用所述多模态预训练模型中的音频编码器与所述音频语言解码器，为待识别音频生成对应的音频字幕。

25、根据本申请实施例的又一个方面，提供的一种电子设备，包括：

26、存储器，用于存储可执行指令；以及

27、显示器，用于与所述存储器执行所述可执行指令从而完成上述任一所述低资源的音频字幕生成方法的操作。

28、根据本申请实施例的还一个方面，提供的一种计算设备可读存储介质，用于存储计算设备可读取的指令，所述指令被执行时执行上述任一所述低资源的音频字幕生成方法的操作。

29、本申请中，可以利用多个文本数据以及语言编码器，得到文本语言解码器；将语言编码器替换为音频编码器，并利用多个音频配对数据对文本语言解码器进行训练，得到音频语言解码器，其中每个音频配对数据包含音频数据以及相关联的音频描述文本；利用多模态预训练模型中的音频语言解码器，为待识别音频生成对应的音频字幕。

30、通过应用本申请的技术方案，可以在一个包含语言编码器与音频编码器的多模态预训练模型中，首先利用样本量比较充足的文本数据，为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器，以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频-字幕数据对的情况下，仍能取得较高模型性能的技术方案。

31、以下利用多个实施例，对本申请的技术方案做进一步的详细描述。

技术特征：

1.一种低资源的音频字幕生成方法，其特征在于，所述方法应用于包含语言编码器与音频编码器的多模态预训练模型，包括：

2.如权利要求1所述的方法，其特征在于，所述利用多个文本数据以及所述语言编码器，得到文本语言解码器，包括：

3.如权利要求2所述的方法，其特征在于，所述利用各个文本数据中的词嵌入特征，对所述初始文本语言解码器进行训练，得到所述文本语言解码器，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述语言编码器替换为所述音频编码器，包括：

5.如权利要求4所述的方法，其特征在于，在所述建立所述音频编码器与所述文本语言解码器之间的编解码关系之后，还包括：

6.一种低资源的音频字幕生成装置，其特征在于，所述装置应用于包含语言编码器与音频编码器的多模态预训练模型，包括：

7.一种电子设备，其特征在于，包括：

8.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-5中任一所述低资源的音频字幕生成方法的操作。

技术总结本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案，可以在一个包含语言编码器与音频编码器的多模态预训练模型中，首先利用样本量比较充足的文本数据，为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器，以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下，仍能取得较高模型性能的技术方案。技术研发人员：马占宇,张益铭,杜若一,梁孔明受保护的技术使用者：北京邮电大学技术研发日：技术公布日：2024/4/7