技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于对音频数据进行标注的方法、装置和设备与流程 > 正文

用于对音频数据进行标注的方法、装置和设备与流程

国知局
2024-06-21 11:49:46

本公开的各实施例涉及音频指纹，尤其涉及一种用于用于对音频数据进行标注的技术。

背景技术：

1、在音频识别模型的训练过程中，由于训练样本不足，例如原歌曲的变形较少，导致音频识别模型的识别效果差，泛化能力不足。此外，对于图像识别，如果其样本不足，通常可以通过模仿现有样本来生成一些变体样本，而音频数据难以通过类似方式来获得变体。

技术实现思路

1、本公开的各实施例的目的是提供一种用于用于对音频数据进行标注的方法、装置和设备。

2、根据本公开的一个方面，提供了一种对音频数据进行标注的方法，其中，该方法包括以下步骤：

3、获取候选音频数据对，所述候选音频数据对包含两个候选音频数据；

4、对所述候选音频数据对中的所述两个候选音频数据分别进行语音识别，以获得对应的两个音频文本；

5、如果所述两个音频文本具有在时序上对齐的文本片段，标注对齐的文本片段所各自对应的音频片段，并将所述候选音频数据对作为样本音频数据对。

6、根据一个实施例，该方法还包括建立候选音频数据集合；其中，所述获取候选音频数据对的步骤具体包括：

7、从所述候选音频数据集合中获取两个候选音频数据来组成一个所述候选音频数据对。

8、根据一个示例，所述建立候选音频数据集合的步骤具体包括：根据视频/音频标签建立所述候选音频数据集合。

9、其中，所述视频/音频标签包括以下至少任一项：

10、-稿件tag；

11、-歌曲名；

12、-ip名。

13、根据另一个示例，所述建立候选音频数据集合的步骤具体包括：根据对音频数据的asr文本转写建立所述候选音频数据对。

14、根据一个实施例，所述语音识别具体包括asr文本转写。

15、根据一个实施例，该方法还包括将所述样本音频数据对加入音频样本库，所述音频样本库被用于对音频识别模型的训练。

16、进一步地，经所述音频样本库训练后的所述音频识别模型用于识别声音数据或跟踪定位音频数据在所述音频数据库中的位置。

17、根据本公开的一个方面，还提供了一种对音频数据进行标注的装置，其中，该装置包括：

18、用于获取候选音频数据对的装置，所述候选音频数据对包含两个候选音频数据；

19、用于对所述候选音频数据对中的所述两个候选音频数据分别进行语音识别，以获得对应的两个音频文本的装置；

20、用于如果所述两个音频文本具有在时序上对齐的文本片段，标注对齐的文本片段所各自对应的音频片段，并将所述候选音频数据对作为样本音频数据对的装置。

21、根据本公开的一个方面，还提供了一种对音频数据进行标注的设备，其中，该设备包括处理器和存储器，所述存储器包括计算机可执行指令所述存储器存储有计算机可执行指令，当所述计算机可执行指令被所述处理器执行时，该设备被配置来执行以下操作：

22、获取候选音频数据对，所述候选音频数据对包含两个候选音频数据；

23、对所述候选音频数据对中的两个候选音频数据分别进行语音识别，以获得对应的两个音频文本；

24、如果所述两个音频文本具有在时序上对齐的文本片段，标注对齐的文本片段所各自对应的音频片段，并将所述候选音频数据对作为样本音频数据对。

25、本公开的各实施例通过构建候选音频数据对并利用文本对齐算法对候选音频数据对中的两个音频数据进行相同片段的时序对齐，从而有效地实现了音频识别模型的训练数据的自动标注。

技术特征：

1.一种对音频数据进行标注的方法，其中，该方法包括以下步骤：

2.根据权利要求1所述的方法，其中，该方法还包括以下步骤：

3.根据权利要求2所述的方法，其中，所述建立候选音频数据集合的步骤具体包括：

4.根据权利要求3所述的方法，其中，所述视频/音频标签包括以下至少任一项：

5.根据权利要求2所述的方法，其中，所述建立候选音频数据集合的步骤具体包括：

6.根据权利要求1至5中任一项所述的方法，其中，所述语音识别具体包括asr文本转写。

7.根据权利要求1至6中任一项所述的方法，其中，该方法还包括以下步骤：

8.根据权利要求7所述的方法，其中，经所述音频样本库训练后的所述音频识别模型用于识别声音数据或跟踪定位音频数据在所述音频数据库中的位置。

9.一种对音频数据进行标注的装置，其中，该装置包括：

10.一种对音频数据进行标注的设备，其中，该设备包括处理器和存储器，所述存储器存储有计算机可执行指令，当所述计算机可执行指令被所述处理器执行时，该设备被配置来执行以下操作：

技术总结本公开的各实施例的目的是提供一种用于用于对音频数据进行标注的方法、装置和设备。计算机设备获取候选音频数据对，所述候选音频数据对包含两个候选音频数据；对所述候选音频数据对中的所述两个候选音频数据分别进行语音识别，以获得对应的两个音频文本；如果所述两个音频文本具有在时序上对齐的文本片段，标注对齐的文本片段所各自对应的音频片段，并将所述候选音频数据对作为样本音频数据对。本公开的各实施例通过构建候选音频数据对并利用文本对齐算法对候选音频数据对中的两个音频数据进行相同片段的时序对齐，从而有效地的实现了音频识别模型的训练数据的自动标注。技术研发人员：曾新贵,邓威,曹翔受保护的技术使用者：上海哔哩哔哩科技有限公司技术研发日：技术公布日：2024/5/8