技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音数据标注方法、装置、电子设备及存储介质与流程 > 正文

一种语音数据标注方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:49:05

本申请涉及语音处理，尤其涉及一种语音数据标注方法、装置、设备及存储介质。

背景技术：

1、语音识别是一种让机器通过识别和理解过程把语音转变为相应的文本或命令的人工智能技术，如将待识别的语音信号输入至语音识别模型中，即可得到相应的识别文本或命令。为了能够训练出有效的语音识别模型，往往需要收集大量的语音-文本对作为训练数据，而这种训练数据具有极高的标注成本，且训练数据标注的准确与否严重影响着语音识别的准确性。

2、相关技术中，尚缺乏在降低标注成本的基础上确保语音识别准确性的有效解决方案。

技术实现思路

1、本申请实施例提供一种语音数据标注方法、装置、电子设备及计算机可读存储介质，能够在降低语音数据标注成本的同时，提高标注结果的准确性。

2、本申请实施例的技术方案是这样实现的：

3、本申请实施例提供一种语音数据标注方法，包括：

4、对待标注的语音数据进行特征提取处理，得到所述语音数据的第一音频特征；

5、对所述第一音频特征进行编码处理，得到所述语音数据的第一编码特征；

6、对所述第一编码特征进行解码处理，得到所述语音数据对应的第一识别结果；

7、对所述第一识别结果进行置信度估计处理，得到所述第一识别结果的第一初始置信度；

8、对所述第一初始置信度进行置信度调整处理，得到所述第一识别结果的第一置信度；

9、根据所述第一置信度确定所述待标注的语音数据的标注结果。

10、本申请实施例还提供一种语音数据标注模型的训练方法，所述语音数据标注模型包括提取层、编码层、解码层、映射层，所述方法包括：

11、通过所述提取层，对标注有音频识别标签的语音数据样本进行特征提取处理，得到所述语音数据样本的第二音频特征；

12、通过所述编码层，对所述第二音频特征进行编码处理，得到所述语音数据样本的第二编码特征；

13、通过所述解码层，对所述第二编码特征进行解码处理，得到所述语音数据样本对应的第三识别结果；

14、通过所述映射层，对所述第三识别结果进行目标置信度估计处理，得到所述第三识别结果对应的第二初始置信度，并对所述第二初始置信度进行目标置信度调整处理，得到所述第三识别结果对应的第二置信度；

15、基于所述第二编码特征、所述第二初始置信度和第二置信度、以及所述音频识别标签，更新所述语音数据标注模型的模型参数。

16、本申请实施例提供一种语音数据标注装置，包括：

17、提取模块，用于对待标注的语音数据进行特征提取处理，得到所述语音数据的第一音频特征；

18、编码模块，用于对所述第一音频特征进行编码处理，得到所述语音数据的第一编码特征；

19、解码模块，用于对所述第一编码特征进行解码处理，得到所述语音数据对应的第一识别结果；

20、估计模块，用于对所述第一识别结果进行置信度估计处理，得到所述第一识别结果对应的第一初始置信度；

21、调整模块，用于对所述第一初始置信度进行置信度调整处理，得到所述第一识别结果对应的第一置信度；

22、确定模块，用于根据所述第一置信度确定所述待标注的语音数据的标注结果。

23、本申请实施例提供一种电子设备，包括：

24、存储器，用于存储计算机可执行指令或者计算机程序；

25、处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的语音数据标注方法。

26、本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，用于被处理器执行时实现本申请实施例提供的语音数据标注方法。

27、本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的语音数据标注方法。

28、本申请实施例具有以下有益效果：

29、应用本申请实施例，在对待标注的语音数据进行标注时，先对待标注的语音数据进行特征提取处理，得到语音数据的第一音频特征；对第一音频特征进行编码处理，得到语音数据的第一编码特征；对第一编码特征进行解码处理，得到语音数据对应的第一识别结果；对第一识别结果进行置信度估计处理，得到第一识别结果的第一初始置信度；对第一初始置信度进行置信度调整处理，得到第一识别结果的第一置信度；根据第一置信度确定待标注的语音数据的标注结果；如此，在得到第一识别结果的第一初始置信度后，进一步对第一初始置信度进行置信度调整处理，使得调整得到的第一置信度能够很好地表征第一识别结果的准确性，故根据调整得到的第一置信度确定待标注的语音数据的标注结果，能够提高标注结果的准确性，实现对待标注数据的有效标注，降低了标注成本。

技术特征：

1.一种语音数据标注方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述第一置信度确定所述待标注的语音数据的标注结果，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第二识别结果及所述第二置信度，确定所述待标注的语音数据对应的标注结果，包括：

4.如权利要求1所述的方法，其特征在于，所述对待标注的语音数据进行特征提取处理，得到所述语音数据的音频特征，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述第一识别结果进行置信度估计处理，得到所述第一识别结果的第一初始置信度，包括：

6.如权利要求1所述的方法，其特征在于，所述对所述第一初始置信度进行置信度调整处理，得到所述第一识别结果的第一置信度，包括：

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种语音数据标注模型的训练方法，其特征在于，所述语音数据标注模型包括提取层、编码层、解码层、映射层，所述方法包括：

9.如权利要求8所述的方法，其特征在于，所述映射层包括第一映射层和第二映射层，所述通过所述映射层，对所述第三识别结果进行目标置信度估计处理，得到所述第三识别结果对应的第二初始置信度，并对所述第二初始置信度进行目标置信度调整处理，得到所述第三识别结果对应的第三置信度，包括：

10.如权利要求9所述的方法，其特征在于，所述标注模型还包括第三映射层；所述基于所述第二编码特征、所述第二初始置信度和第三置信度、以及所述音频识别标签，更新所述语音数据标注模型的模型参数，包括：

11.一种语音数据标注装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令或者计算机程序，所述计算机可执行指令或者计算机程序被处理器执行时，实现权利要求1至10任一项所述的语音数据标注方法。

技术总结本申请提供了一种语音数据标注方法、装置、电子设备及计算机可读存储介质；方法包括：对待标注的语音数据进行特征提取处理，得到所述语音数据的第一音频特征；对所述第一音频特征进行编码处理，得到所述语音数据的第一编码特征；对所述第一编码特征进行解码处理，得到所述语音数据对应的第一识别结果；对所述第一识别结果进行置信度估计处理，得到所述第一识别结果的第一初始置信度；对所述第一初始置信度进行置信度调整处理，得到所述第一识别结果的第一置信度；根据所述第一置信度确定所述待标注的语音数据的标注结果。通过本申请，能够在降低语音数据标注的成本的同时，提高标注结果的准确性。技术研发人员：孟庆林受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6