技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语料收集方法、装置、电子设备及存储介质与流程 > 正文

一种语料收集方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:39:47

本技术涉及计算机，尤其涉及一种语料收集方法、装置、电子设备及存储介质。

背景技术：

1、语音识别模型为一个给予输入语音，可产生其对应辨识文字结果的模型。因此，训练语音识别模型时，需要有音档和其对应的正确标注文本，透过此类训练语料，才能让他学习到语音和文字的相互关系以达到语音识别的能力。

2、语音识别模型的效能好坏与训练语料量多寡有直接的影响。目前普遍的研究分析都有使用的训练语料越多，语音识别模型效能越好的现象，所以搜集大量的训练语料就有其必要性。

3、语音识别若要达到产品化的标准，模型的辨识准确度势必要很高，但高准确度的模型时常建立在大量的训练语料上，在市面上可见的大企业语音识别产品也都是基于大量语料才能达到高准确率的效果。不过要有大量的训练语料，只用开源语料是不够的，必须要再搜集更多语料。搜集语料主要来自两种来源，分别是影片和音档，两者都可从公开的网络平台获取，所以就现有的方法要能搜集到大量音档并不困难，其对应的标注也可分别从字符辨识和语音识别系统产生。但是从字符辨识系统产生标注却会出现一个问题，因为人在说话时难免会出现口语化的语句，包括连音、停顿、结巴口吃等问题，导致影片字幕和影片中所说的话并非完全相同而影响到标注的正确性。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本技术提供了一种语料收集方法、装置、电子设备及存储介质。

2、第一方面，本技术提供了一种语料收集方法，包括：

3、在目标视频对应的音频文件中获取包含语音信号的语料片段；

4、对所述语料片段进行语音识别，得到多个候选语句；

5、利用语言模型在多个所述候选语句中确定出现几率最高的目标语句，其中，所述语言模型是利用所述目标视频对应的字幕文件进行训练得到的；

6、基于所述目标语句确定所述语料片段的标注文本。

7、可选地，所述语言模型的训练方法包括：

8、获取所述目标视频的字幕文件；

9、利用所述字幕文件对所述语言模型进行训练，直至所述语言模型训练完毕，得到训练完毕的语言模型。

10、可选地，获取所述目标视频的字幕文件，包括：

11、对所述目标视频的多个图像帧进行字符识别，得到识别字符；

12、将在多个所述图像帧中识别到的识别字符按照图像帧的先后顺序进行组合，得到所述字幕文件。

13、可选地，利用所述字幕文件对所述语言模型进行训练，包括：

14、在所述字幕文件中提取词序列；

15、获取所述词序列对应的出现几率；

16、利用所述词序列及与所述词序列对应的出现几率，对所述语言模型进行训练。

17、可选地，在目标视频对应的音频文件中获取包含语音信号的语料片段，包括：

18、将所述目标视频转换为音频文件；

19、将所述音频文件按照语句进行切分，得到所述语料片段。

20、可选地，基于所述目标语句确定所述语料片段的标注文本，包括：

21、利用语音识别模型对所述语料片段进行语音识别，得到识别结果；

22、基于所述识别结果确定所述目标语句的正确性；

23、若所述正确性超过预设阈值，将所述目标语句确定为所述语料片段的标注文本。

24、可选地，基于所述目标语句确定所述语料片段的标注文本，还包括：

25、若所述正确性未超过预设阈值，删除所述目标语句及所述语料片段。

26、第二方面，本技术提供了一种语料收集装置，包括：

27、第一获取模块，用于在目标视频对应的音频文件中获取包含语音信号的语料片段；

28、第一识别模块，用于对所述语料片段进行语音识别，得到多个候选语句；

29、第一确定模块，用于利用语言模型在多个所述候选语句中确定出现几率最高的目标语句，其中，所述语言模型是利用所述目标视频对应的字幕文件进行训练得到的；

30、第二确定模块，用于基于所述目标语句确定所述语料片段的标注文本。

31、可选地，所述装置还包括：

32、第二获取模块，用于获取所述目标视频的字幕文件；

33、第一训练模块，用于利用所述字幕文件对所述语言模型进行训练，直至所述语言模型训练完毕，得到训练完毕的语言模型。

34、可选地，所述第二获取模块包括：

35、字符识别单元，用于对所述目标视频的多个图像帧进行字符识别，得到识别字符；

36、组合单元，用于将在多个所述图像帧中识别到的识别字符按照图像帧的先后顺序进行组合，得到所述字幕文件。

37、可选地，所述第一训练模块包括：

38、提取单元，用于在所述字幕文件中提取词序列；

39、获取单元，用于获取所述词序列对应的出现几率；

40、训练单元，用于利用所述词序列及与所述词序列对应的出现几率，对所述语言模型进行训练。

41、可选地，所述第一获取模块包括：

42、转换单元，用于将所述目标视频转换为音频文件；

43、切分单元，用于将所述音频文件按照语句进行切分，得到所述语料片段。

44、可选地，所述第二确定模块包括：

45、语音识别单元，用于利用语音识别模型对所述语料片段进行语音识别，得到识别结果；

46、第一确定单元，用于基于所述识别结果确定所述目标语句的正确性；

47、第二确定单元，用于若所述正确性超过预设阈值，将所述目标语句确定为所述语料片段的标注文本。

48、可选地，所述第二确定模块还包括：

49、第三确定单元，用于若所述正确性未超过预设阈值，删除所述目标语句及所述语料片段。

50、第三方面，本技术提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

51、存储器，用于存放计算机程序；

52、处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的语料收集方法。

53、第四方面，本技术提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有语料收集方法的程序，所述语料收集方法的程序被处理器执行时实现第一方面任一所述的语料收集方法的步骤。

54、本技术实施例提供的上述技术方案与现有技术相比具有如下优点：

55、本技术实施例通过对语料片段进行语音识别，得到多个候选语句，通过语言模型，在候选语句中确定出现几率最高的目标语句，进而可以基于目标语句确定语料片段的标注文本，本技术能够实现高效率的自动收集语料，节省大量人力与时间去搜集音频和进行标注；另外，本发明采用语音识别结合用影片字幕文本训练的语言模型去产生标注，同时保留了语音识别能产生口语化标注和语言模型能产生与影片内容高相关度标注的优点，避免影片字幕和影片中口语化的表述并非完全相同而影响到标注的正确性的情况，提高标注的准确性。