技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语料的获取方法、装置、电子设备、存储介质和程序产品与流程 > 正文

语料的获取方法、装置、电子设备、存储介质和程序产品与流程

国知局
2024-06-21 11:52:28

本发明涉及大模型领域，具体而言，涉及一种语料的获取方法、装置、电子设备、存储介质和程序产品。

背景技术：

1、目前，变体语言(比如，方言)是自然语言的变体，通常在特定地理区域或社会群体中使用。传统的语音识别技术常常面临方言差异的挑战，因为传统的语音识别技术主要针对标准语言进行训练和优化。

2、在相关技术中，方言语料往往难以获得，尤其是一些相对小众的方言，想要仅仅通过传统录音和标注方法，模型训练的成本高且耗时长，存在获取语料的效率低的技术问题。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种语料的获取方法、装置、电子设备、存储介质和程序产品，以至少解决获取语料的效率低的技术问题。

2、根据本发明实施例的一个方面，提供了一种语料的获取方法。该方法可以包括：获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。

3、可选地，确定音视频数据中音频数据对应的第一文本内容，包括：利用语音识别模型对音频数据中出现的人声进行识别，得到第一文本内容，其中，语音识别模型用于识别变体语言。

4、可选地，确定音视频数据中图像数据对应的第二文本内容，包括：确定图像数据中的文本区域和文本区域对应的位置信息；对文本区域进行识别，得到文本区域中的第三文本内容、以及第三文本内容对应的初始识别置信度；基于位置信息、第三文本内容和初始识别置信度，得到第二文本内容。

5、可选地，确定图像数据中的文本区域，包括：确定图像数据中的至少一子文本区域，其中，子文本区域中包含部署角度满足水平阈值的文本；对至少一子文本区域进行聚类合并，得到文本区域。

6、可选地，基于位置信息、第三文本内容和初始识别置信度，得到第二文本内容，包括：基于位置信息，从第三文本内容中筛选出图像数据中的字幕文本；对图像数据中的字幕文本进行合并，得到合并文本；基于初始识别置信度，确定合并文本对应的目标识别置信度；基于目标识别置信度、图像数据对应的时间信息和合并文本，得到第二文本内容。

7、可选地，基于目标识别置信度、图像数据对应的时间信息和合并文本，得到第二文本内容，包括：确定图像数据的相邻帧图像；确定图像数据中的合并文本和相邻帧图像中的合并文本的第一相似度；响应于第一相似度大于相似度阈值，将合并文本和相邻帧图像对应的合并文本中，目标识别置信度大于置信度阈值的合并文本，确定为第二文本内容；将图像数据中的合并文本的文本内容，以及相邻帧图像中的合并文本的文本内容，更新为第二文本内容。

8、可选地，对第一文本内容和第二文本内容进行匹配，得到匹配信息，包括：对音频数据进行人声定位，得到音频数据中至少一人声对应的第一文本内容的第一起止时间；确定第二文本内容第二起止时间；基于第一起止时间和第二起止时间，对第一文本内容和第二文本内容进行匹配，得到匹配信息。

9、可选地，确定第二文本内容的起止时间，得到第二起止时间，包括：确定视频数据的多帧图像数据中，文本内容为第二文本内容的第一个图像数据，以及文本内容为第二文本内容的最后一个图像数据；基于第一个图像数据出现的时间，以及最后一个图像数据的出现时间，确定第二起止时间。

10、可选地，基于第一起止时间和第二起止时间，对第一文本内容和第二文本内容进行匹配，得到匹配信息，包括：扩展第一起止时间，得到第三起止时间；确定多个第二文本内容中，第二起止时间位于第三起止时间中的至少一匹配文本内容；分别对至少一匹配文本内容和第一文本内容进行匹配，得到匹配信息。

11、根据本发明实施例的另一方面，还提供了一种语料的获取装置。该装置可以包括：获取单元，用于获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；第一确定单元，用于确定音视频数据中音频数据对应的第一文本内容，以及音视频数据中图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；处理单元，用于对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；第二确定单元，用于基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；组合单元，用于将音频数据和目标文本内容进行组合，得到目标语料。

12、根据本发明实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质存储有多条指令，上述指令适于由处理器加载并执行任意一项上述的语料的获取方法。

13、根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，上述存储器用于存储一个或多个程序，其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现任意一项上述的语料的获取方法。

14、根据本发明实施例的另一方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现任意一项上述的语料的获取方法。

15、在本发明实施例中，获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。也就是说，在本发明实施例获取带变体语言和文本内容的音视频数据，对音视频数据中的音频数据进行处理，得到第一文本信息，且对音视频数据中的多帧图像数据进行处理，得到第二文本信息，对第一文本信息和第二文本信息进行匹配，以确定与音频数据匹配的目标文本内容，可以将音频数据和目标文本内容进行组合，从而得到可以作为训练数据的方言语料，进而实现了提高获取语料的效率的技术效果，解决了获取语料的效率低的技术问题。

技术特征：

1.一种语料的获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定所述音视频数据中所述音频数据对应的所述第一文本内容，包括：

3.根据权利要求1所述的方法，其特征在于，确定所述音视频数据中所述图像数据对应的所述第二文本内容，包括：

4.根据权利要求3所述的方法，其特征在于，确定所述图像数据中的所述文本区域，包括：

5.根据权利要求3所述的方法，其特征在于，基于所述位置信息、所述第三文本内容和所述初始识别置信度，得到所述第二文本内容，包括：

6.根据权利要求5所述的方法，其特征在于，基于所述目标识别置信度、所述图像数据对应的时间信息和所述合并文本，得到所述第二文本内容，包括：

7.根据权利要求1所述的方法，其特征在于，对所述第一文本内容和所述第二文本内容进行匹配，得到匹配信息，包括：

8.根据权利要求7所述的方法，其特征在于，确定第二文本内容的起止时间，得到所述第二起止时间，包括：

9.根据权利要求7所述的方法，其特征在于，基于所述第一起止时间和所述第二起止时间，对所述第一文本内容和所述第二文本内容进行匹配，得到所述匹配信息，包括：

10.一种语料的获取装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

12.一种存储有计算机指令的非易失性存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。

技术总结本发明公开了一种语料的获取方法、装置、电子设备、存储介质和程序产品。其中，该方法包括：获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。本发明解决了获取语料的效率低的技术问题。技术研发人员：周逸铭,康健,李杰受保护的技术使用者：中电信人工智能科技（北京）有限公司技术研发日：技术公布日：2024/5/16