技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音交互的训练数据生成方法、服务器及存储介质与流程  >  正文

用于语音交互的训练数据生成方法、服务器及存储介质与流程

  • 国知局
  • 2024-06-21 11:36:41

本技术涉及语音交互,特别涉及一种用于语音交互的训练数据生成方法、服务器及计算机可读存储介质。

背景技术:

1、为保障模型能正确地理解和处理自然语言,可通过包含大量样本的训练数据完成自然语言处理模型的训练,以保障模型的自然语言理解能力。然而,样本的标注依赖于人工,标注效率较低,标注所需时间较长。

技术实现思路

1、本技术提供了一种用于语音交互的训练数据生成方法、服务器及计算机可读存储介质。

2、本技术实施方式提供一种用于语音交互的训练数据生成方法,包括:

3、获取目标语音请求;

4、根据大语言模型,确定与所述目标语音请求相对应的参考槽位信息,其中,所述大语言模型预先训练完成,且能够根据语音请求确定槽位信息;

5、反馈所述参考槽位信息的置信度;

6、响应于所述参考槽位信息的标记操作,确定所述目标语音请求的目标槽位信息,其中,所述标记操作根据所述置信度进行;

7、根据所述目标语音请求和所述目标槽位信息生成所述训练数据。

8、本技术实施方式提供的用于语音交互的训练数据生成方法中,服务器可获取待标注的目标语音请求,根据预先训练完成,且能够根据语音请求确定槽位信息的大语言模型,确定目标语音请求相对应的参考槽位信息,反馈参考槽位信息的置信度,响应于根据置信度对参考槽位信息进行的标记操作,确定目标语音请求的目标槽位信息,根据目标语音请求及目标语音请求的目标槽位信息,完成训练数据的生成。

9、如此,在本技术实施方式中,服务器可根据预先训练完成的大语言模型,确定目标语音请求对应的参考槽位信息,并反馈参考槽位信息的置信度,进而能响应于根据置信度对参考槽位信息进行的标记操作,以确定目标语音请求的目标槽位信息,使得目标语音请求的标注得以完成。本技术实施方式可使得目标槽位信息的获取能基于大语言模型及标注操作完成,从而避免目标槽位信息完全基于人工得到的情况出现,目标槽位信息的获取过程中的人工参与环节减少,在一定程度上降低目标语音请求过程标注对人工的依赖程度,进而使得标注效率得以提升,标注所需时间得以降低。

10、在本技术某些实施方式中,所述根据大语言模型,确定与所述目标语音请求相对应的参考槽位信息,包括:

11、获取目标语音请求对应的目标历史槽位信息;

12、根据所述大语言模型及所述目标历史槽位信息,确定所述参考槽位信息,其中,所述大语言模型预先训练完成,且能够根据语音请求和历史槽位信息确定槽位信息。

13、如此,本技术实施方式的服务器使得大语言模型可利用目标语音请求及目标语音请求的目标历史槽位信息,完成参考槽位信息的生成,由此使得目标历史槽位信息、参考槽位信息及目标槽位信息的转换可基于大语言模型进行,从而在一定程度上降低目标历史槽位信息、参考槽位信息及目标槽位信息的转换中的人工参与环节。

14、在本技术某些实施方式中,所述响应于根据所述置信度的针对所述参考槽位信息的标记操作,包括:

15、在所述置信度满足预设条件的情况下,响应于所述标记操作,确定所述目标语音请求的所述目标槽位信息。

16、如此,本技术实施方式的服务器可在置信度满足预设条件的情况下响应于根据置信度的针对参考槽位信息的标记操作,以确定目标语音请求的目标槽位信息,从而在一定程度上降低目标槽位信息的获取过程中的人工参与环节。

17、在本技术某些实施方式中,所述方法还包括:

18、在所述置信度低于预设阈值的情况下,生成提示信息。

19、如此,本技术实施方式可在参考槽位信息的置信度低于预设阈值的情况下,生成提示信息,由此可提示标注人员对参考槽位信息进行确认。

20、在本技术某些实施方式中,所述根据大语言模型,确定与所述目标语音请求相对应的参考槽位信息,包括:

21、根据所述大语言模型和预先确定的提示信息模板,确定所述参考槽位信息,其中,所述大语言模型能够根据所述提示信息模板和所述语音请求确定所述槽位信息。

22、如此,本技术实施方式的服务器使得大语言模型可根据提示目标信息完成参考槽位信息的确定,从而在一定程度上保障参考槽位信息的可靠性。

23、在本技术某些实施方式中,所述大语言模型的训练步骤包括:

24、将预先确定的槽位类型知识信息及命名实体知识信息,注入基础模型以得到参考模型;

25、对所述参考模型进行训练,得到所述大语言模型。

26、如此,本技术实施方式可通过向基础模型注入槽位类型知识信息及命名实体知识信息以得到参考模型,及对参考模型进行训练以得到大语言模型,使得大语言模型可根据注入的槽位类型知识信息及命名实体知识信息理解和处理目标语音请求,在一定程度上保障大语言模型能可靠地完成目标语音请求对应的参考槽位信息的推理。

27、在本技术某些实施方式中,所述对所述参考模型进行训练,得到所述大语言模型,包括:

28、获取数据集,其中,所述数据集包括语音请求样本,及所述语音请求样本对应的槽位信息标签;

29、根据所述数据集训练所述参考模型,得到所述大语言模型。

30、如此,本技术实施方式的服务器可通过数据集对参考模型进行训练,以使得参考模型在训练过程中可学习到推理语音请求样本对应的槽位信息标签的能力,进而在完成训练以得到大语言模型的情况下,可在一定程度上保障大语言模型能可靠地推理出目标语音请求的参考槽位信息。

31、在本技术某些实施方式中,所述数据集包括多个所述槽位信息标签,一个所述槽位信息标签对应至少一个所述语音请求样本,所述根据所述数据集训练所述参考模型,得到所述大语言模型,包括:

32、根据对应的所述语音请求样本的数量满足预设条件的参照槽位信息标签,对所述数据集进行数据增强处理,得到增强数据集;

33、根据所述增强数据集训练所述参考模型,得到所述大语言模型。

34、如此,本技术实施方式可根据参照槽位信息标签完成数据集的数据增强以得到增强数据集,使得参考模型训练时能根据增强数据集完成训练,在一定程度上保障有参考模型的训练效果。

35、本技术实施方式提供一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述用于语音交互的训练数据生成方法。

36、本技术实施方式提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述用于语音交互的训练数据生成方法。

37、本技术实施方式提供的服务器和计算机可读存储介质,可根据预先训练完成的大语言模型,确定目标语音请求对应的参考槽位信息,并反馈参考槽位信息的置信度,进而能响应于根据置信度对参考槽位信息进行的标记操作,以确定目标语音请求的目标槽位信息,使得目标语音请求的标注得以完成。本技术实施方式可使得目标槽位信息的获取能基于大语言模型及标注操作完成,从而避免目标槽位信息完全基于人工得到的情况出现,目标槽位信息的获取过程中的人工参与环节减少,在一定程度上降低目标语音请求过程标注对人工的依赖程度,进而使得标注效率得以提升,标注所需时间得以降低。

38、本技术的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实施方式的实践了解到。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22394.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。