技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、服务器及计算机可读存储介质与流程  >  正文

语音交互方法、服务器及计算机可读存储介质与流程

  • 国知局
  • 2024-06-21 11:33:02

本技术涉及语音交互,特别涉及一种语音交互方法、服务器及计算机可读存储介质。

背景技术:

1、为满足用户的语音交互,车辆或与车辆联网的服务器中可搭载有训练完成的语音交互模型,以使得车辆可通过语音交互模型完成与用户的交互。然而,在语音交互模型的训练过程中,训练数据过多则会导致训练时间过长,训练数据过少则可能导致模型预测精度不佳。

技术实现思路

1、本技术提供一种语音交互方法、服务器及计算机可读存储介质。

2、本技术实施方式提供一种语音交互方法,包括:

3、获取第一数据集;

4、利用预设模型和所述第一数据集中样本数据,确定所述第一数据集中样本数据的样本标签置信度;

5、根据所述样本标签置信度,采样所述第一数据集以确定第二数据集;

6、根据所述第二数据集确定语音交互模型,以根据所述语音交互模型完成所述语音交互。

7、本技术实施方式提供的语音交互方法中,服务器可获取第一数据集,利用预设模型和第一数据集中的样本数据,确定第一数据集中样本数据的样本标签置信度,根据样本数据的样本标签置信度,采样第一数据集中的部分样本数据以确定第二数据集,根据第二数据集确定语音交互模型,以使得车辆或服务器可根据语音交互模型完成与用户的语音交互。

8、如此,在本技术实施方式中,服务器可在获取到数据量较大的第一数据集后,对第一数据集进行采样以得到数据量较小的第二数据集,及根据第二数据集进行预设模型或语音交互模型的训练,避免语音交互模型直接通过数据量较大的数据集训练的情况出现,模型训练时间得以降低。同时,本技术实施方式的服务器可根据预设模型确定出的样本数据的样本标签置信度来采样,因而对第一数据集进行的采样能考虑到模型实际推理情况,第二数据集的有效性得以保障,由第二数据集训练的语音交互模型的精度可在一定程度上亦得到保障。

9、在本技术某些实施方式中,所述样本标签置信度包括多个,所述根据所述样本标签置信度,采样所述第一数据集以确定第二数据集,包括:

10、根据所述样本数据的多个所述样本标签置信度,确定所述样本数据的置信度指标信息;

11、根据所述置信度指标信息,采样所述第一数据集以确定第二数据集。

12、如此,本技术实施方式的服务器可根据由样本数据的多个样本标签置信度所确定的置信度指标信息,采样第一数据集中的样本数据以构成第二数据集,使得第一数据集的采样可考虑到预设模型对同一个样本数据的多次推理,因而第二数据集的有效性得以保障。

13、在本技术某些实施方式中,所述置信度指标信息包括置信度变异值,所述根据所述样本数据的多个所述样本标签置信度,确定所述样本数据的置信度指标信息,包括:

14、根据所述样本数据的多个所述样本标签置信度,及多个所述样本标签置信度的置信度均值,确定所述置信度变异值以得到所述置信度指标信息。

15、如此,本技术实施方式的服务器可确定样本数据的置信度变异值以确定置信度指标信息,进而可根据包括置信度变异值在内的置信度指标信息,对第一数据集进行采样,使得第一数据集的采样能考虑到样本数据的多个样本标签置信度的变异情况,进而能在一定程度上保障第一数据集的有效采样。

16、在本技术某些实施方式中,所述置信度指标信息包括置信度变异值,所述根据所述置信度指标信息,采样所述第一数据集以确定第二数据集,包括:

17、根据所述置信度变异值和第一预设阈值,采样所述第一数据集以确定所述第二数据集。

18、如此,本技术实施方式的服务器可根据样本数据的置信度变异值,及预设设定的第一预设阈值,对第一数据集进行采样,以使得数据采样的执行效率得以保障,及根据第一预设阈值进行的采样的可信度在一定程度上得到保障。

19、在本技术某些实施方式中,所述置信度指标信息包括置信度变异值,所述根据所述置信度指标信息,采样所述第一数据集以确定第二数据集,包括:

20、抽取所述第一数据集中,所述置信度变异值高于第二预设阈值的样本数据,及所述置信度变异值低于或等于所述第二预设阈值的样本数据,确定所述第二数据集。

21、如此,本技术实施方式的服务器根据第二数据集训练语音交互模型的过程中,训练完成的语音交互模型能通过置信度变异值高于第二预设阈值的样本数据,学习到难度较高的样本数据的推理方式,及根据置信度变异值低于或等于第二预设阈值的样本数据,学习到难度较低的样本数据的推理方式,语音交互模型的训练效果在一定程度上得以保障。

22、在本技术某些实施方式中,所述根据所述置信度指标信息,采样所述第一数据集以确定第二数据集,包括:

23、根据所述置信度指标信息,划分所述第一数据集以确定多个数据子集;

24、采样所述数据子集以得到所述第二数据集。

25、如此,本技术实施方式可根据置信度指标信息将第一数据集划分为多个数据子集后,分别对各个数据子集进行采样,使得由采样各个数据子集而得到的第二数据集中,可包括有不同置信度指标信息所对应的不同数据子集中的样本数据,进而在一定程度上保障有第一数据集的合理采样。

26、在本技术某些实施方式中,所述获取第一数据集,包括:

27、采样第三数据集以确定所述第一数据集。

28、如此,本技术实施方式的服务器从数据量较大的第三数据集抽取样本数据以得到数据量较小第一数据集,及可对数据量次之第一数据集进行采样以得到数据量更小的第二数据集,使得语音交互模型的训练可采用第二数据集,而非采用第一数据集或第三数据集来进行,语音交互模型的训练时长和训练效果均得到一定程度的保障。

29、在本技术某些实施方式中,所述采样第三数据集以确定所述第一数据集,包括:

30、采样所述第三数据集,得到第四数据集;

31、根据所述预设模型,确定所述第四数据集中样本数据的标签预测结果;

32、根据所述标签预测结果与样本标签存在差异的样本数据,确定所述第一数据集。

33、如此,本技术实施方式的服务器可在对数据量较大的第三数据集进行采样,以得到数量降低后的第四数据集后,再通过预设模型确定第四数据集中样本数据的标签预测结果,及根据第四数据集中标签预测结果与样本标签存在差异的样本数据,得到数据量进一步降低后的第一数据集,且保障第一数据集中的样本数据均具备一定难度,由此保障后续进行语音交互模型的训练时,语音交互模型的训练时长和训练效果均可得到一定程度的保障。

34、在本技术某些实施方式中,所述采样所述第三数据集,得到第四数据集,包括:

35、基于预先确定的样本数据与业务功能的对应关系,根据所述业务功能抽取所述第三数据集中的样本数据,确定所述第四数据集。

36、如此,本技术实施方式使得服务器可根据第一数据集中各个样本数据的业务功能进行采样,从而在一定程度上保障第四数据集、第一数据集及第二数据集的合理获取。

37、在本技术某些实施方式中,所述根据所述标签预测结果与样本标签存在差异的样本数据,确定所述第一数据集,包括:

38、根据所述标签预测结果与所述样本标签存在差异的样本数据,确定第五数据集;

39、划分所述第五数据集以确定第六数据集;

40、融合所述第六数据集和预先确定的基准数据集,确定第一数据集。

41、如此,本技术实施方式可通过由第六数据集和基准数据集融合得到的第一数据集,从而能执行相应的采样操作以得到第二数据集,使得第二数据集能包括的样本数据的可靠性在一定程度上得以保障。

42、在本技术某些实施方式中,所述获取第一数据集,包括:

43、根据预先确定的图谱数据,确定所述第一数据集。

44、如此,本技术实施方式的服务器可根据预先确定的图谱数据,来得到第一数据集中的样本数据,使得样本数据的获取难度得以降低,样本数据获取效率得以保障。

45、本技术实施方式提供一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的语音交互方法。

46、本技术实施方式提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的语音交互方法。

47、本技术实施方式提供的服务器和计算机可读存储介质,在可在获取到数据量较大的第一数据集后,对第一数据集进行采样以得到数据量较小的第二数据集,及根据第二数据集进行预设模型或语音交互模型的训练,避免语音交互模型直接通过数据量较大的数据集训练的情况出现,模型训练时间得以降低。同时,本技术实施方式的服务器可根据预设模型确定出的样本数据的样本标签置信度来采样,因而对第一数据集进行的采样能考虑到模型实际推理情况,第二数据集的有效性得以保障,由第二数据集训练的语音交互模型的精度可在一定程度上亦得到保障。

48、本技术的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实施方式的实践了解到。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22184.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。