技术新讯 > 乐器声学设备的制造及制作,分析技术 > 应用于实时会话的语音响应方法、装置、介质及电子设备与流程 > 正文

应用于实时会话的语音响应方法、装置、介质及电子设备与流程

国知局
2024-06-21 11:30:06

本技术涉及计算机，具体而言，涉及一种应用于实时会话的语音响应方法、应用于实时会话的语音响应装置、计算机可读存储介质及电子设备。

背景技术：

1、智能语音客服，是一种利用人工智能技术和语音识别技术来实现客户服务的方式，可以通过自动化处理来响应客户的查询、问题或需求，而无需人工干预。

2、智能语音客服，具体可以实现为一种语音对话系统。接收到用户语音(如，我还有多少话费)之后，语音对话系统可以识别用户语音的语义，并生成相应的回复语音(如，还有10元话费)并播放该回复语音。但是，与不同的用户进行人机对话的过程中，对话速度会有所不同。简单来说，有一些用户说话速度比较慢，而有一些用户说话速度比较快。而相关技术的智能语音客服中没有设置应对这种情况的方案。

3、因此，现有的语音对话系统容易将不完整的用户语音判定为完整的用户语音，进而，对不完整的用户语音进行语义识别并输出相应的回复语音。输出回复语音时可能会恰逢用户说话的时候，即，存在抢话问题。同时，对不完整的用户语音进行语义识别也会导致所生成的回复语音与用户意图不匹配，导致答非所问的情况。

4、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有方案的信息。

技术实现思路

1、本技术的目的在于提供一种应用于实时会话的语音响应方法、应用于实时会话的语音响应装置、计算机可读存储介质及电子设备，可以获取一种用于进行话语权预测的话语权预测模型，对会话过程中的第一用户语音进行话语权预测，若预测结果表征当前话语权属于系统端，则基于相应的系统语音来响应第一用户语音，若预测结果表征当前话语权属于用户端，则判定需要继续采集会话过程中的第二用户语音，即，通过话语权预测的结果来指导对话系统的操作，避免会话过程中出现抢话的问题，以及避免因针对不完整的用户语音生成回复语音而导致的答非所问的问题。

2、本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。

3、根据本技术的一方面，提供一种应用于实时会话的语音响应方法，该方法包括：

4、获取话语权预测模型；

5、基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果；

6、若预测结果表征当前话语权属于系统端，则通过系统语音响应第一用户语音；

7、若预测结果表征当前话语权属于用户端，则继续采集会话过程中的第二用户语音。

8、在本技术的一种示例性实施例中，还包括：

9、获取样本语音数据；

10、基于音频分段参数截取样本语音数据中的语音片段；

11、通过特征提取模型提取语音片段的特征集合；

12、根据特征集合训练得到话语权预测模型。

13、在本技术的一种示例性实施例中，根据特征集合训练得到话语权预测模型，包括：

14、根据特征集合迭代训练神经网络模型，从训练过程中得到多个待选模型；

15、基于样本语音数据对应的标注结果，统计多个待选模型分别对应的模型准确率，并以交叉验证法对多个待选模型进行稳定性验证，得到多个待选模型分别对应的模型稳定性；

16、基于模型准确率和模型稳定性，从多个待选模型中选取话语权预测模型。

17、在本技术的一种示例性实施例中，特征提取模型包括以下至少一种：意图分类模型、语音识别模型、噪音检测模型。

18、在本技术的一种示例性实施例中，通过特征提取模型提取语音片段的特征集合，包括：

19、通过意图分类模型提取语音片段中的意图类别特征；

20、通过语音识别模型提取语音片段中的贝叶斯置信度特征和转写文本特征；

21、通过噪音检测模型提取语音片段中的噪音置信度特征和语音置信度特征；

22、获取语音片段对应的音量，以得到包含意图类别特征、贝叶斯置信度特征、转写文本特征、噪音置信度特征、语音置信度特征和音量的特征集合。

23、在本技术的一种示例性实施例中，获取话语权预测模型，包括：

24、调用创建函数以创建模型句柄；

25、调用模型加载函数，以基于模型句柄载入话语权预测模型。

26、在本技术的一种示例性实施例中，基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果，包括：

27、调用数据标准化函数将会话过程中的第一用户语音处理为待输入数据；

28、将话语权预测模型应用于预测函数；

29、将待输入数据输入预测函数进行话语权预测，以使得预测函数输出预测结果。

30、在本技术的一种示例性实施例中，基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果，包括：

31、检测第一用户语音对应的会话领域；

32、若不存在与会话领域对应的话语权判定规则，则基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果。

33、在本技术的一种示例性实施例中，还包括：

34、若存在与会话领域对应的话语权判定规则，则基于话语权判定规则对第一用户语音进行话语权预测，得到预测结果。

35、在本技术的一种示例性实施例中，通过系统语音响应第一用户语音，包括：

36、从包含知识库和知识图谱的文本数据库中，确定对应于第一用户语音的插话文本；

37、通过语音合成器播放与插话文本对应的系统语音。

38、根据本技术的一方面，提供一种应用于实时会话的语音响应装置，包括：

39、模型获取单元，用于获取话语权预测模型；

40、话语权预测单元，用于基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果；

41、系统话语权处理单元，用于若预测结果表征当前话语权属于系统端，则通过系统语音响应第一用户语音；

42、用户话语权处理单元，用于若预测结果表征当前话语权属于用户端，则继续采集会话过程中的第二用户语音。

43、在本技术的一种示例性实施例中，还包括：

44、模型训练单元，用于获取样本语音数据；基于音频分段参数截取样本语音数据中的语音片段；通过特征提取模型提取语音片段的特征集合；根据特征集合训练得到话语权预测模型。

45、在本技术的一种示例性实施例中，模型训练单元根据特征集合训练得到话语权预测模型，包括：

46、根据特征集合迭代训练神经网络模型，从训练过程中得到多个待选模型；

47、基于样本语音数据对应的标注结果，统计多个待选模型分别对应的模型准确率，并以交叉验证法对多个待选模型进行稳定性验证，得到多个待选模型分别对应的模型稳定性；

48、基于模型准确率和模型稳定性，从多个待选模型中选取话语权预测模型。

49、在本技术的一种示例性实施例中，特征提取模型包括以下至少一种：意图分类模型、语音识别模型、噪音检测模型。

50、在本技术的一种示例性实施例中，模型训练单元通过特征提取模型提取语音片段的特征集合，包括：

51、通过意图分类模型提取语音片段中的意图类别特征；

52、通过语音识别模型提取语音片段中的贝叶斯置信度特征和转写文本特征；

53、通过噪音检测模型提取语音片段中的噪音置信度特征和语音置信度特征；

54、获取语音片段对应的音量，以得到包含意图类别特征、贝叶斯置信度特征、转写文本特征、噪音置信度特征、语音置信度特征和音量的特征集合。

55、在本技术的一种示例性实施例中，模型获取单元获取话语权预测模型，包括：

56、调用创建函数以创建模型句柄；

57、调用模型加载函数，以基于模型句柄载入话语权预测模型。

58、在本技术的一种示例性实施例中，话语权预测单元基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果，包括：

59、调用数据标准化函数将会话过程中的第一用户语音处理为待输入数据；

60、将话语权预测模型应用于预测函数；

61、将待输入数据输入预测函数进行话语权预测，以使得预测函数输出预测结果。

62、在本技术的一种示例性实施例中，话语权预测单元基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果，包括：

63、检测第一用户语音对应的会话领域；

64、若不存在与会话领域对应的话语权判定规则，则基于话语权预测模型对会话过程中的第一用户语音进行话语权预测，得到预测结果。

65、在本技术的一种示例性实施例中，其中：

66、话语权预测单元，还用于若存在与会话领域对应的话语权判定规则，则基于话语权判定规则对第一用户语音进行话语权预测，得到预测结果。

67、在本技术的一种示例性实施例中，系统话语权处理单元通过系统语音响应第一用户语音，包括：

68、从包含知识库和知识图谱的文本数据库中，确定对应于第一用户语音的插话文本；

69、通过语音合成器播放与插话文本对应的系统语音。

70、根据本技术的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一项的方法。

71、根据本技术的一方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的方法。

72、本技术示例性实施例可以具有以下部分或全部有益效果：

73、在本技术的一示例实施方式所提供的应用于实时会话的语音响应方法中，可以获取一种用于进行话语权预测的话语权预测模型，对会话过程中的第一用户语音进行话语权预测，若预测结果表征当前话语权属于系统端，则基于相应的系统语音来响应第一用户语音，若预测结果表征当前话语权属于用户端，则判定需要继续采集会话过程中的第二用户语音，即，通过话语权预测的结果来指导对话系统的操作，避免会话过程中出现抢话的问题，以及避免因针对不完整的用户语音生成回复语音而导致的答非所问的问题。此外，基于对话语权的预测，以及预测结果对于对话系统的指导，不仅可以避免会话过程中出现抢话的问题，还可以在判定为系统端话语权时及时输出系统语音，以提升对于用户语音的回复效率，进而，可以提升会话过程的流畅度。

74、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。