技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种用于语音交互的数据处理方法、系统及存储介质与流程 > 正文

一种用于语音交互的数据处理方法、系统及存储介质与流程

国知局
2024-06-21 11:53:32

本申请涉及数据处理，具体是一种用于语音交互的数据处理方法、系统及存储介质。

背景技术：

1、随着人机交互技术的持续创新，人们的交互方式在不断改变，从鼠标、键盘、遥控器再到触屏，交互方式越来越简单。而人工智能技术的兴起，为更加自然的交互方式提供了可能——自然语言会话，使用者可通过自然语言的方式与机器交互、获取信息，并以对话式交互为核心，将语音技术、图像技术、人脸识别技术、增强显示技术相结合，使技术存在于无处不在的设备中。在一些现有的智能语音交互装置的实际应用中，基于用户的使用反馈，不难发现，装置无法准确响应用户的交互意图的问题暴露的十分明显，因此，亟需对语音交互装置的数据处理技术进行改进。

技术实现思路

1、本申请的目的在于提供一种用于语音交互的数据处理方法、系统及存储介质，以解决上述背景技术中提出的技术问题。

2、为实现上述目的，本申请公开了以下技术方案：

3、第一方面，本申请提供了一种用于语音交互的数据处理方法，该方法包括以下步骤：

4、获取语音数据；

5、对所述语音数据进行文本转换得到文本信息；

6、基于所述文本信息进行意图分析后获取用户的交互意图；

7、将所述文本信息导入交互响应模型后输出用于预测的导向意图；

8、将所述交互意图与所述导向意图进行比对后获取交互内容；

9、基于所述交互内容对所述语音数据进行交互响应。

10、作为优选，所述的对所述语音数据进行文本转换得到文本信息，包括：

11、按照同音提取规则对所述语音数据进行语音提取，得到表示同一个声源发出的若干段语音段；

12、按照时间节点将若干段所述语音内容进行拼接后得到由同一个声源发出的语音内容；

13、将所述语音内容转换为所述文本信息；

14、其中，所述同音提取规则包括：采用相同音色和/或声纹对语音数据进行识别分析后，对表示同一个声源发出的语音段进行提取。

15、作为优选，当所述语音数据对应的声源个数大于1时，对所述语音内容进行身份鉴别，明确声源对应的用户身份，并将表示被信任的用户身份对应的语音内容作为目标语音内容，此时，所述的将所述语音内容转换为所述文本信息为：将所述目标语音内容转换为所述文本信息。

16、作为优选，所述的基于所述文本信息进行意图分析后获取用户的交互意图，具体包括：

17、对所述文本信息进行语义识别，将预设的交互语义特征与语义识别结果进行比对，提取所述文本信息对应的交互意图特征；

18、以所述交互意图特征在所述文本信息中的排布顺序对所述交互意图特征进行排序后生成意图特征阶层图表；

19、对所述意图特征阶层图表中的交互意图特征进行同类识别，并计算属于相同意图类型的交互意图特征在所述意图特征阶层图表中的比重值p，其中，pn为意图类型是n的交互意图特征对应的比重值，countn为意图类型是n的交互意图特征的个数，∑count为意图特征阶层图表中交互意图特征的总数；

20、将比重值p最大的意图类型作为交互意图对应的意图类型；

21、对比重值p最大的意图类型对应的所有交互意图特征进行语义提取，获取该所有交互意图特征对应的意图内容；

22、将所述意图类型和所述意图内容组合为所述交互意图。

23、作为优选，所述交互响应模型通过以大数据获取的语音信息及其对应的交互信息、以用户使用的历史语音信息及其对应的交互信息、以用户预设的语音信息及交互信息中的一种或多种作为关键词进行深度学习后得到，所述交互响应模型存储有多组语音信息对应的文本信息及与该文本信息对应的导向意图。

24、作为优选，所述交互意图和所述导向意图均包括意图类型和意图内容；所述的将所述交互意图与所述导向意图进行比对后获取交互内容，具体包括：

25、将所述交互意图的意图类型和所述交互响应模型输出的导向意图的意图类型进行比对，确认所述交互意图的意图类型和所述导向意图的意图类型之间的类型关联度asstype；

26、将所述交互意图的意图内容和所述导向意图的意图内容进行比对，确认所述交互意图的意图类型和所述导向意图的意图类型之间的内容关联度asscontent；

27、当所述类型关联度asstype大于预设的类型关联度阈值asstypemin和/或所述内容关联度asscontent大于预设的内容关联度阈值asscontentmin时，将所述导向意图与所述交互意图中的意图内容融合后作为所述交互内容；否则，将所述导向意图作为所述交互内容。

28、作为优选，当所述交互响应模型输出的导向意图的数量大于1时，在计算所述类型关联度asstype和所述内容关联度asscontent之前，将满足所述类型关联度asstype大于预设的类型关联度阈值asstypemin和/或所述内容关联度asscontent大于预设的内容关联度阈值asscontentmin的导向意图均与所述交互意图中的意图内容融合后作为所述交互内容。

29、作为优选，该种用于语音交互的数据处理方法还包括：所述交互响应模型将所述交互内容与对应的语音数据作为关键词进行深度学习。

30、第二方面，本申请公开了一种用于语音交互的数据处理系统，适用于如上所述的用于语音交互的数据处理方法，该种用于语音交互的数据处理系统包括：

31、拾音模块，配置为：获取语音数据；

32、文本转换模块，配置为：对所述语音数据进行文本转换得到文本信息；

33、意图分析模块，配置为：基于所述文本信息进行意图分析后获取用户的交互意图；

34、交互响应模型，配置为：基于输入的文本信息输出用于预测的导向意图；

35、意图明确模块，配置为：将所述交互意图与所述导向意图进行比对后获取交互内容；

36、交互响应模块，配置为：基于所述交互内容对所述语音数据进行交互响应。

37、第三方面，本申请公开了一种计算机可读存储介质，其上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的用于语音交互的数据处理方法。

38、有益效果：本申请，基于交互意图的分析，与通过交互响应模型输出的导向意图之间进行比对，获取到准确的交互内容，从而提高语音交互结果的准确性，并且，随着交互响应模型的不断优化，能够更快速、准确的实现人机之间的语音交互，提高使用价值。

技术特征：

1.一种用于语音交互的数据处理方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的用于语音交互的数据处理方法，其特征在于，所述的对所述语音数据进行文本转换得到文本信息，包括：

3.根据权利要求2所述的用于语音交互的数据处理方法，其特征在于，当所述语音数据对应的声源个数大于1时，对所述语音内容进行身份鉴别，明确声源对应的用户身份，并将表示被信任的用户身份对应的语音内容作为目标语音内容，此时，所述的将所述语音内容转换为所述文本信息为：将所述目标语音内容转换为所述文本信息。

4.根据权利要求1所述的用于语音交互的数据处理方法，其特征在于，所述的基于所述文本信息进行意图分析后获取用户的交互意图，具体包括：

5.根据权利要求1所述的用于语音交互的数据处理方法，其特征在于，所述交互响应模型通过以大数据获取的语音信息及其对应的交互信息、以用户使用的历史语音信息及其对应的交互信息、以用户预设的语音信息及交互信息中的一种或多种作为关键词进行深度学习后得到，所述交互响应模型存储有多组语音信息对应的文本信息及与该文本信息对应的导向意图。

6.根据权利要求5所述的用于语音交互的数据处理方法，其特征在于，所述交互意图和所述导向意图均包括意图类型和意图内容；所述的将所述交互意图与所述导向意图进行比对后获取交互内容，具体包括：

7.根据权利要求6所述的用于语音交互的数据处理方法，其特征在于，当所述交互响应模型输出的导向意图的数量大于1时，在计算所述类型关联度asstype和所述内容关联度asscontent之前，将满足所述类型关联度asstype大于预设的类型关联度阈值asstypemin和/或所述内容关联度asscontent大于预设的内容关联度阈值asscontentmin的导向意图均与所述交互意图中的意图内容融合后作为所述交互内容。

8.根据权利要求6所述的用于语音交互的数据处理方法，其特征在于，该种用于语音交互的数据处理方法还包括：所述交互响应模型将所述交互内容与对应的语音数据作为关键词进行深度学习。

9.一种用于语音交互的数据处理系统，适用于如权利要求1-8任意一项所述的用于语音交互的数据处理方法，其特征在于，该种用于语音交互的数据处理系统包括：

10.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1-8任意一项所述的用于语音交互的数据处理方法。

技术总结本申请公开了一种用于语音交互的数据处理方法、系统及存储介质，涉及数据处理技术领域。该方法包括以下步骤：获取语音数据；对所述语音数据进行文本转换得到文本信息；基于所述文本信息进行意图分析后获取用户的交互意图；将所述文本信息导入交互响应模型后输出用于预测的导向意图；将所述交互意图与所述导向意图进行比对后获取交互内容；基于所述交互内容对所述语音数据进行交互响应。该系统及存储介质，均与该方法相对应。本申请，基于交互意图的分析，与通过交互响应模型输出的导向意图之间进行比对，获取到准确的交互内容，从而提高语音交互结果的准确性，并且，随着交互响应模型的不断优化，能够更快速、准确的实现人机之间的语音交互，提高使用价值。技术研发人员：张岸宏,李业纯,刘钰受保护的技术使用者：心镜之力健康科技（广州）有限公司技术研发日：技术公布日：2024/5/27