技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种终端设备及基于查询文本改写的语音交互方法与流程 > 正文

一种终端设备及基于查询文本改写的语音交互方法与流程

国知局
2024-06-21 11:41:33

本技术涉及语言处理，尤其涉及一种终端设备及基于查询文本改写的语音交互方法。

背景技术：

1、终端设备是指内置对话系统的电子设备，可以是智能电视、手机、智能音箱、电脑、机器人等电子设备。以智能电视为例，智能电视是基于internet应用技术，具备开放式操作系统与芯片，拥有开放式应用平台，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体的电视产品，用于满足用户多样化和个性化需求。

2、为了实现语音交互，终端设备还设置语音交互网络架构，可以通过语音识别模块(asr)识别用户输入的文本内容，以根据文本内容执行相应的操作。然而，由于终端设备支持语种的多样性、收音设备的性能、用户口音等问题，导致asr模块识别出的用户查询文本(query)存在语法或语义错误，相关错误还会影响后续的语义理解模块(nlu)、对话状态管理模块(dst)、自然语言生成模块(nlg)等，从而造成连锁反应。因此，可以在asr模块之后，对查询文本进行检测，及时对有错误的查询文本进行改写与纠正，有效阻断错误的传播，减少用户的重复交互，从而提升用户交互体验。

3、对于查询文本的改写方法，可以基于大规模的线上日志训练一个相对置信的语言模型，基于相似度、编辑距离等方式挖掘一批高频词汇改写对，再对用户输入的查询文本改写其部分高频词汇，该方法高频词汇的维护成本较高，且只支持部分词汇的改写，不支持整体查询文本的改写。还可以基于大规模的线上日志数据，通过人工标注和维护高频查询文本改写对，及时地对线上查询文本进行改写。该方法依赖大量的人工标注，成本较高，且标注人员标注准不一致，导致改写存在误差。还可以训练序列到序列的模型(seq2seq模型)，即使用预训练模型知识，直接生成最终的改写文本，该方法不可控，且适用场景具有局限性。

技术实现思路

1、本技术提供了一种终端设备及基于查询文本改写的语音交互方法，以解决语音交互过程中查询文本改写正确率低的问题。

2、第一方面，本技术一些实施例提供一种终端设备，包括声音采集器、存储器和控制器，其中，所述声音采集器被配置为采集查询语音，所述存储器被配置为存储查询改写模型，所述查询改写模型为根据训练样本语料预训练获得的神经网络模型，所述控制器被配置为执行以下程序步骤：

3、响应于用户输入的查询语音，识别所述查询语音中的查询文本；

4、获取与所述查询文本关联的历史对话文本；

5、根据所述历史对话文本生成对话信息，所述对话信息包括对话行为和意图；

6、将所述查询文本和所述对话信息输入至所述查询改写模型，以根据所述查询改写模型的输出结果得到查询改写文本；

7、响应所述查询改写文本对应的语音控制指令。

8、可选的，所述控制器执行获取与所述查询文本关联的历史对话文本的步骤，还被配置为执行以下程序步骤：

9、获取所述查询语音的接收时间；

10、在历史对话日志数据库中查询位于所述接收时间之前，且前后轮时间间隔小于预设时间间隔的多轮对话数据；

11、按照预设数据格式导出所述多轮对话数据，以得到历史对话文本。

12、可选的，所述控制器执行根据所述历史对话文本生成对话信息的步骤，还被配置为执行以下程序步骤：

13、将所述历史对话文本划分为用户文本和系统文本；

14、识别所述用户文本的用户对话行为和意图；

15、识别所述系统文本的系统对话行为；

16、按照预设序列对所述用户对话行为、所述意图和所述系统对话行为进行排序，以得到对话信息。

17、可选的，所述控制器还被配置为执行以下程序步骤：

18、基于预设用户对话标签定义所述用户对话行为；

19、基于预设系统对话标签定义所述系统对话行为。

20、可选的，所述控制器还被配置为执行以下程序步骤：

21、获取训练样本语料，所述训练样本语料为标记有不同改写位置的文本改写语料，所述文本改写语料包括有效文本改写语料和无效文本改写语料；

22、构建初始神经网络模型，以及基于所述训练样本语料之间的对话行为训练所述初始神经网络模型，以得到查询改写模型。

23、可选的，所述控制器执行获取训练样本语料的步骤之后，还被配置为执行以下程序步骤：

24、按照预设比例将训练样本语料划分为训练集、开发集和测试集；

25、基于所述训练集训练所述初始神经网络模型；

26、基于所述开发集调优训练后的所述初始神经网络模型；

27、基于所述测试集评估调优后的所述初始神经网络模型，以筛选最优查询改写模型。

28、可选的，所述控制器还被配置为执行以下程序步骤：

29、构建多任务训练的神经网络模型，所述神经网络模型的训练任务包括分类任务和序列标注任务，所述分类任务用于预测所述查询文本的改写状态，所述序列标注任务用于预测所述查询文本改写的开始位置和结束位置；

30、基于所述训练样本语料分别训练所述分类任务和所述序列标注任务，以得到查询改写模型。

31、可选的，所述控制器还被配置为执行以下程序步骤：

32、获取所述查询改写模型输出的查询改写结果，所述查询改写结果包括预测分类结果和序列标注结果，所述预测分类结果包括需要改写和不需要改写，所述序列标注结果包括所述查询文本改写的开始位置和结束位置；

33、如果所述预测分类结果为需要改写，则按照所述序列标注结果改写所述查询文本，以得到查询改写文本；

34、如果所述预测分类结果为不需要改写，则响应所述查询文本对应的语音控制指令。

35、可选的，所述控制器执行按照所述序列标注结果改写所述查询文本的步骤，还被配置为执行以下程序步骤：

36、在所述查询文本中定位所述开始位置和所述结束位置；

37、截取所述开始位置和所述结束位置之间的文本，以得到查询改写文本。

38、第二方面，本技术一些实施例还提供一种基于查询文本改写的语音交互方法，包括：

39、响应于用户输入的查询语音，识别所述查询语音中的查询文本；

40、获取与所述查询文本关联的历史对话文本；

41、根据所述历史对话文本生成对话信息，所述对话信息包括对话行为和意图；

42、将所述查询文本和所述对话信息输入至所述查询改写模型，以根据所述查询改写模型的输出结果得到查询改写文本，所述查询改写模型为根据训练样本语料预训练获得的神经网络模型；

43、响应所述查询改写文本对应的语音控制指令。

44、由以上技术方案可知，本技术提供一种终端设备及基于查询文本改写的语音交互方法，所述方法可以在获取到用户输入的查询语音后，识别查询语音中的查询文本，获取与查询文本关联的历史对话文本，并根据历史对话文本生成对话信息，其中，对话信息包括对话行为和意图。将查询文本和对话信息输入至查询改写模型，以根据查询改写模型的输出结果得到查询改写文本，响应查询改写文本对应的语音控制指令，以执行相应的操作。所述方法为基于对话行为和上下文交互的查询文本检测改写方法，通过融合用户与系统对话过程中的多轮交互信息，实时预测当前查询文本是否需要改写，以及文本改写位置，解决语音交互过程中识别出的查询文本存在语法或语义错误，导致系统后续操作与用户需求存在偏差的问题，提高语音交互成功率，提升用户交互体验。