技术新讯 > 乐器声学设备的制造及制作,分析技术 > 意图确定方法、装置、设备和存储介质与流程 > 正文

意图确定方法、装置、设备和存储介质与流程

国知局
2024-06-21 11:51:15

本发明涉及语音识别，尤其涉及一种意图确定方法、装置、设备和存储介质。

背景技术：

1、随着汽车产业的发展，用户消费形态的改变，自动驾驶、智能座舱和新能源这些概念已经逐渐落地成为现实，智能语音交互与汽车之间耦合得更加紧密。由于驾驶汽车无法解放双手，对于人机互动的需求更多需要通过语言来实现，而且随着人工智能和硬件性能的增强，端侧车载语音交互系统将成为未来最主要的车内交互方式。

2、目前，在用户输入人机交互命令时，通常通过非对齐的训练语料或者对齐的训练语料预先训练神经网络，并通过训练好的神经网络对输入的完整人机交互命令进行语音识别，以确定用户的意图，从而执行相应的命令。

3、然而，上述方式中，确定用户意图的效率较低，导致人机交互命令执行的及时性不够。

技术实现思路

1、本发明提供一种意图确定方法、装置、设备和存储介质，用以解决现有技术中确定用户意图的效率较低、且人机交互命令执行及时性不够的缺陷，实现提高用户意图确定的效率的目的，从而可以进一步提升人机交互命令执行的及时性。

2、本发明提供一种意图确定方法，包括：

3、将待识别音频输入音频识别模型，得到所述音频识别模型输出的识别结果；

4、在实时检测到所述识别结果中包括第一意图节点的情况下，在所述识别结果中获取所述第一意图节点对应的第一文本和第二意图节点对应的第二文本，所述第一意图节点为表征意图结束的节点，所述第二意图节点为表征意图开始的节点；

5、基于所述第一文本和所述第二文本，确定所述待识别音频对应的目标意图。

6、根据本发明提供的一种意图确定方法，所述音频识别模型为基于如下方式训练得到的：

7、确定第一样本音频对应的正样本文本和第二样本音频对应的负样本文本；

8、分别确定所述正样本文本对应的第一标签和所述负样本文本对应的第二标签，所述第一标签包括所述正样本文本中的第一分词和所述第一分词对应的表征意图开始的节点，以及所述第二分词和所述第二分词对应的表征意图结束的节点，所述第二标签包括所述负样本文本中的第三分词和所述第三分词对应的表征意图开始的节点；

9、将所述第一样本音频和所述第二样本音频输入初始音频识别模型，得到所述第一样本音频对应的第一预测识别结果和所述第二样本音频对应的第二预测识别结果；所述第一预测识别结果包括所述第一分词对应的第一预测意图节点和所述第二分词对应的第二预测意图节点，所述第二预测识别结果包括第三分词对应的第三预测意图节点；

10、基于所述第一样本音频对应的所述第一标签和所述第一预测识别结果，以及所述第二样本音频对应的所述第二标签和所述第二预测识别结果，调整所述初始音频识别模型的模型参数，得到所述音频识别模型。

11、根据本发明提供的一种意图确定方法，确定所述正样本文本对应的第一标签，包括：

12、将所述正样本文本输入挖槽模型，得到所述挖槽模型输出的所述正样本文本中第一分词的第一挖槽标签和第二分词的第二挖槽标签，所述第一挖槽标签用于表征意图操作，所述第二挖槽标签用于表征所述意图操作对应的对象；所述挖槽模型为基于样本文本和所述样本文本中样本分词的样本挖槽标签训练得到的；

13、在所述第一挖槽标签对应的第一分词后添加第一样本意图节点，并在所述第二挖槽标签对应的第二分词后添加第二样本意图节点，得到所述第一标签。

14、根据本发明提供的一种意图确定方法，确定所述负样本文本对应的第二标签，包括：

15、确定所述负样本文本的句首分词是否为分词列表中的分词，所述分词列表中包括所述正样本文本中的所述第一分词；

16、在所述负样本文本的句首分词为所述分词列表中的分词的情况下，在所述句首分词后添加第三样本意图节点，得到所述第二标签。

17、根据本发明提供的一种意图确定方法，基于所述第一样本音频对应的所述第一标签和所述第一预测识别结果，以及所述第二样本音频对应的所述第二标签和所述第二预测识别结果，调整所述初始音频识别模型的模型参数，得到所述音频识别模型，包括：

18、基于所述第一样本音频对应的所述第一标签和所述第一预测识别结果，以及所述第二样本音频对应的所述第二标签和所述第二预测识别结果，确定第一损失信息；

19、基于所述第一预测识别结果中所述第一预测意图节点和所述第一分词之间的空格数，确定第二损失信息；

20、基于所述第一损失信息和所述第二损失信息，调整所述初始音频识别模型的模型参数，得到所述音频识别模型。

21、根据本发明提供的一种意图确定方法，所述基于所述第一损失信息和所述第二损失信息，调整所述初始音频识别模型的模型参数，得到所述音频识别模型，包括：

22、在自回归过程中确定预测空格数量，并基于所述预测空格数量确定第三损失信息；

23、基于所述第一损失信息、所述第二损失信息和所述第三损失信息，调整所述初始音频识别模型的模型参数，得到所述音频识别模型。

24、根据本发明提供的一种意图确定方法，所述第一样本音频和所述第二样本音频均包括全时免唤醒场景下的训练数据和通用场景下的训练数据。

25、本发明还提供一种意图确定装置，包括：

26、输入模块，用于将待识别音频输入音频识别模型，得到所述音频识别模型输出的识别结果；

27、获取模块，用于在实时检测到所述识别结果中包括第一意图节点的情况下，在所述识别结果中获取所述第一意图节点对应的第一文本和第二意图节点对应的第二文本，所述第一意图节点为表征意图结束的节点，所述第二意图节点为表征意图开始的节点；

28、确定模块，用于基于所述第一文本和所述第二文本，确定所述待识别音频对应的目标意图。

29、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述意图确定方法。

30、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述意图确定方法。

31、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述意图确定方法。

32、本发明提供的意图确定方法、装置、设备和存储介质，通过将待识别音频输入音频识别模型，得到音频识别模型输出的识别结果，在实时检测到识别结果中包括第一意图节点的情况下，在识别结果中获取第一意图节点对应的第一文本和第二意图节点对应的第二文本，该第一意图节点为表征意图结束的节点，第二意图节点为表征意图开始的节点，并基于第一文本和第二文本，确定待识别音频对应的目标意图。由于一旦在检测到识别结果中包括第一意图节点时，就可以基于第一意图节点对应的第一文本和第二意图节点对应的第二文本确定目标意图，而不需要结合整个待识别音频对应的语义信息确定目标意图，即使只识别了部分的待识别音频，也可以更快的确定出用户的目标意图，提升了意图确定的效率，从而可以进一步提升目标意图对应的命令执行的及时性。