技术新讯 > 乐器声学设备的制造及制作,分析技术 > 车辆座舱语音意图识别方法、装置及车辆控制方法与流程 > 正文

车辆座舱语音意图识别方法、装置及车辆控制方法与流程

国知局
2024-06-21 11:43:11

本申请涉及计智能汽车，特别涉及一种车辆座舱语音意图识别方法、装置及车辆控制方法。

背景技术：

1、车辆座舱是车辆与司乘人员交互最为密切的部分，随着智能座舱和自动驾驶技术的不断发展，车辆不再仅是协助人们出行的工具，而车辆座舱也逐渐成为人们多元化生活空间中的一环，车辆座舱中的人机交互显的尤为重要。

2、目前车辆座舱人机交互最为普遍的方式是语音交互，即司乘人员通过语音的方式向车辆座舱发送命令，车辆座舱经过语音识别、语义理解语音合成等处理过程后与用户对话，来完成用户意图识别，并根据识别到的用户意图来执行车辆座舱控制。

3、这种意图识别方式借助于司乘人员当前的语音数据进行用户意图识别，这会因为司乘人员当前的语音数据过于简洁，缺少必要的信息而无法准确识别到用户意图，从而影响座舱人机交互的智能性以及用户体验感。

技术实现思路

1、鉴于以上所述现有技术的缺点，本申请的目的在于提供一种模型训练方法、训练装置及医学影像分类方法，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

2、为实现上述目的及其他相关目的，本申请提供一种车辆座舱语音意图识别方法，包括：

3、获取用户当前语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据；

4、利用多分类模型对所述用户当前语音输入文本数据进行用户意图识别，以得到第一意图识别结果；

5、通过多模态识别模型，基于所述用户当前语音输入文本数据、用户历史语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据进行用户意图识别，以得到第二意图识别结果；

6、将所述第一意图识别结果与所述第二意图识别结果进行融合，以获取用户真实意图识别结果。

7、在本申请的一可选实施例中，将用户当前语音输入文本数据保存作为用户历史语音输入文本数据。

8、在本申请的一可选实施例中将所述第一意图识别结果与所述第二意图识别结果进行融合，以获取用户真实意图，还包括：

9、根据所述第一意图识别结果的意图类别判断是否需要补充实体信息；

10、当需要补充实体信息时，从所述用户当前语音输入文本数据中提取与所述第一意图识别结果对应的实体信息；

11、将所述第一意图识别结果、所述实体信息及所述第二意图识别结果进行融合，以获取所述用户真实意图识别结果。

12、在本申请的一可选实施例中，获取用户当前语音输入文本数据，包括：

13、获取用户当前语音输入音频数据；

14、通过语音识别模块对所述用户当前语音输入音频数据进行内容识别，以获取所述用户当前语音输入文本数据。

15、在本申请的一可选实施例中所述车辆内外环境数据包括车辆内温度数据、车辆内气压数据、车辆外温度数据及天气情况中的至少一种。

16、在本申请的一可选实施例中，所述多分类模型包括决策树模型或深度学习模型；所述多模态识别模型包括cogvlm模型或gpt模型。

17、在本申请的一可选实施例中，所述多模态识别模型设置于云端。

18、在本申请的一可选实施例中，所述第一意图识别结果包括第一预测意图及对应的预测概率，所述第二意图识别结果包括第二预测意图及对应的预测概率；

19、将所述第一意图识别结果与所述第二意图识别结果进行融合，以获取用户真实意图识别结果，包括：

20、当所述第一预测意图的预测概率大于等于第一预设阈值时，将所述第一预测意图及对应的预测概率作为所述用户真实意图识别结果；

21、当所述第一预测意图的预测概率小于第一预设阈值，而所述第二预测意图的预测概率大于等于第二预设阈值时，将所述第二预测意图及对应的预测概率作为所述用户真实意图识别结果；

22、当所述第一预测意图的预测概率小于第一预设阈值，所述第二预测意图的预测概率小于第二预设阈值，且所述第一预测意图与所述第二预测意图相同时，进行概率融合，以对所述第一预测意图或所述第二预测意图的预测概率进行增强，并将所述第一预测意图及增强后的预测概率或所述第二预测意图及增强后的预测概率作为所述用户真实意图识别结果；

23、当所述第一预测意图的预测概率小于第一预设阈值，所述第二预测意图的预测概率小于第二预设阈值，且所述第一预测意图和所述第二预测意图不相同时，进行概率融合，以降低所述第一预测意图的预测概率和所述第二预测意图的预测概率，并将所述第一预测意图及降低后的预测概率与所述第二预测意图及降低后的预测概率作为所述用户真实意图识别结果。

24、为实现上述目的及其他相关目的，本申请还提供一种语音意图识别装置，包括：

25、数据获取模块，用于获取用户当前语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据；

26、第一意图识别模块，用于利用多分类模型对所述用户当前语音输入文本数据进行用户意图识别，以得到第一意图识别结果；

27、第二意图识别模块，用于通过多模态识别模型，基于所述用户当前语音输入文本数据、用户历史语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据进行用户意图识别，以得到第二意图识别结果；

28、结果融合模块，用于将所述第一意图识别结果与所述第二意图识别结果进行融合，以获取用户真实意图识别结果。

29、为实现上述目的及其他相关目的，本申请还提供一种车辆控制方法，包括：

30、获取用户当前语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据；

31、利用多分类模型对所述用户当前语音输入文本数据进行用户意图识别，以得到第一意图识别结果；

32、通过多模态识别模型，基于所述用户当前语音输入文本数据、用户历史语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据进行用户意图识别，以得到第二意图识别结果；

33、将所述第一意图识别结果与所述第二意图识别结果进行融合，以获取用户真实意图识别结果；

34、根据所述用户真实意图识别结果生成车机控制指令，以实现车辆座舱控制。

35、本申请的车辆座舱语音意图识别方法、装置及车辆控制方法，通过获取用户当前语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据；利用多分类模型对所述用户当前语音输入文本数据进行用户意图识别，以得到第一意图识别结果；通过多模态识别模型，基于所述用户当前语音输入文本数据、用户历史语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据进行用户意图识别，以得到第二意图识别结果；将所述第一意图识别结果与所述第二意图识别结果进行融合，以获取用户真实意图识别结果。通过结合多分类模型及多模态识别模型进行用户语音意图识别，能够提高语音意理解的准确性，从而能提升车载对话系统的智能性以及用户体验感。

技术特征：

1.一种车辆座舱语音意图识别方法，其特征在于，包括：

2.根据权利要求1所述的车辆座舱语音意图识别方法，其特征在于，还包括：将用户当前语音输入文本数据保存作为用户历史语音输入文本数据。

3.根据权利要求1所述的车辆座舱语音意图识别方法，其特征在于，将所述第一意图识别结果与所述第二意图识别结果进行融合，以获取用户真实意图，还包括：

4.根据权利要求1所述的车辆座舱语音意图识别方法，其特征在于，获取用户当前语音输入文本数据，包括：

5.根据权利要求1所述的车辆座舱语音意图识别方法，其特征在于，所述车辆内外环境数据包括车辆内温度数据、车辆内气压数据、车辆外温度数据及天气情况中的至少一种。

6.根据权利要求1所述的车辆座舱语音意图识别方法，其特征在于，所述多分类模型包括决策树模型或深度学习模型；所述多模态识别模型包括cogvlm模型或gpt模型。

7.根据权利要求1所述的车辆座舱语音意图识别方法，其特征在于，所述多模态识别模型设置于云端。

8.根据权利要求1所述的车辆座舱语音意图识别方法，其特征在于，所述第一意图识别结果包括第一预测意图及对应的预测概率，所述第二意图识别结果包括第二预测意图及对应的预测概率；

9.一种语音意图识别装置，其特征在于，包括：

10.一种车辆控制方法，其特征在于，包括：

技术总结本申请公开一种车辆座舱语音意图识别方法、装置及车辆控制方法，通过获取用户当前语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据；利用多分类模型对用户当前语音输入文本数据进行用户意图识别，以得到第一意图识别结果；通过多模态识别模型，基于所用户当前语音输入文本数据、用户历史语音输入文本数据、用户当前表情肢体数据以及车辆内外环境数据进行用户意图识别，以得到第二意图识别结果；将第一意图识别结果与第二意图识别结果进行融合，以获取用户真实意图识别结果。通过融合多分类模型及多模态识别模型的意图识别结果，能够提高语音意理解的准确性，从而提升车辆座舱对话系统的智能性以及用户体验感。技术研发人员：曹明,张轩,尹超俊受保护的技术使用者：浙江吉利控股集团有限公司技术研发日：技术公布日：2024/4/17