技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种车辆的语音交互方法、装置、设备及介质与流程 > 正文

一种车辆的语音交互方法、装置、设备及介质与流程

国知局
2024-06-21 10:41:14

本发明涉及车辆，尤其是涉及一种车辆的语音交互方法、装置、终端设备及计算机可读存储介质。

背景技术：

1、随着车辆技术的不断发展，语音交互技术在汽车中的应用已经越来越普遍，用户在车辆行驶过程中能够通过语音交互技术便捷地获取各种信息以及完成命令交互。在现有技术中，当车内存在多名乘客交谈时，车载语音助手容易误识别，导致命令错误响应并执行，从而影响乘客交谈，当驾驶员独自驾车时，驾驶员需要频繁唤醒车载语音助手以获取各种信息或完成命令交互，使得用户的语音交互体验感差。

技术实现思路

1、本发明提供一种车辆的语音交互方法、装置、设备及介质，通过利用用户特征和车辆特征对当前时刻的语音交互场景进行判断，在满足第一人机对话场景的触发条件时自动启动连续语音识别模式，从而用户无需发出唤醒声源便能够直接实现语音交互，显著提高了用户的语音交互体验感，此外，在满足非人机对话场景的触发条件时自动退出连续语音识别模式，从而有效避免乘客交谈时误识别，导致命令错误响应并执行。

2、为了解决上述技术问题，本发明实施例第一方面提供一种车辆的语音交互方法，包括如下步骤：

3、实时获取车辆的用户特征和车辆特征，并判断车辆当前时刻的用户特征和车辆特征是否满足预设的第一人机对话场景的触发条件；

4、若满足，则启动连续语音识别模式以实时识别用户声源所对应的语音命令并执行；若不满足，则在检测到用户的唤醒声源时启动所述连续语音识别模式；

5、当处于所述连续语音识别模式，且检测到用户声源时，判断车辆当前时刻的用户特征和车辆特征是否满足预设的非人机对话场景的触发条件；

6、若满足，则在上一时刻的语音命令执行完成时退出所述连续语音识别模式；若不满足，则保持所述连续语音识别模式以实时识别用户声源所对应的语音命令并执行。

7、作为优选方案，所述实时获取车辆的用户特征和车辆特征，具体包括如下步骤：

8、检测车辆当前时刻的乘客数量；

9、对当前时刻车辆内不同位置的用户声源进行检测，当识别到任一位置的用户声源中包含预设唤醒词时，判定所述任一位置的用户声源为所述唤醒声源，并将所述唤醒声源所对应的位置作为唤醒位置；

10、对处于所述唤醒位置或预设位置的用户的交谈行为与通话行为进行检测，获得当前时刻的交谈行为检测结果和通话行为检测结果，并将当前时刻的所述乘客数量、所述不同位置的用户声源、所述交谈行为检测结果和所述通话行为检测结果作为车辆当前时刻的用户特征；

11、对车辆当前时刻的运行状态、车门开关状态和车窗开关状态进行检测，并将当前时刻的所述运行状态、所述车门开关状态和所述车窗开关状态作为车辆当前时刻的车辆特征。

12、作为优选方案，所述判断车辆当前时刻的用户特征和车辆特征是否满足预设的第一人机对话场景的触发条件，具体包括如下步骤：

13、当基于车辆当前时刻的用户特征和车辆特征，确定所述乘客数量等于1、所述交谈行为检测结果为不存在交谈行为、所述通话行为检测结果为不存在通话行为及车辆当前时刻的所述运行状态为行驶状态，或者所述乘客数量等于1、所述交谈行为检测结果为不存在交谈行为、所述通话行为检测结果为不存在通话行为、车辆当前时刻的所述车门开关状态及所述车窗开关状态均为关闭状态时，判定车辆当前时刻的用户特征和车辆特征满足所述第一人机对话场景的触发条件；

14、当基于车辆当前时刻的用户特征和车辆特征，确定所述乘客数量大于1、所述交谈行为检测结果为存在交谈行为、所述通话行为检测结果为存在通话行为或车辆当前时刻的所述运行状态为驻车状态，或者所述乘客数量大于1、所述交谈行为检测结果为存在交谈行为、所述通话行为检测结果为存在通话行为、所述车辆当前时刻的车门开关状态为开启状态或车窗开关状态为开启状态时，判定车辆当前时刻的用户特征和车辆特征不满足所述第一人机对话场景的触发条件。

15、作为优选方案，所述判断车辆当前时刻的用户特征和车辆特征是否满足预设的非人机对话场景的触发条件，具体包括如下步骤：

16、当所述乘客数量大于1时，基于检测到的所述不同位置的用户声源，判断当前时刻车辆内是否存在非唤醒声源；

17、当存在所述非唤醒声源、所述交谈行为检测结果为存在交谈行为或所述通话行为检测结果为存在通话行为时，判定车辆当前时刻的用户特征和车辆特征满足所述非人机对话场景的触发条件；

18、当所述乘客数量等于1，且所述交谈行为检测结果为存在交谈行为或所述通话行为检测结果为存在通话行为时，判定车辆当前时刻的用户特征和车辆特征满足所述非人机对话场景的触发条件。

19、作为优选方案，所述判断车辆当前时刻的用户特征和车辆特征是否满足预设的非人机对话场景的触发条件，具体还包括如下步骤：

20、当所述乘客数量大于1且不存在所述非唤醒声源、所述交谈行为检测结果为不存在交谈行为及所述通话行为检测结果为不存在通话行为，或者所述乘客数量等于1且所述交谈行为检测结果为不存在交谈行为及所述通话行为检测结果为不存在通话行为时，将当前时刻检测到的用户声源转换语音文本；

21、按照预设的语音文本检测规则对所述语音文本进行检测，判断所述语音文本是否为无效语音文本；

22、当所述语音文本是所述无效语音文本，且当前时刻所述无效语音文本的连续判定次数达到预设次数阈值时，判定车辆当前时刻的用户特征和车辆特征满足所述非人机对话场景的触发条件；

23、当所述语音文本是所述无效语音文本，而当前时刻所述无效语音文本的连续判定次数未达到所述预设次数阈值时，判定车辆当前时刻的用户特征和车辆特征不满足所述非人机对话场景的触发条件；

24、当所述语音文本不是所述无效语音文本时，判定车辆当前时刻的用户特征和车辆特征不满足所述非人机对话场景的触发条件，并执行所述语音文本所对应的语音命令。

25、作为优选方案，所述按照预设的语音文本检测规则对所述语音文本进行检测，判断所述语音文本是否为无效语音文本，具体包括如下步骤：

26、对所述语音文本的字数进行检测，并基于预设的语音命令数据库，判断所述语音命令数据库中是否存在任意一条语音命令匹配于所述语音文本；

27、当所述语音文本的字数大于预设字数阈值，或者所述语音命令数据库中不存在任意一条语音命令匹配于所述语音文本时，判定所述语音文本为所述无效语音文本。

28、作为优选方案，所述方法还包括如下步骤：

29、当车辆当前时刻的用户特征和车辆特征均不满足所述第一人机对话场景与所述非人机对话场景的触发条件时，判定当前时刻的语音交互场景为第二人机对话场景；

30、当所述语音交互场景为所述第二人机对话场景，且处于所述连续语音识别模式时，保持所述连续语音识别模式以实时识别用户声源所对应的语音命令并执行；

31、当所述语音交互场景为所述第二人机对话场景，且不处于所述连续语音识别模式时，在检测到用户的所述唤醒声源时启动所述连续语音识别模式。

32、作为优选方案，所述对处于所述唤醒位置或预设位置的用户的交谈行为与通话行为进行检测，获得当前时刻的交谈行为检测结果和通话行为检测结果，具体包括如下步骤：

33、从车载摄像头当前时刻采集的视频流中提取包含车内乘客的目标图片；

34、通过基于深度卷积神经网络所构建的目标检测网络，对所述目标图片中各车内乘客进行手机检测、通话姿态检测与交谈姿态检测；

35、当基于手机检测与通话姿态检测判定任意一个车内乘客所对应的图片区域内存在手机与通话行为时，输出所述任意一个车内乘客所对应的目标位置及通话行为得分；

36、当所述任意一个车内乘客所对应的目标位置为所述唤醒位置或所述预设位置，且所述通话行为得分大于预设第一得分阈值时，判定处于所述唤醒位置或所述预设位置的用户当前时刻的通话行为检测结果为存在通话行为；

37、当基于交谈姿态检测判定任意一个车内乘客所对应的图片区域内存在交谈行为时，输出所述任意一个车内乘客所对应的目标位置及交谈行为得分；

38、当所述任意一个车内乘客所对应的目标位置为所述唤醒位置或所述预设位置，且所述交谈行为得分大于预设第二得分阈值时，判定处于所述唤醒位置或所述预设位置的用户当前时刻的交谈行为检测结果为存在交谈行为。

39、作为优选方案，所述方法还通过如下步骤对处于所述唤醒位置或所述预设位置的用户的通话行为进行检测：

40、对当前时刻的车载蓝牙电话的工作状态进行检测；

41、当所述车载蓝牙电话的工作状态为通话状态时，判定处于所述唤醒位置或所述预设位置的用户当前时刻的通话行为检测结果为存在通话行为。

42、本发明实施例第二方面提供一种车辆的语音交互装置，包括：

43、第一人机对话场景判断模块，用于：

44、实时获取车辆的用户特征和车辆特征，并判断车辆当前时刻的用户特征和车辆特征是否满足预设的第一人机对话场景的触发条件；

45、若满足，则启动连续语音识别模式以实时识别用户声源所对应的语音命令并执行；若不满足，则在检测到用户的唤醒声源时启动所述连续语音识别模式；

46、非人机对话场景判断模块，用于：

47、当处于所述连续语音识别模式，且检测到用户声源时，判断车辆当前时刻的用户特征和车辆特征是否满足预设的非人机对话场景的触发条件；

48、若满足，则在上一时刻的语音命令执行完成时退出所述连续语音识别模式；若不满足，则保持所述连续语音识别模式以实时识别用户声源所对应的语音命令并执行。

49、本发明实施例第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的车辆的语音交互方法。

50、本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的车辆的语音交互方法。

51、相比于现有技术，本发明实施例的有益效果在于，通过利用用户特征和车辆特征对当前时刻的语音交互场景进行判断，在满足第一人机对话场景的触发条件时自动启动连续语音识别模式，从而用户无需发出唤醒声源便能够直接实现语音交互，显著提高了用户的语音交互体验感，此外，在满足非人机对话场景的触发条件时自动退出连续语音识别模式，从而有效避免乘客交谈时误识别，导致命令错误响应并执行。