技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、车载设备、车辆、电子设备及介质与流程 > 正文

语音处理方法、装置、车载设备、车辆、电子设备及介质与流程

国知局
2024-06-21 10:40:20

本技术涉及语音处理，尤其涉及一种语音处理方法、装置、车载设备、车辆、电子设备及介质。

背景技术：

1、人机对话在人们的生活中越来越普遍，用户可以通过语音对智能设备进行控制，例如，控制智能音箱播放音乐，控制智能电视播放视频等。在车辆领域，用户也可以通过语音控制车窗的开启或关闭，控制车内的温度等。如果车辆中包含多个音区，不同音区的用户均可以对车辆中的硬件进行控制。然而，当不同音区的用户通过精简的语音指令(即车机无法直接理解的语音指令)对车辆进行控制时，将无法执行该精简的语音指令。例如，当执行完一个音区的语音指令后，如果接收到另一个音区的用户发出的精简的语音指令，此时将无法执行该语音指令。因此，如何根据不同音区的精简的语音指令对车辆进行准确控制成为目前亟待解决的技术问题。

技术实现思路

1、为了解决上述技术问题，本技术提供了一种语音处理方法、装置、车载设备、车辆、电子设备及介质。

2、根据本技术的第一方面，提供了一种语音处理方法，包括：

3、获取当前在预设区域内采集到的语音数据，对所述语音数据进行语音识别及自然语言理解，得到第一语音指令；

4、如果所述第一语音指令属于模糊指令，确定所述语音数据在所述预设区域内包含的多个音区中对应的目标音区，并获取历史语音数据在所述多个音区中对应的历史音区；

5、如果所述目标音区和所述历史音区不同，获取所述预设区域内的历史对话信息和所述预设区域内各状态对象的当前状态信息；

6、获取预先设置的一个或多个对话状态追踪规则，单个所述对话状态追踪规则包括：一个或多个预设条件以及一个或多个预设信息继承方式；

7、当所述第一语音指令、所述历史对话信息和所述目标音区满足所述预设条件时，按照所述预设信息继承方式，从所述历史对话信息和/或所述当前状态信息中继承目标信息，以将所述第一语音指令转换为第二语音指令，并执行所述第二语音指令，其中，所述第二语音指令属于非模糊指令。

8、可选的，在确定所述语音数据在所述预设区域内包含的多个音区中对应的目标音区之后，所述方法还包括：

9、根据所述第一语音指令和所述目标音区，确定所述第一语音指令在所述预设区域内对应的目标区域；

10、根据所述目标信息和所述目标区域，生成第二语音指令。

11、可选的，所述第二语音指令包括目标状态对象和所述目标状态对象对应的待更新状态信息；

12、所述执行所述第二语音指令，包括：

13、根据所述待更新状态信息，对所述目标区域内的目标状态对象的状态进行更新。

14、可选的，所述历史对话信息包括：所述目标状态对象和所述目标状态对象的第一状态信息；所述当前状态信息包括：所述目标状态对象和所述目标状态对象的第二状态信息；

15、按照所述预设信息继承方式，从所述历史对话信息和/或所述当前状态信息中继承所述目标信息，包括：

16、从所述历史对话信息中继承所述目标状态对象；以及

17、从所述历史对话信息中继承所述目标状态对象的第一状态信息，和/或，从所述当前状态信息中继承所述目标状态对象的第二状态信息。

18、可选的，根据所述第一语音指令和所述目标音区，确定所述第一语音指令在所述预设区域内对应的目标区域，包括：

19、如果所述第一语音指令中包括指示代词，根据所述目标音区，对所述指示代词进行指代消解，确定所述第一语音指令在所述预设区域内对应的目标区域。

20、可选的，所述方法还包括：

21、如果所述第一语音指令属于非模糊指令，执行所述第一语音指令。

22、可选的，确定所述语音数据在所述预设区域内包含的多个音区中对应的目标音区，包括：

23、对所述语音数据进行声源定位，得到所述语音数据的声源位置信息；

24、根据所述声源位置信息，确定所述语音数据在所述多个音区中对应的目标音区。

25、可选的，在获取当前在预设区域内采集到的语音数据之后，所述方法还包括：

26、如果所述语音数据为首次采集的语音数据，且所述第一语音指令属于模糊指令，播放预设应答语音数据，以提示用户重新输入语音数据。

27、根据本技术的第二方面，提供了一种语音处理装置，包括：

28、语音指令确定模块，用于获取当前在预设区域内采集到的语音数据，对所述语音数据进行语音识别及自然语言理解，得到第一语音指令；

29、音区获取模块，用于如果所述第一语音指令属于模糊指令，确定所述语音数据在所述预设区域内包含的多个音区中对应的目标音区，并获取历史语音数据在所述多个音区中对应的历史音区；

30、信息获取模块，用于如果所述目标音区和所述历史音区不同，获取所述预设区域内的历史对话信息和所述预设区域内各状态对象的当前状态信息；

31、对话状态追踪规则获取模块，用于获取预先设置的一个或多个对话状态追踪规则，单个所述对话状态追踪规则包括：一个或多个预设条件以及一个或多个预设信息继承方式；

32、模糊指令转换模块，用于当所述第一语音指令、所述历史对话信息和所述目标音区满足所述预设条件时，按照所述预设信息继承方式，从所述历史对话信息和/或所述当前状态信息中继承目标信息，以将所述第一语音指令转换为第二语音指令，其中，所述第二语音指令属于非模糊指令；

33、非模糊指令执行模块，用于执行所述第二语音指令。

34、可选的，所述语音处理装置还包括：

35、目标区域确定模块，用于用于根据所述第一语音指令和所述目标音区，确定所述第一语音指令在所述预设区域内对应的目标区域；

36、第二语音指令生成模块，用于根据所述目标信息和所述目标区域，生成第二语音指令。

37、可选的，所述第二语音指令包括目标状态对象和所述目标状态对象对应的待更新状态信息；

38、所述非模糊指令执行模块，具体用于根据所述待更新状态信息，对所述目标区域内的目标状态对象的状态进行更新。

39、可选的，所述历史对话信息包括：所述目标状态对象和所述目标状态对象的第一状态信息；所述当前状态信息包括：所述目标状态对象和所述目标状态对象的第二状态信息；

40、单个所述对话状态追踪规则用于当所述第一语音指令、所述历史对话信息和所述目标音区满足所述预设条件时，从所述历史对话信息中继承所述目标状态对象；以及

41、从所述历史对话信息中继承所述目标状态对象的第一状态信息，和/或，从所述当前状态信息中继承所述目标状态对象的第二状态信息。

42、可选的，所述模糊指令转换模块具体用于通过下述步骤实现根据所述第一语音指令和所述目标音区，确定所述第一语音指令在所述预设区域内对应的目标区域：

43、如果所述第一语音指令中包括指示代词，根据所述目标音区，对所述指示代词进行指代消解，确定所述第一语音指令在所述预设区域内对应的目标区域。

44、可选的，所述非模糊指令执行模块，还用于如果所述第一语音指令属于非模糊指令，执行所述第一语音指令。

45、可选的，所述音区获取模块具体用于通过下述步骤实现确定所述语音数据在所述预设区域内包含的多个音区中对应的目标音区：

46、对所述语音数据进行声源定位，得到所述语音数据的声源位置信息；

47、根据所述声源位置信息，确定所述语音数据在所述多个音区中对应的目标音区。

48、可选的，所述语音处理装置还包括：

49、预设应答语音数据播放模块，用于如果所述语音数据为首次采集的语音数据，且所述第一语音指令属于模糊指令，播放预设应答语音数据，以提示用户重新输入语音数据。

50、根据本技术的第三方面，提供了一种车载设备，包括：语音输入接口和车机；

51、所述语音输入接口，用于采集车辆内的语音数据；

52、所述车机，用于执行第一方面所述的语音处理方法。

53、根据本技术的第四方面，提供了一种车辆，包括：第三方面所述的车载设备。

54、根据本技术的第四方面，提供了一种电子设备，包括：处理器，所述处理器用于执行存储于存储器的计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

55、根据本技术的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

56、根据本技术的第六方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面所述的方法。

57、本技术实施例提供的技术方案与现有技术相比具有如下优点：

58、对当前在预设区域内采集到的语音数据进行语音识别及自然语言理解，得到第一语音指令后，如果第一语音指令属于模糊指令，表示设备无法直接理解第一语音指令，并执行第一语音指令。此时，可以确定语音数据在预设区域内包含的多个音区中对应的目标音区，并获取历史语音数据在该多个音区中对应的历史音区，如果目标音区和历史音区不同，表示不同音区的用户通过精简的语音指令对预设区域内的状态对象进行了控制。可以获取预设区域内的历史对话信息和预设区域内各状态对象的当前状态信息；并获取预先设置的一个或多个对话状态追踪规则，由于单个对话状态追踪规则包括：一个或多个预设条件以及一个或多个预设信息继承方式，因此，当第一语音指令、历史对话信息和目标音区满足预设条件时，按照预设信息继承方式，从历史对话信息和/或当前状态信息中继承目标信息，以将第一语音指令转换为属于非模糊指令的第二语音指令，并执行第二语音指令。可见，在预设区域内包含多个音区的场景下，本技术可以对目标音区的语音数据进行对话状态追踪，通过信息继承的方式，将模糊指令转换为非模糊指令，并执行非模糊指令。由于模糊指令对应的语音数据比较精简，因此，通过精简的语音数据进行语音控制，可以实现高效的人机交互效果。并且，由于在第一语音指令的基础上，不仅参考了历史对话信息，还参考了目标音区和当前状态信息(例如预设区域内各个状态对象的当前状态信息)，因此，可以更准确地进行指令转换，提高语音控制的准确性。