技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种车载语音识别方法及装置与流程 > 正文

一种车载语音识别方法及装置与流程

国知局
2024-06-21 11:29:34

本技术涉及车载语音，特别地，涉及一种车载语音识别方法及装置。

背景技术：

1、用户体验是车载语音交互中至关重要的方面。无延时的响应能够让用户感到交互更自然、顺畅，增强用户对系统的满意度和信任感，为用户提供更优质的驾驶体验。对于车载语音交互系统的设计和开发来说，减少延时是一个重要的优化目标。现有的方法一般为通过在线引擎来进行语义结果输出，但在线引擎输出语义结果的耗时较多，因而造成语音交互的响应存在较大的延迟，存在着语音识别的延时较大的问题。

技术实现思路

1、本技术提供了一种车载语音识别方法及装置，可以通过预设的映射关系库来输出与目标语音识别结果对应的缓存语义结果，由于映射关系库输出的缓存语义结果所需耗时比在线引擎输出的语义结果所需的耗时要少，由此可以降低语音识别的延迟，提高车载语音的交互效率。

2、本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。

3、根据本技术实施例的一个方面，提供了一种车载语音识别方法，所述方法包括：

4、获取语音数据，根据所述语音数据获得目标语音识别结果；

5、根据所述目标语音识别结果，从预设的映射关系库中获取与所述目标语音识别结果对应的目标意图识别结果，并根据所述目标意图识别结果获得缓存语义结果；

6、其中，所述映射关系库中至少存储有一个语音识别结果和意图识别结果之间的映射关系。

7、在本技术的一个实施例中，基于前述方案，所述获取语音数据，根据所述语音数据获得目标语音识别结果，包括：

8、获取语音数据；

9、如果车辆处于在线状态，则根据所述语音数据获得第一语音识别结果，将所述语音数据上传至服务器，以便所述服务器根据所述语音数据获得第二语音识别结果；接收所述第二语音识别结果，并将所述第一语音识别结果和所述第二语音识别结果进行判别，获得目标语音识别结果；

10、如果车辆处于离线状态，则将所述第一语音识别结果作为所述目标语音识别结果。

11、在本技术的一个实施例中，基于前述方案，所述根据所述目标语音识别结果，从预设的映射关系库中获取与所述目标语音识别结果对应的目标意图识别结果，包括：

12、从所述映射关系库中获取映射关系表，所述映射关系表中记录有至少一个语音识别结果和意图识别结果之间的映射关系；

13、在所述映射关系表中查找与所述目标语音识别结果对应的目标意图识别结果。

14、在本技术的一个实施例中，基于前述方案，所述目标意图识别结果包括第一目标意图识别结果和第二目标意图识别结果；所述根据所述目标意图识别结果获得缓存语义结果，包括：

15、若所述目标意图识别结果为所述第一目标意图识别结果，则获取与所述第一目标意图识别结果对应的信源数据，并基于所述第一目标意图识别结果和所述信源数据生成所述缓存语义结果；

16、若所述目标意图识别结果为所述第二目标意图识别结果，则将所述第二目标意图识别结果确定为所述缓存语义结果。

17、在本技术的一个实施例中，基于前述方案，在所述根据所述语音数据获得目标语音识别结果之后，所述方法还包括：

18、如果未从所述缓存中获取到所述目标意图识别结果，则获取与所述语音数据对应的离线语义结果或在线语义结果

19、在本技术的一个实施例中，基于前述方案，所述获取与所述语音数据对应的离线语义结果，包括：

20、对所述第一语音识别结果进行自然语义理解，得到离线意图识别结果；

21、基于所述离线意图识别结果获取所述离线语义结果。

22、在本技术的一个实施例中，基于前述方案，所述获取与所述语音数据对应的在线语义结果，包括：

23、获取在线意图识别结果，所述在线意图识别结果通过所述服务器对所述第二语音识别结果进行自然语义理解得到；

24、基于所述在线意图识别结果获取所述在线语义结果。

25、在本技术的一个实施例中，基于前述方案，所述映射关系库中的各个所述语音识别结果以及各个所述意图识别结果分别配置有时间戳，所述方法还包括：

26、根据各个所述时间戳的频率动态更新所述映射关系库中的各个所述语音识别结果以及各个所述意图识别结果。

27、在本技术的一个实施例中，基于前述方案，所述方法还包括：

28、将所述目标语音识别结果和所述目标意图识别结果存储至所述映射关系库，如果此时所述映射关系库的存储量超过阈值，则将频率最低的时间戳对应的语音识别结果和意图识别结果从所述映射关系库中删除。

29、根据本技术实施例的一个方面，提供了一种车载语音识别装置，所述装置包括第一获取单元，用于获取语音数据，根据所述语音数据获得目标语音识别结果；第二获取单元，用于根据所述目标语音识别结果，从预设的映射关系库中获取与所述目标语音识别结果对应的目标意图识别结果，并根据所述目标意图识别结果获得缓存语义结果；其中，所述映射关系库中至少存储有一个语音识别结果和意图识别结果之间的映射关系。

30、在本技术的一个实施例中，所述第一获取单元配置为：获取语音数据；如果车辆处于在线状态，则根据所述语音数据获得第一语音识别结果，将所述语音数据上传至服务器，以便所述服务器根据所述语音数据获得第二语音识别结果；接收所述第二语音识别结果，并将所述第一语音识别结果和所述第二语音识别结果进行判别，获得目标语音识别结果；如果车辆处于离线状态，则将所述第一语音识别结果作为所述目标语音识别结果。

31、在本技术的一个实施例中，所述第二获取单元配置为：从所述映射关系库中获取映射关系表，所述映射关系表中记录有至少一个语音识别结果和意图识别结果之间的映射关系；在所述映射关系表中查找与所述目标语音识别结果对应的目标意图识别结果。

32、在本技术的一个实施例中，所述目标意图识别结果包括第一目标意图识别结果和第二目标意图识别结果，所述第二获取单元配置为：若所述目标意图识别结果为所述第一目标意图识别结果，则获取与所述第一目标意图识别结果对应的信源数据，并基于所述第一目标意图识别结果和所述信源数据生成所述缓存语义结果；若所述目标意图识别结果为所述第二目标意图识别结果，则将所述第二目标意图识别结果确定为所述缓存语义结果。

33、在本技术的一个实施例中，还包括第三获取单元，所述第三获取单元用于如果未从所述缓存中获取到所述目标意图识别结果，则获取与所述语音数据对应的离线语义结果或在线语义结果。

34、在本技术的一个实施例中，所述第三获取单元配置为：对所述第一语音识别结果进行自然语义理解，得到离线意图识别结果；基于所述离线意图识别结果获取所述离线语义结果。

35、在本技术的一个实施例中，所述第三获取单元配置为：获取在线意图识别结果，所述在线意图识别结果通过所述服务器对所述第二语音识别结果进行自然语义理解得到；基于所述在线意图识别结果获取所述在线语义结果。

36、在本技术的一个实施例中，所述映射关系库中的各个所述语音识别结果以及各个所述意图识别结果分别配置有时间戳，所述车载语音识别装置还包括动态更新单元，所述动态更新单元用于根据各个所述时间戳的频率动态更新所述映射关系库中的各个所述语音识别结果以及各个所述意图识别结果。

37、在本技术的一个实施例中，所述车载语音识别装置还包括存储单元，用于将所述目标语音识别结果和所述目标意图识别结果存储至所述映射关系库，如果此时所述映射关系库的存储量超过阈值，则将频率最低的时间戳对应的语音识别结果和意图识别结果从所述映射关系库中删除。

38、在本技术实施例的技术方案中，通过获取得到的语音数据进行初步识别来得到目标语音识别结果，根据目标语音识别结果在预设的映射关系库中查找是否有对应的目标意图识别结果。如果映射关系库中存在对应的目标意图识别结果，那么根据目标意图识别结果直接获得缓存语义结果，通过映射关系库来输出语义结果的方式使得车载输入的语音数据能够快速识别并输出对应的语义结果，相对于在线引擎输出语义结果所需的耗时，本技术通过增加映射关系库这一识别通道来对语音进行识别，所需的耗时比在线引擎所需耗时要低，可以提高车载语音的交互效率。

39、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。