技术新讯 > 乐器声学设备的制造及制作,分析技术 > 车载语音交互的方法和语音交互系统与流程 > 正文

车载语音交互的方法和语音交互系统与流程

国知局
2024-06-21 11:55:37

本发明涉及车载语音控制，尤其是涉及一种车载语音交互的方法，一种语音交互系统，一种包括所述语音交互系统的车辆，以及一种计算机程序产品，其用于至少辅助地实现根据本发明的方法的步骤。

背景技术：

1、目前，在车辆控制领域越来越多地使用语音控制来辅助驾驶员进行车辆控制，其不仅带来了操作的便捷性，还能减少出现驾驶员由于驾驶过程中手动操控中控系统中的一些功能而分心的情况，提高了行车安全性。然而，有些驾驶员的语音带有一定的口音和/或方言，导致无法与车载语音系统进行顺畅的语音交互。关于汉语，现有的车载语音交互系统都只能够识别标准的普通话，对不标准的普通话的识别成功率较低，甚至对地区性的方言根本不能识别，这极大地影响了车载语音交互系统的用户体验感。

2、因此，如何使得语音交互系统能够识别不标准的语言(例如不标准的普通话)和/或地区性方言成为目前需要解决的技术难题。

技术实现思路

1、本发明的目的在于提供一种车载语音交互的方法，一种语音交互系统，一种包括所述语音交互系统的车辆，以及一种计算机程序产品，以至少部分地解决现有技术中的问题。

2、根据本发明的第一方面，提供了一种车载语音交互的方法，所述方法包括：

3、-步骤s1：存储采集的用户语音数据中包含口音和/或方言的语音数据；

4、-步骤s2：至少基于所存储的语音数据训练语音交互模型；和

5、-步骤s3：在与用户的语音交互过程中，逐步地调整经训练的语音交互模型的输出语音的语言模式和/或词汇。

6、本发明的核心构思在于：基于用户的包含口音和/或方言的语音数据训练语音交互模型，使得语音交互模型能够自主学习用户的口音和/或方言，并逐步地调整经训练的语音交互模型的输出语音的语言模式和/或词汇，由此使得语音交互系统能够准确理解用户的不标准的语言、甚至地区性方言，并顺畅地执行与用户的语音交互过程，从而提高了语音交互系统的识别准确率和用户体验感。

7、根据本发明的一个可选实施例，所述步骤s1可以包括：

8、-步骤s11：采集用户的语音数据；

9、-步骤s12：识别所采集的语音数据中包含口音和/或方言的语音数据；

10、-步骤s13：将包含口音和/或方言的语音数据与方言口音数据库的语言发音数据进行匹配，以获取所述语音数据的语义；和

11、-步骤s14：存储包含口音和/或方言的语音数据及其语义。

12、根据本发明的另一可选实施例，所述步骤s1还可以包括：

13、-步骤s15：从所采集的语音数据提取用户使用的词汇，并基于所述词汇识别用户的语言风格。

14、根据本发明的另一可选实施例，可以通过线性方法逐步地调整经训练的语音交互模型的输出语音的语言模式和/或词汇，其方式是：调整通过所述语音交互模型输出的语音数据段中的一个或多个词汇的发音和/或内容，其中，所述词汇的发音和/或内容适配于用户的语言风格、口音和/或方言等。

15、根据本发明的另一可选实施例，可以将包含口音和/或方言的语音数据上传至后端服务器，并与所述后端服务器中存储的方言口音数据库的语言发音数据进行匹配，基于所匹配的方言口音数据库获取所述语音数据的语义。

16、根据本发明的另一可选实施例，所述步骤s2可以包括：

17、-步骤s21：从后端服务器下载与所存储的语音数据的口音和/或方言匹配的方言口音数据库；和

18、-步骤s22：基于所述所存储的语音数据和所下载的方言口音数据库训练语音交互模型。

19、根据本发明的第二方面，提供了一种语音交互系统，所述语音交互系统可以包括以下构件：

20、-语音采集模块，其被配置用于采集用户的语音数据；

21、-存储模块，其别配置用于存储用户的包含口音和/或方言的语音数据；

22、-语音交互模块，其被配置用于通过语音交互模型与用户进行语音交互；和

23、-控制模块，其被配置用于执行根据本发明的方法。

24、根据本发明的另一可选实施例，所述语音交互系统还可以包括车载通信模块，其被配置用于将用户的包含口音和/或方言的语音数据上传至后端服务器，和/或从后端服务器下载与所存储的语音数据的口音和/或方言适配的方言口音数据库。

25、根据本发明的第三方面，提供了一种车辆，所述车辆包括根据本发明的语音交互系统。

26、根据本发明的第四方面，提供了一种计算机程序产品、例如计算机可读的程序载体，包含或存储有计算机程序指令，所述计算机程序指令被处理器执行时至少辅助地实现根据本发明所述的方法的步骤。

技术特征：

1.一种车载语音交互的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述步骤s1包括：

3.根据以上权利要求中任一项所述的方法，其中，所述步骤s1还包括：

4.根据以上权利要求中任一项所述的方法，其中，通过线性方法逐步地调整经训练的语音交互模型的输出语音的语言模式和/或词汇，其方式是：调整通过所述语音交互模型输出的语音数据段中的一个或多个词汇的发音和/或内容，其中，所述词汇的发音和/或内容适配于用户的语言风格、口音和/或方言。

5.根据以上权利要求中任一项所述的方法，其中，将包含口音和/或方言的语音数据上传至后端服务器(2)，并与所述后端服务器(2)中存储的方言口音数据库的语言发音数据进行匹配，基于所匹配的方言口音数据库获取所述语音数据的语义。

6.根据以上权利要求中任一项所述的方法，其中，所述步骤s2包括：

7.一种语音交互系统(1)，所述语音交互系统(1)包括以下构件：

8.根据权利要求7所述的语音交互系统(1)，所述语音交互系统(1)还包括车载通信模块(15)，其被配置用于将用户的包含口音和/或方言的语音数据上传至后端服务器(2)，和/或从后端服务器(2)下载与所存储的语音数据的口音和/或方言适配的方言口音数据库。

9.一种车辆，所述车辆包括根据权利要求7或8所述的语音交互系统(1)。

10.一种计算机程序产品、例如计算机可读的程序载体，包含或存储有计算机程序指令，所述计算机程序指令被处理器执行时至少辅助地实现根据权利要求1至6中任一项所述的方法的步骤。

技术总结本发明涉及一种车载语音交互的方法，所述方法包括：存储采集的用户语音数据中包含口音和/或方言的语音数据(S1)；至少基于所存储的语音数据训练语音交互模型(S2)；在与用户的语音交互过程中，逐步地调整经训练的语音交互模型的输出语音的语言模式和/或词汇(S3)。本发明还涉及一种语音交互系统，一种包括所述语音交互系统的车辆，和一种计算机程序产品。根据本发明，语音交互系统能够准确理解用户的不标准的语言、甚至地区性方言，并顺畅地执行与用户的语音交互过程，从而提高了语音交互系统的识别准确率和用户体验感。技术研发人员：李和安受保护的技术使用者：梅赛德斯-奔驰集团股份公司技术研发日：技术公布日：2024/6/2