技术新讯 > 乐器声学设备的制造及制作,分析技术 > 车载语音配置和实现方法、装置、系统、存储介质及车机与流程 > 正文

车载语音配置和实现方法、装置、系统、存储介质及车机与流程

国知局
2024-06-21 11:48:54

本发明的实施方式总体上涉及车载语音对话领域，更具体地，涉及一种车载语音配置和实现方法、装置、系统、存储介质及车机。

背景技术：

1、现有的车载语音对话系统的回复大多不具备多风格的情感化回复，情感化回复是指回复的话术和声音带有感情色彩，尤以声音为主。并且回复话术和回复声音单一，用户无法选择不同的回复风格，系统不会根据用户的不同对话输入给出不同风格的回复话术和带有情感的回复声音。

2、传统的车载语音对话系统开发中，回复话术和回复声音都需要专业的软件开发人员进行开发。其中，回复话术需要开发人员在软件程序中进行人工配置，回复声音需要开发人员根据不同tts(text to speech，从文本到语音)声音厂商的不同接口，进行对应的开发。如果需要调整对话系统的某些功能点的回复话术及回复声音，需要软件开发人员在程序中通过修改代码和配置文件的方式进行开发，有大量的人工工作量，增加回复话术的风格时工作量尤其大。传统的车载语音对话系统对于不同车型声音与回复话术的匹配没有可视化平台管理，难以实现实时更新，更新效率低。

3、目前部分互联网公司及专业语音对话系统公司开发了语音对话系统配置平台，平台具备配置语音对话系统中各功能点的回复话术的能力，可以在一定程度上减轻软件开发人员在软件程序中人工开发回复话术的工作量。然而，市面上现有的语音对话系统配置平台仅能就语音对话系统的一种回复话术风格做配置，不支持多风格的回复话术配置，也不支持多种回复声音参数的配置，也无法进行情感化回复的配置。

技术实现思路

1、为了解决现有技术中的上述问题，在第一方面，本发明的实施方式提供了一种车载语音配置方法，所述方法应用于配置终端，所述方法包括：接收用户对于特定车载语音项目下的特定状态点的选定指令；根据所述选定指令，显示所述特定状态点的配置页面；接收用户在所述特定状态点的配置页面中从预先定义的多种话术风格中选择的选定话术风格和/或用户在所述特定状态点的配置页面中输入的话术内容；根据所述选定话术风格和/或用户输入的话术内容，生成所述特定状态点的配置话术；接收用户在所述特定状态点的配置页面中从预先定义的声音情感风格中选择的特定声音情感风格，其中所述特定声音情感风格具有声音参数，所述声音参数包括声音提供者、发音人、音量、语速、音调、角色扮演中的一个或多个；接收用户对于所述声音参数的设置指令；根据所述设置指令，对所述特定声音情感风格的声音参数进行设置，生成所述特定状态点的情感化配置声音；将所述配置话术和所述情感化配置声音与所述特定状态点相关联地存储在数据库中，以供在车载语音对话中使用。

2、在一些实施方式中，所述方法还包括：响应于接收到用户的项目管理显示指令，显示车载语音项目管理页面，其中所述车载语音项目管理页面中包括一个或多个车载语音项目；接收用户在所述车载语音项目管理页面中输入的项目管理操作指令，其中所述项目管理操作指令包括搜索、新建、修改、复刻中的一种或多种；根据所述项目管理操作指令，对当前显示的所述一个或多个车载语音项目执行与所述项目管理操作指令相对应的操作。

3、在一些实施方式中，所述方法还包括：响应于接收到用户的声音管理显示指令，显示声音管理页面，其中所述声音管理页面中包括一个或多个预先定义的声音情感风格；接收用户在所述声音管理页面中输入的声音管理操作指令，其中所述声音管理操作指令包括查询、新增、修改、删除中的一种或多种，其中所述修改操作指令包括对所述一个或多个预先定义的声音情感风格中的声音情感风格的声音参数的修改操作指令；根据所述声音管理操作指令，对所述一个或多个预先定义的声音情感风格执行与所述声音管理操作指令相对应的操作。

4、在一些实施方式中，接收用户对于特定车载语音项目下的特定状态点的选定指令包括：响应于接收到用户对于一个或多个车载语音项目中的特定车载语音项目的选择，显示所述特定车载语音项目的项目技能层主体页面，其中所述项目技能层主体页面中包括所述特定车载语音项目下的一个或多个项目技能；响应于接收到用户对于所述一个或多个项目技能中的特定项目技能的选择，显示所述特定项目技能的意图分类层主体页面，其中所述意图分类层主体页面中包括所述特定项目技能下的一个或多个意图分类；响应于接收到用户对于所述一个或多个意图分类中的特定意图分类的选择，显示所述特定意图分类的意图层主体页面，其中所述意图层主体页面中包括所述特定意图分类下的一个或多个意图；响应于接收到用户对于所述一个或多个意图中的特定意图的选择，显示所述特定意图的状态点层主体页面，其中所述状态点层主体页面中包括所述特定意图下的一个或多个状态点；接收用户在所述状态点层主体页面中对所述一个或多个状态点中的特定状态点的选定指令。

5、在一些实施方式中，所述方法还包括：接收用户对于特定车载语音项目的统计显示指令；根据所述统计显示指令，显示所述特定车载语音项目下的项目技能数量、意图分类数量、意图数量和状态点数量。

6、在一些实施方式中，所述方法还包括以下步骤中的一个或多个步骤：响应于接收到用户在所述项目技能层主体页面中输入的项目技能操作指令，对所述项目技能层主体页面中显示的一个或多个项目技能执行与所述项目技能操作指令相对应的操作，其中，所述项目技能操作指令包括查询、新增、修改、删除中的一种或多种；响应于接收到用户在所述意图分类层主体页面中输入的意图分类操作指令，对所述意图分类层主体页面中显示的一个或多个意图分类执行与所述意图分类操作指令相对应的操作，其中，所述意图分类操作指令包括查询、新增、修改、删除中的一种或多种；响应于接收到用户在所述意图层主体页面中输入的意图操作指令，对所述意图层主体页面中显示的一个或多个意图执行与所述意图操作指令相对应的操作，其中，所述意图操作指令包括查询、新增、修改、删除中的一种或多种；响应于接收到用户在所述状态点层主体页面中输入的状态点操作指令，对所述状态点层主体页面中显示的一个或多个状态点执行与所述状态点操作指令相对应的操作，其中，所述状态点操作指令包括查询、新增、修改、删除中的一种或多种。

7、在第二方面，本发明的实施方式提出了一种车载语音配置装置，所述装置应用于配置终端，所述装置包括：选定指令接收模块，配置用于接收用户对于特定车载语音项目下的特定状态点的选定指令；配置页面显示模块，配置用于根据所述选定指令，显示所述特定状态点的配置页面；话术接收模块，配置用于接收用户在所述特定状态点的配置页面中从预先定义的多种话术风格中选择的选定话术风格和/或用户在所述特定状态点的配置页面中输入的话术内容；话术配置模块，配置用于根据所述选定话术风格和/或用户输入的话术内容，生成所述特定状态点的配置话术；情感风格接收模块，配置用于接收用户在所述特定状态点的配置页面中从预先定义的声音情感风格中选择的特定声音情感风格，其中所述特定声音情感风格具有声音参数，所述声音参数包括声音提供者、发音人、音量、语速、音调、角色扮演中的一个或多个；声音参数接收模块，配置用于接收用户对于所述声音参数的设置指令；情感化配置模块，配置用于根据所述设置指令，对所述特定声音情感风格的声音参数进行设置，生成所述特定状态点的情感化配置声音；存储模块，配置用于将所述配置话术和所述情感化配置声音与所述特定状态点相关联地存储在数据库中，以供在车载语音对话中使用。

8、在第三方面，本发明的实施方式提出了一种车载语音配置系统，所述系统应用于配置终端，所述系统包括语音回复配置模块，所述语音回复配置模块用于：接收用户对于特定车载语音项目下的特定状态点的选定指令；根据所述选定指令，显示所述特定状态点的配置页面；接收用户在所述特定状态点的配置页面中从预先定义的多种话术风格中选择的选定话术风格和/或用户在所述特定状态点的配置页面中输入的话术内容；根据所述选定话术风格和/或用户输入的话术内容，生成所述特定状态点的配置话术；接收用户在所述特定状态点的配置页面中从预先定义的声音情感风格中选择的特定声音情感风格，其中所述特定声音情感风格具有声音参数，所述声音参数包括声音提供者、发音人、音量、语速、音调、角色扮演中的一个或多个；接收用户对于所述声音参数的设置指令；根据所述设置指令，对所述特定声音情感风格的声音参数进行设置，生成所述特定状态点的情感化配置声音；将所述配置话术和所述情感化配置声音与所述特定状态点相关联地存储在数据库中，以供在车载语音对话中使用。

9、在一些实施方式中，所述系统还包括项目管理模块，所述项目管理模块用于：响应于接收到用户的项目管理显示指令，显示车载语音项目管理页面，其中所述车载语音项目管理页面中包括一个或多个车载语音项目；接收用户在所述车载语音项目管理页面中输入的项目管理操作指令，其中所述项目管理操作指令包括搜索、新建、修改、复刻中的一种或多种；根据所述项目管理操作指令，对当前显示的所述一个或多个车载语音项目执行与所述项目管理操作指令相对应的操作。

10、在一些实施方式中，所述系统还包括声音管理模块，所述声音管理模块用于：响应于接收到用户的声音管理显示指令，显示声音管理页面，其中所述声音管理页面中包括一个或多个预先定义的声音情感风格；接收用户在所述声音管理页面中输入的声音管理操作指令，其中所述声音管理操作指令包括查询、新增、修改、删除中的一种或多种，其中所述修改操作指令包括对所述一个或多个预先定义的声音情感风格中的声音情感风格的声音参数的修改操作指令；根据所述声音管理操作指令，对所述一个或多个预先定义的声音情感风格执行与所述声音管理操作指令相对应的操作。

11、在第四方面，本发明的实施方式提出了一种车载语音实现方法，所述方法应用于车机，所述方法包括：经由麦克风接收车辆上的用户的语音输入；经由自动语音识别模块将所述语音输入识别为输入文本；经由自然语言理解模块对所述输入文本进行理解，生成输入文本的意图；经由对话管理模块获取所述输入文本的上下文，并且根据所述输入文本的意图和所述输入文本的上下文，调用内容提供商，生成调用结果，将所述输入文本的意图、所述输入文本的上下文和所述调用结果发送至自然语言生成模块；经由所述自然语言生成模块根据所述输入文本的意图、所述输入文本的上下文和所述调用结果确定语音对话的状态点，并且根据所述状态点调用根据上文描述的任何车载语音配置方法的实施方式中所述的数据库中存储的与所述状态点相关联的配置话术，将所述配置话术发送至文本语音交互模块；经由所述文本语音交互模块根据所述状态点，调用根据上文描述的任何车载语音配置方法的实施方式中所述的数据库中存储的与所述状态点相关联的情感化配置声音；经由所述文本语音交互模块根据所述配置话术和所述情感化配置声音生成语音播报。

12、在一些实施方式中，所述方法还包括：在所述自然语言理解模块确定所述输入文本命中了意图但是缺乏词槽信息时，经由所述自然语言生成模块生成追问话术；经由所述文本语音交互模块根据所述追问话术和所述情感化配置声音生成语音播报。

13、在第五方面，本发明的实施方式提出了一种车载语音实现装置，所述装置包括麦克风、自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和文本语音交互模块。其中，所述麦克风用于：接收车辆上的用户的语音输入；所述自动语音识别模块用于：将所述语音输入识别为输入文本；所述自然语言理解模块用于：对所述输入文本进行理解，生成输入文本的意图；所述对话管理模块用于：获取所述输入文本的上下文，并且根据所述输入文本的意图和所述输入文本的上下文，调用内容提供商，生成调用结果，将所述输入文本的意图、所述输入文本的上下文和所述调用结果发送至自然语言生成模块；所述自然语言生成模块用于：根据所述输入文本的意图、所述输入文本的上下文和所述调用结果确定语音对话的状态点，并且根据所述状态点调用根据上述车载语音配置方法的任何实施方式中所述的数据库中存储的与所述状态点相关联的配置话术，将所述配置话术发送至文本语音交互模块；所述文本语音交互模块用于：根据所述状态点，调用上述车载语音配置方法的任何实施方式中所述的数据库中存储的与所述状态点相关联的情感化配置声音；以及根据所述配置话术和所述情感化配置声音生成语音播报。

14、在一些实施方式中，所述自然语言生成模块还用于：在所述自然语言理解模块确定所述输入文本命中了意图但是缺乏词槽信息时，生成追问话术；所述文本语音交互模块还用于：根据所述追问话术和所述情感化配置声音生成语音播报。

15、在第六方面，本发明的实施方式提出了一种车机，所述车机包括根据以上任何实施方式所述的车载语音实现装置。

16、在第七方面，本发明的实施方式提出了一种存储介质，存储有计算机可读指令，当所述指令由处理器执行时，实现根据上述任何实施方式所述的车载语音配置方法和/或车载语音实现方法。

17、相比较于目前车载系统的回复通常是固定的一条话术，本发明的实施方式为车载语音系统提供了动态的、情感化的nlg回复和tts播报。

18、传统的车载语音系统回复单一，声音不具备情感化，用户听起来会觉得生硬，拟人度差。多风格情感化的回复可以使车载语音系统的回复丰富多样，用户每次与车机交流的时候得到的都是不同的回复，从说话的多样性上增强了拟人程度；不同的回复带有不同的情感色彩，从声音的播报上增加了拟人程度。由此，将死板、枯燥的语音回复变成了高拟人度的动态回复，提升了整体的用户体验，使得用户会更加愿意与车机进行交流沟通。

19、根据本发明的实施方式提出的车载语音配置方案和车载语音实现方案所实现的车载语音对话系统可实现动态的、多风格的情感化nlg回复话术和tts声音播报，使得用户能够体验到更逼真、更拟人化的语音回复，同时用户还可根据自己的喜好选择系统的回复风格。车载语音系统能够智能地发现用户输入中缺乏的词槽等信息，智能提问，完成用户意图的准确捕捉，以此来实现用户的意图执行。

20、通过配置平台，可以实现车载语音对话系统多风格、情感化的回复配置，并具备扩展、兼容其他第三方声音的能力。能够实时将回复话术、情感风格、声音参数的更新反馈到车载语音对话系统。