技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种车载统一听感的人机交互装置及方法与流程  >  正文

一种车载统一听感的人机交互装置及方法与流程

  • 国知局
  • 2024-06-21 10:44:07

本发明属于语音合成,具体涉及一种车载统一听感的人机交互装置及方法。

背景技术:

1、在人工智能快速发展的新时代下,人们对语音助手的要求越来越高,比如要求车载语音助手能够通晓多种外语和多种方言。以往的处理方式是用不通过音色的语料,分别合成不同的语种和方言。比如要生成普通话,需要通过普通话语料,生成普通话发音库,通过模型训练之后合成普通话;如果要生成粤语,则需要再创建粤语语料库,生成粤语发音库,通过模型训练合成粤语;以此类推。因为不同发音人即使音色相近,也还是不相同的,因此在体验上往往形成,切换不同的语言或者场景,语音助手就好像“换了个人”在跟用户说话,造成体验上的不一致。

2、另外,车载语音助手场景下,人机交互的场景较多,用户在切换场景时,由于各类应用发音装置不同,也会形成听感不统一,多音色混用的情况。造成听感体验不一致。

3、例如目前现有的智能语音助手,在切换方言/语种,或者对话场景时,会变换不同的音色,比如普通话是音色1,切换到粤语之后播报音色变成了音色2,切换到四川话播报合成又变成了音色3。

技术实现思路

1、本发明的目的是提供一种车载统一听感的人机交互装置及方法,能够解决语音助手在多语种/多场景切换时,用户听感不统一的问题。

2、本发明的技术方案如下:一种车载统一听感的人机交互装置,包括车载语音人机交互系统、车载统一听感转换装置、车载助手大脑装置和目标语音翻译装置,所述的车载助手大脑装置将用户的发话内容进行语种判断和原始回复内容生成,通过目标语言翻译装置,把原始文本内容翻译成目标语言文本,再通过车载统一听感转换装置,将文本合成为目标语言目标音色的语音输出给车载语音人机交互系统,车载语音人机交互系统通过对应语种的交互子系统反馈给用户。

3、所述的车载助手大脑装置包括:多语种识别模块、理解模块以及查询或者执行模块;

4、所述的多语种识别模块,包括多个语种语音识别引擎,如普通话识别引擎、英文识别引擎、粤语识别引擎、四川话识别引擎,用户的发话音频同时输入给普通话识别引擎、英文识别引擎、粤语识别引擎、四川话识别引擎多个语种语音识别引擎,多个识别引擎分别使用对应的语音引擎分别进行音频的语种识别,音频的文本内容识别以及该识别结果的置信度,识别出语音对应的音频文本内容和各自的置信度,之后进行识别结果竞合,最终选择输出一路识别结果及对应语种;

5、理解模块将接收到的识别模块的文字内容进行解析理解,解析出当前发话的意图、槽位,将理解结果输出给查询或者执行模块;

6、查询或者执行模块根据理解内容,请求云端数据库,输出查询结果;或者根据理解内容,解析出执行指令。

7、所述的车载助手大脑装置用于语种判断和原始回复内容生成,用户输入发话内容后,分别进行多路语种识别分析,车载助手大脑装置使用各语种语料库和发音库各自训练好各个语种的识别模型/引擎,用户的发话音频分别输入给普通话识别引擎、英文识别引擎、粤语识别引擎、四川话识别引擎多个语音识别引擎,各个引擎分别进行音频的语种识别、音频的文本内容识别以及该识别结果的置信度,识别出语音对应的音频文本内容和各自的置信度,系统根据一定的规则进行识别结果竞合,最终选择输出一路识别结果及对应语种。

8、所述的目标语言翻译装置包含多个语种翻译装置,将车载助手大脑装置输出的回复内容/指令和语种作为输入,将语种内容翻译成目标语言。

9、所述的车载统一听感转换装置,包括目标语言合成引擎和目标音色转化模块;其中,目标语言合成引擎将非目标的文本内容,转化为目标语言非目标音色的音频输出;目标音色转化模型将目标语言合成引擎输出的目标语言非目标音色音频,转化成目标语言目标音色音频。

10、所述的车载语音人机交互系统包括多个交互子系统,每个子系统依托底层几个装置的能力输出内容,完成与外界系统的人机交互,具体包括车载普通话人机交互子系统、车载粤语人机交互子系统、车载四川话交互子系统、车载英语交互子系统、歌曲合成人机交互子系统、其它语种人机交互子系统。

11、一种车载统一听感的人机交互方法,车载助手大脑装置对用户的发话内容进行语种判断和原始回复内容生成,通过目标语言翻译装置,把原始文本内容翻译成目标语言文本,再通过车载统一听感转换装置,将文本合成为目标语言目标音色的语音输出给车载语音人机交互系统,车载语音人机交互系统通过对应语种的交互子系统反馈给用户。

12、所述的车载助手大脑装置用于语种判断和原始回复内容生成,用户输入发话内容后,分别进行多路语种识别分析,车载助手大脑装置使用各语种语料库和发音库各自训练好各个语种的识别模型/引擎,用户的发话音频分别输入给普通话识别引擎、英文识别引擎、粤语识别引擎、四川话识别引擎等多个语音识别引擎,各个引擎分别进行音频的语种识别、音频的文本内容识别以及该识别结果的置信度,识别出语音对应的音频文本内容和各自的置信度,系统根据一定的规则进行识别结果竞合,最终选择输出一路识别结果及对应语种。

13、所述的目标语言翻译装置将系统输出回复内容/指令翻译成与用户发话类型相同的语种,每次输入只需要启动一个语种的翻译装置。

14、所述的车载统一听感转换装置,包括目标语言合成引擎和目标音色转化模块,目标语言合成引擎将非目标的文本内容,转化为目标语言非目标音色的音频输出;目标音色转化模型将目标语言合成引擎输出的目标语言非目标音色音频,转化成目标语言目标音色音频。

15、本发明的有益效果在于:(1)在用户体验上,用户可以在不同的语种环境下,体验统一听感,不会又突然切换语种带来的突兀和不适;(2)统一的听感能让用户对语音助手或者形象产生一致的认知,比较容易理解语音助手是一个形象,一个大脑;(3)一种音色合成多种语音的技术方案可以以一种语音音色,生成多语种、多方言的语音,节省了不同语种的语料生产成本,将多语种同一音色在技术上的不可能变为可能。

技术特征:

1.一种车载统一听感的人机交互装置,其特征在于:包括车载语音人机交互系统、车载统一听感转换装置、车载助手大脑装置和目标语音翻译装置,所述的车载助手大脑装置将用户的发话内容进行语种判断和原始回复内容生成,通过目标语言翻译装置,把原始文本内容翻译成目标语言文本,再通过车载统一听感转换装置,将文本合成为目标语言目标音色的语音输出给车载语音人机交互系统,车载语音人机交互系统通过对应语种的交互子系统反馈给用户。

2.如权利要求1所述的一种车载统一听感的人机交互装置,其特征在于:所述的车载助手大脑装置包括:多语种识别模块、理解模块以及查询或者执行模块;

3.如权利要求1所述的一种车载统一听感的人机交互装置,其特征在于:所述的车载助手大脑装置用于语种判断和原始回复内容生成,用户输入发话内容后,分别进行多路语种识别分析,车载助手大脑装置使用各语种语料库和发音库各自训练好各个语种的识别模型/引擎,用户的发话音频分别输入给普通话识别引擎、英文识别引擎、粤语识别引擎、四川话识别引擎多个语音识别引擎,各个引擎分别进行音频的语种识别、音频的文本内容识别以及该识别结果的置信度,识别出语音对应的音频文本内容和各自的置信度,系统根据一定的规则进行识别结果竞合,最终选择输出一路识别结果及对应语种。

4.如权利要求1所述的一种车载统一听感的人机交互装置,其特征在于:所述的目标语言翻译装置包含多个语种翻译装置,将车载助手大脑装置输出的回复内容/指令和语种作为输入,将语种内容翻译成目标语言。

5.如权利要求1所述的一种车载统一听感的人机交互装置,其特征在于:所述的车载统一听感转换装置,包括目标语言合成引擎和目标音色转化模块;其中,目标语言合成引擎将非目标的文本内容,转化为目标语言非目标音色的音频输出;目标音色转化模型将目标语言合成引擎输出的目标语言非目标音色音频,转化成目标语言目标音色音频。

6.如权利要求1所述的一种车载统一听感的人机交互装置,其特征在于:所述的车载语音人机交互系统包括多个交互子系统,每个子系统完成与外界系统的人机交互,具体包括车载普通话人机交互子系统、车载粤语人机交互子系统、车载四川话交互子系统、车载英语交互子系统、歌曲合成人机交互子系统、其它语种人机交互子系统。

7.一种车载统一听感的人机交互方法,其特征在于:

8.如权利要求7所述的一种车载统一听感的人机交互方法,其特征在于:所述的车载助手大脑装置用于语种判断和原始回复内容生成,用户输入发话内容后,分别进行多路语种识别分析,车载助手大脑装置使用各语种语料库和发音库各自训练好各个语种的识别模型/引擎,用户的发话音频分别输入给普通话识别引擎、英文识别引擎、粤语识别引擎、四川话识别引擎等多个语音识别引擎,各个引擎分别进行音频的语种识别、音频的文本内容识别以及该识别结果的置信度,识别出语音对应的音频文本内容和各自的置信度,系统根据一定的规则进行识别结果竞合,最终选择输出一路识别结果及对应语种。

9.如权利要求7所述的一种车载统一听感的人机交互方法,其特征在于:所述的目标语言翻译装置将系统输出回复内容/指令翻译成与用户发话类型相同的语种,每次输入只需要启动一个语种的翻译装置。

10.如权利要求7所述的一种车载统一听感的人机交互方法,其特征在于:所述的车载统一听感转换装置,包括目标语言合成引擎和目标音色转化模块,目标语言合成引擎将非目标的文本内容,转化为目标语言非目标音色的音频输出;目标音色转化模型将目标语言合成引擎输出的目标语言非目标音色音频,转化成目标语言目标音色音频。

技术总结本发明属于语音合成技术领域,具体涉及一种车载统一听感的人机交互装置及方法。包括车载语音人机交互系统、车载统一听感转换装置、车载助手大脑装置和目标语音翻译装置,所述的车载助手大脑装置将用户的发话内容进行语种判断和原始回复内容生成,通过目标语言翻译装置,把原始文本内容翻译成目标语言文本,再通过车载统一听感转换装置,将文本合成为目标语言目标音色的语音输出给车载语音人机交互系统,车载语音人机交互系统通过对应语种的交互子系统反馈给用户。有益效果在于:在用户体验上,用户可以在不同的语种环境下,体验统一听感,不会又突然切换语种带来的突兀和不适。技术研发人员:白静,司玉景,何国涛,蒲瑶,李全忠受保护的技术使用者:普强时代(珠海横琴)信息技术有限公司技术研发日:技术公布日:2024/2/1

本文地址:https://www.jishuxx.com/zhuanli/20240618/21416.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。