技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置及车辆与流程  >  正文

语音识别方法、装置及车辆与流程

  • 国知局
  • 2024-06-21 11:26:53

本申请涉及语音识别,尤其涉及一种语音识别方法、装置及车辆。

背景技术:

1、相关技术中,端到端的语音识别模型可以根据输入的音频数据直接输出文本,具有较高的语音识别效率而受到广泛应用。针对英语、法语、德语等拉丁字母语系进行语音识别的模型而言,其在建模过程中,所使用的建模单元一般是wordpiece。其中,wordpiece可视为一个单词的碎片化,即一个单词可以被拆分为至少一个子词,每个子词由1个字母组成或连续拼写的n个字母组成。然而,拆分出的各子词与单词的发音音节并没有直接关系,只和拼写有关,而基于音节的建模单元则不能直接获得端到端的语音识别效果。

2、目前,为了使拉丁语系的语音识别获得与发音关联的识别结果,需要采用每个语种的大量音频数据对语音识别模型进行训练,才能习得发音和wordpiece之间的映射关系,导致耗费较高的训练成本和训练时间。

技术实现思路

1、为解决或部分解决相关技术中存在的问题,本申请提供一种语音识别方法、装置及车辆,能够将端到端输出的语音识别文本实现与发音的强关联,识别效率高,且用数据量少。

2、本申请第一方面提供一种语音识别方法,其包括:

3、接收车辆座舱内用户发出的语音请求;对待识别的所述语音请求进行特征提取,生成特征向量;根据输入的所述特征向量,通过端到端的预设语音识别模型输出对应的语音识别文本,并以子词的形式在车载系统的图形用户界面逐一显示;其中,所述语音识别模型的建模单元包括子词单元,所述语音识别文本中的单个单词拆分的子词数量与对应的ipa音节数量相同且强制对齐,以根据所述ipa音节逐一输出对应的子词。本申请的语音识别方法,通过约束单词被划分后的子词数量与对应的ipa音节数量保持一致,并通过预设对齐算法强制对齐子词单元与ipa音节,以形成一对一的映射关系,继而使语音识别模型可以输出的语音识别文本是与发音具有强关联性的子词,既能利用好语种发音规律的先验知识,减少数据量需求,又能利用wordpiece的优点,实现端到端输的语音识别效果。

4、在本申请的语音识别方法中,所述语音识别文本中的单个单词拆分的子词数量与对应的ipa音节数量相同且强制对齐,以根据所述ipa音节逐一输出对应的子词以供显示,包括:

5、若单词的字母数量大于或等于对应的ipa音节数量时,通过预设对齐算法,获得所述单词的每个字母与其中一个ipa音节的映射关系;

6、将具有相同映射关系且连续拼写的字母组成一个子词,分别获得各子词与单个ipa音节的对齐结果;其中,所述子词的数量与所述ipa音节的数量相同;

7、根据所述对齐结果,按时序逐一输出各所述子词。

8、在本申请的语音识别方法中,所述方法还包括:

9、若单词的字母数量小于对应的ipa音节数量时,将对应的所述字母重复多次以与所述ipa音节数量一致,并在各所述字母的后方设置预设合并符,以根据所述预设合并符将重复的所述字母合并为一个字母并输出。

10、在本申请的语音识别方法中,所述通过预设对齐算法,获得所述单词的每个字母与其中一个ipa音节的映射关系,将具有相同映射关系的连续拼写的字母组成一个子词,获得各子词与单个ipa音节的对齐结果,包括:

11、通过第一预设对齐算法,获得所述单词中的每个字母与其中一个ipa音节的第一映射关系;将具有相同映射关系的连续拼写的字母组成一个子词,获得各子词与单个ipa音节的第一对齐结果;

12、通过第二预设对齐算法,获得所述单词中的每个字母与其中一个ipa音节的第二映射关系;将具有相同映射关系的连续拼写的字母组成一个子词,获得各子词与单个ipa音节的第二对齐结果;其中,所述第二预设对齐算法与所述第一预设对齐算法不同。

13、在本申请的语音识别方法中,所述根据所述对齐结果,按时序逐一输出各所述子词,包括:

14、当所述第一对齐结果与所述第二对齐结果相同时,按时序输出第一对齐结果或第二对齐结果的子词。

15、在本申请的语音识别方法中,所述根据所述对齐结果,按时序逐一输出各所述子词,包括:

16、当所述第一对齐结果与所述第二对齐结果不同时,分别获取所述第一对齐结果与所述第二对齐结果中的相异子词对应的预设分值;其中,所述预设分值为所述子词在语料库中的出现频次;

17、按时序逐一输出预设分值总分更高的第一对齐结果或第二对齐结果对应的子词。

18、在本申请的语音识别方法中,所述方法还包括:

19、预先在位于词首的所述子词单元之前设置分隔符,以当所述语音识别文本的所述子词位于词首时,根据所述分隔符生成空格符并显示。

20、本申请第二方面提供一种语音识别装置,其包括:

21、语音接收模块,用于接收车辆座舱内用户发出的语音请求;

22、特征提取模块,用于对待识别的所述语音请求进行特征提取,生成特征向量;

23、语音识别模块,用于根据输入的所述特征向量,通过端到端的预设语音识别模型输出对应的语音识别文本,并以子词的形式在车载系统的图形用户界面逐一显示;

24、其中,所述语音识别模型的建模单元包括子词单元,所述语音识别文本中的单个单词拆分的子词数量与对应的ipa音节数量相同且强制对齐,以根据所述ipa音节逐一输出对应的子词。

25、本申请第三方面提供一种车辆,包括:

26、处理器;以及

27、存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。

28、本申请第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被车辆的处理器执行时,使所述处理器执行如上所述的方法。

29、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述语音识别文本中的单个单词拆分的子词数量与对应的ipa音节数量相同且强制对齐,以根据所述ipa音节逐一输出对应的子词以供显示,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求2或3所述的方法,其特征在于,所述通过预设对齐算法,获得所述单词的每个字母与其中一个ipa音节的映射关系,将具有相同映射关系的连续拼写的字母组成一个子词,获得各子词与单个ipa音节的对齐结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述对齐结果,按时序逐一输出各所述子词,包括:

6.根据权利要求4所述的方法,其特征在于,所述根据所述对齐结果,按时序逐一输出各所述子词,包括:

7.根据权利要求3所述的方法,其特征在于,所述方法还包括:

8.一种语音识别装置,其特征在于,包括:

9.一种车辆,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被车辆的处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。

技术总结本申请涉及一种语音识别方法、装置及车辆。该方法包括:接收车辆座舱内用户发出的语音请求;对待识别的语音请求进行特征提取,生成特征向量;根据输入的特征向量,通过端到端的预设语音识别模型输出对应的语音识别文本,并以子词的形式在车载系统的图形用户界面逐一显示;其中,语音识别模型的建模单元包括子词单元,语音识别文本中的单个单词拆分的子词数量与对应的IPA音节数量相同且强制对齐,以根据IPA音节逐一输出对应的子词。本申请提供的方案,能够将端到端输出的语音识别文本实现与发音的强关联,识别效率高,且用数据量少。技术研发人员:张辽受保护的技术使用者:广州小鹏汽车科技有限公司技术研发日:技术公布日:2024/2/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/21581.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。