技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种用于语音识别的方法和设备与流程  >  正文

一种用于语音识别的方法和设备与流程

  • 国知局
  • 2024-06-21 10:38:42

本公开实施例涉及信息,尤其涉及一种用于语音识别的方法和设备。

背景技术:

1、随着信息技术的发展,人机交互场景在日常生活中越来越常见,而语音识别技术作为人机交互的重要途径,在智能家居、智能办公、智能汽车等领域中存在广泛应用。

2、其中,语音识别技术以语音为研究对象,通过语音信号处理和模式识别使得机器自动识别和理解人类口述的语音。当前通用的语音识别的方案是通过神经网络技术对海量数据进行学习,以得到语音识别模型,然后通过语音识别模型对语音进行识别。

3、在语音识别过程中经常会出现关键词,关键词可以指一类具有时效性、特殊性或专有性的词语,例如,歌曲名、人名、地址名、技术词汇等。由于关键词的数量较大,因此,当同时执行多个关键词的识别任务时,需要建立庞大的语言模型进行训练和识别,占用的资源和时间成本也较大。

4、因此,业界亟需一种能够提高对关键词的处理效率的语音识别方法。

技术实现思路

1、本公开实施例提供一种用于语音识别的方法和装置,能够提高训练和识别关键词的效率,减少资源占用和时间成本。

2、第一方面,本公开实施例提供一种用于语音识别的方法,包括:获取待识别的语音;将所述语音输入至解码器,以输出符合自然语言的文本,其中,所述解码器包括声学模型、发音词典以及语言模型,所述声学模型用于将所述语音转换为音素序列,所述发音词典用于将所述音素序列转换为词序列,所述语言模型用于将所述词序列转换为所述符合自然语言的文本;其中,所述语言模型包括基础语言模型和至少一个关键词语言模型,所述基础语言模型所使用的第一训练语料中包括至少一个关键词类别标志,所述关键词类别标志用于替换第一训练语料中的对应的关键词,每个关键词类别标志对应于一个种类的关键词集合;所述至少一个关键词语言模型是分别对至少一个第二训练语料进行训练生成的,所述至少一个第二训练语料与所述至少一个关键词类别标志一一对应,所述第二训练语料中包括关键词类别标志对应的关键词的集合;所述语言模型用于在所述基础语言模型输出关键词类别标志的情况下,调用所述关键词类别标志对应的关键词语言模型搜索并返回对应的关键词。

3、第二方面,本公开实施例提供一种用于语音识别的方法,包括:获取第一训练语料,所述第一训练语料中包括至少一个关键词类别标志,每个关键词类别标志对应一个种类的关键词集合,所述至少一个关键词类别标志用于替换第一训练语料中对应的关键词;根据所述第一训练语料进行训练,生成基础语言模型;获取至少一个第二训练语料,所述至少一个第二训练语料与所述至少一个关键词类别标志一一对应,所述第二训练语料中包括关键词类别标志对应的关键词的集合;分别根据所述至少一个第二训练语料,生成至少一个关键词语言模型;根据所述基础语言模型和所述至少一个关键词语言模型,生成解码器,所述解码器用于对输入的语音进行解码,以输出符合自然语言的文本。

4、第三方面,本公开实施例提供一种用于语音识别的设备,包括:获取模块,用于获取待识别的语音;处理模块,用于将所述语音输入至解码器,以输出符合自然语言的文本,其中,所述解码器包括声学模型、发音词典以及语言模型,所述声学模型用于将所述语音转换为音素序列,所述发音词典用于将所述音素序列转换为词序列,所述语言模型用于将所述词序列转换为所述符合自然语言的文本;其中,所述语言模型包括基础语言模型和至少一个关键词语言模型,所述基础语言模型所使用的第一训练语料中包括至少一个关键词类别标志,所述关键词类别标志用于替换第一训练语料中的对应的关键词,每个关键词类别标志对应于一个种类的关键词集合;所述至少一个关键词语言模型是分别对至少一个第二训练语料进行训练生成的,所述至少一个第二训练语料与所述至少一个关键词类别标志一一对应,所述第二训练语料中包括关键词类别标志对应的关键词的集合;所述语言模型用于在所述基础语言模型输出关键词类别标志的情况下,调用所述关键词类别标志对应的关键词语言模型搜索并返回对应的关键词。

5、第四方面,本公开实施例提供一种用于语音识别的设备,包括:获取模块,用于获取第一训练语料,所述第一训练语料中包括至少一个关键词类别标志,每个关键词类别标志对应一个种类的关键词集合,所述至少一个关键词类别标志用于替换第一训练语料中对应的关键词;处理模块,用于根据所述第一训练语料进行训练,生成基础语言模型;所述获取模块还用于获取至少一个第二训练语料,所述至少一个第二训练语料与所述至少一个关键词类别标志一一对应,所述第二训练语料中包括关键词类别标志对应的关键词的集合;所述处理模块还用于分别根据所述至少一个第二训练语料,生成至少一个关键词语言模型;所述处理模块还用于根据所述基础语言模型和所述至少一个关键词语言模型,生成解码器,所述解码器用于对输入的语音进行解码,以输出符合自然语言的文本。

6、第五方面,本公开实施例提供一种电子设备,包括:处理器和存储器;

7、所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的用于语音识别的方法,或者执行如上第二方面以及第二方面各种可能的设计所述的用于语音识别的方法。

8、第六方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的所述的用于语音识别的方法,或者执行如上第二方面以及第二方面各种可能的设计所述的用于语音识别的方法。

9、第七方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的用于语音识别的方法,或者执行如上第二方面以及第二方面各种可能的设计所述的用于语音识别的方法。

10、本实施例提供了一种用于语音识别的方法和设备,该方法将基础查询部分和关键词部分独立进行训练,并在解码过程中将两者结合在一起进行解码,从而减少了训练和解码关键词的复杂度,提高训练和识别关键词的效率,减少资源占用和时间成本。

技术特征:

1.一种用于语音识别的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述将所述语音输入至解码器,以输出符合自然语言的文本,包括:

3.如权利要求2所述的方法,其特征在于,所述将所述语音输入至解码器,以输出符合自然语言的文本,包括:

4.一种用于语音识别的方法,其特征在于,包括:

5.如权利要求4所述的方法,其特征在于,所述根据所述基础语言模型和所述至少一个关键词语言模型,生成解码器,包括:

6.如权利要求4或5所述的方法,其特征在于,所述方法还包括:根据所述解码器对输入的语音进行解码,以输出符合自然语言的文本,其中,所述根据所述解码器对输入的语音进行解码,包括:

7.如权利要求6所述的方法,其特征在于,所述根据所述解码器对输入的语音进行解码,包括:

8.一种用于语音识别的设备,其特征在于,包括:

9.一种用于语音识别的设备,其特征在于,包括:

10.一种电子设备,其特征在于,包括:处理器和存储器;

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至3中任一项所述的方法,或者用于执行如权利要求4至7中任一项所述的方法。

12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法,或者用于执行如权利要求4至7中任一项所述的方法。

技术总结一种用于语音识别的方法和设备,该方法包括:获取待识别的语音;将语音输入至解码器,以输出符合自然语言的文本,其中,解码器包括声学模型、发音词典以及语言模型;其中,语言模型包括基础语言模型和至少一个关键词语言模型,基础语言模型所使用的第一训练语料中包括至少一个关键词类别标志;至少一个关键词语言模型是分别对至少一个第二训练语料进行训练生成的,至少一个第二训练语料与至少一个关键词类别标志一一对应;语言模型用于在基础语言模型输出关键词类别标志的情况下,调用关键词类别标志对应的关键词语言模型搜索并返回对应的关键词。该方法能够提高训练和识别关键词的效率,减少资源占用和时间成本。技术研发人员:蒋泳森受保护的技术使用者:抖音视界(北京)有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20894.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。