技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法、系统、电子设备及存储介质与流程  >  正文

一种语音识别方法、系统、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:53:40

本技术涉及语音识别,特别是一种语音识别方法、系统、电子设备及存储介质。

背景技术:

1、语音识别技术和文本顺滑技术是目前语音识别中较为常见的两种技术,其中,语音识别技术,英文称为automatic speech recognition,简称asr,是将语音识别成文本,让机器能够轻松听懂人类的语言;文本顺滑技术,英文称为disfluency detection,其目的是删除语音识别结果中的不顺滑的词,从而得到更自然和通顺的句子。

2、但是,目前对于语音识别和文本顺滑,大多是分步骤进行的,即先对语音数据进行语音识别,然后对语音识别的文本信息进行文本顺滑,在顺滑的过程中,往往只利用了文本信息而忽略了语音信息对识别结果的影响,从而导致最终的识别结果的顺滑度较差。

3、因此,亟需一种新的语音识别方法。

技术实现思路

1、鉴于上述问题,本技术实施例提供了一种语音识别方法、系统、电子设备及存储介质,以便克服上述问题或者至少部分地解决上述问题。

2、本技术实施例第一方面,提供了一种语音识别方法,所述方法包括:

3、获取待识别的语音数据;

4、将所述待识别的语音数据输入预先训练好的语音识别模型中,得到所述待识别的语音数据对应的书面化目标文本数据;其中,所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据,所述口语化语音数据与所述书面化标注文本数据一一对应,所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。

5、可选地,针对所述口语化语音数据进行顺滑处理,得到所述书面化标注文本数据,包括:

6、获取所述口语化语音数据,并将所述口语化语音数据转化为非书面化标注文本数据;

7、根据预设标注规范,将所述非书面化标注文本数据顺滑成所述书面化标注文本数据。

8、可选地,针对所述口语化语音数据进行顺滑处理,得到所述书面化标注文本数据,包括:

9、获取所述口语化语音数据;

10、将所述口语化语音数据对应的非书面化标注文本数据输入到预先训练的文本顺滑模型中,得到所述口语化语音数据对应的所述书面化标注文本数据,其中,所述预先训练的文本顺滑模型的训练数据为源数据以及与所述源数据对应的目标数据组成的文本对,所述源数据为口语化文本数据,所述目标数据为针对所述口语化文本数据对应的书面化标注文本数据。

11、可选地,所述将所述待识别的语音数据输入预先训练好的语音识别模型中,得到所述待识别的语音数据对应的书面化目标文本数据,包括:

12、在将所述待识别的语音数据输入所述语音识别模型之后,通过所述语音识别模型确定所述待识别的语音数据是否含有需要顺滑掉的发音;

13、在所述待识别的语音数据中包含需要顺滑掉的发音的情况下,所述语音识别模型针对所述需要顺滑掉的发音的识别结果为空,所述语音识别模型输出的识别结果为删除所述需要顺滑掉的发音后的所述待识别的语音数据对应的书面化目标文本数据;

14、当所述待识别的语音数据中不包含需要顺滑掉的发音时,则所述语音识别模型输出的识别结果为所述待识别的语音数据对应的书面化目标文本数据。

15、可选地,所述语音识别模型是通过如下步骤训练得到的:

16、获取训练数据集,所述训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据,所述口语化语音数据与所述书面化标注文本数据一一对应;

17、将所述口语化语音数据与所述书面化标注文本数据输入到预先准备的端到端模型中进行模型训练,生成所述语音识别模型。

18、本技术实施例第二方面,提供了一种语音识别系统,所述系统包括:

19、获取模块,用于获取待识别的语音数据;

20、输入模块,用于将所述待识别的语音数据输入预先训练好的语音识别模型中,得到所述待识别的语音数据对应的书面化目标文本数据;其中,所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据,所述口语化语音数据与所述书面化标注文本数据一一对应,所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。

21、可选地,针对所述口语化语音数据进行顺滑处理,得到所述书面化标注文本数据,所述系统还包括:

22、第一获取子模块,用于获取所述口语化语音数据,并将所述口语化语音数据转化为非书面化标注文本数据;

23、第一顺滑子模块,用于根据预设标注规范,将所述非书面化标注文本数据顺滑成所述书面化标注文本数据。

24、可选地,针对所述口语化语音数据进行顺滑处理,得到所述书面化标注文本数据,所述系统还包括:

25、第二获取子模块,用于获取所述口语化语音数据;

26、第一输入子模块,用于将所述口语化语音数据对应的非书面化标注文本数据输入到预先训练的文本顺滑模型中,得到所述口语化语音数据对应的所述书面化标注文本数据,其中,所述预先训练的文本顺滑模型的训练数据为源数据以及与所述源数据对应的目标数据组成的文本对,所述源数据为口语化文本数据,所述目标数据为针对所述口语化文本数据对应的书面化标注文本数据。

27、可选地,所述将所述待识别的语音数据输入预先训练好的语音识别模型中,得到所述待识别的语音数据对应的书面化目标文本数据,所述输入模块,包括:

28、确定子模块,用于在将所述待识别的语音数据输入所述语音识别模型之后,通过所述语音识别模型确定所述待识别的语音数据是否含有需要顺滑掉的发音;

29、第一输出子模块,用于在所述待识别的语音数据中包含需要顺滑掉的发音的情况下,所述语音识别模型针对所述需要顺滑掉的发音的识别结果为空,所述语音识别模型输出的识别结果为删除所述需要顺滑掉的发音后的所述待识别的语音数据对应的书面化目标文本数据;

30、第二输出子模块,用于当所述待识别的语音数据中不包含需要顺滑掉的发音时,则所述语音识别模型输出的识别结果为所述待识别的语音数据对应的书面化目标文本数据。

31、可选地,所述语音识别模型是通过如下步骤训练得到的,包括:

32、第三获取子模块,用于获取训练数据集,所述训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据,所述口语化语音数据与所述书面化标注文本数据一一对应;

33、第二输入子模块,用于将所述口语化语音数据与所述书面化标注文本数据输入到预先准备的端到端模型中进行模型训练,生成所述语音识别模型。

34、本技术实施例第三方面,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现如本技术第一方面所述的语音识别方法。

35、本技术实施例第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本技术第一方面所述的语音识别方法。

36、本技术的有益效果:

37、本技术实施例提供了一种语音识别方法,所述方法包括:获取待识别的语音数据;将所述待识别的语音数据输入预先训练好的语音识别模型中,得到所述待识别的语音数据对应的书面化目标文本数据;其中,所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据,所述口语化语音数据与所述书面化标注文本数据一一对应,所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。本技术通过将语音数据以及对应的书面化标注文本数据作为训练数据训练语音识别模型,从而能够在训练语音识别模型时将语音识别与文本顺滑相结合,进而使得训练出的语音识别模型在进行语音识别与文本顺滑时能够考虑到语音数据与文本数据的双重影响,使得识别结果更加准确。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24319.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。