技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于网络收集和语音合成的语音识别方法、系统及介质  >  正文

基于网络收集和语音合成的语音识别方法、系统及介质

  • 国知局
  • 2024-06-21 11:49:30

本发明涉及一种基于网络收集和语音合成的语音识别方法、系统、计算机设备及存储介质,属于语音识别。

背景技术:

1、现有技术中的语音识别和语音合成技术已经得到了广泛应用和发展。语音识别技术已被应用于智能语音助手、自动语音识别系统、电话客服系统等场景;语音合成技术被应用于智能音箱、语音广告等领域。

2、语音识别技术的发展经历了gmm-hmm、dnn-hmm和端到端三个阶段。目前,端到端语音识别已成为主流的研究方向。它能够直接学习从输入声学信号到转录文字的映射,避免了传统语音识别框架的繁琐结构。其中,端到端流式语音识别技术能够在处理音频流的过程中实时返回识别结果,更好地应用于需要实时获取识别结果的场景。

3、语音合成技术(text-to-speech,tts)是一种将文本转换为声音的技术。早期的语音合成技术主要基于规则和模板,需要大量的人工参与和规则定义,难以满足复杂场景的需求。近年来随着深度学习技术的发展,基于深度学习的语音合成技术逐渐成为主流,它可以分为两类:基于联合建模(joint modeling)和基于端到端建模(end-to-end modeling)。端到端建模的语音合成技术直接将输入的文本信息映射到音频输出。这种方法不需要预先定义复杂的声学或语言学特征,只需要输入文本信息和相应的音频数据,通过深度学习网络将两者联系起来,直接输出所需的音频,具有简单、直接、高效等特点。

4、然而,目前仍然存在一些不足之处。例如,尚缺少针对某些专业领域的语音识别系统的实际应用案例;缺少利用语音合成技术构建语音数据集用于语音识别模型训练的案例;如何高效适配语音合成技术、语音识别技术也是亟待解决的问题。

技术实现思路

1、有鉴于此,本发明提供了一种基于网络收集和语音合成的语音识别方法、系统、计算机设备及存储介质,其可以提高专业语音识别的准确率和可靠性,节省语音识别模型构建的人力与时间成本,满足语音识别在各专业领域的应用需求。

2、本发明的第一个目的在于提供一种基于网络收集和语音合成的语音识别方法。

3、本发明的第二个目的在于提供一种基于网络收集和语音合成的语音识别系统。

4、本发明的第三个目的在于提供一种计算机设备。

5、本发明的第四个目的在于提供一种存储介质。

6、本发明的第一个目的可以通过采取如下技术方案达到:

7、一种基于网络收集和语音合成的语音识别方法,所述方法包括:

8、选定需构建专业语音识别模型的专业领域;

9、使用主题式网络爬虫爬取所选定专业领域相关的语料,并对爬取到的语料进行分句及文本清洗,得到所选定专业领域的语料库;

10、从开源通用语音库中选取真人录音,生成人声数据库,作为真人声音模板;

11、构建基于深度学习的端到端语音合成网络,在语料库基础上使用不同真人声音模板进行自动化批量语音合成,生成专业语音数据集;

12、根据应用场景的需求,构建语音识别神经网络;

13、将开源通用语音库和专业语音数据集进行合并,对语音识别神经网络进行训练和测试,得到增强语音识别模型;

14、利用增强语音识别模型对待识别的语音进行识别。

15、进一步的,所述对爬取到的语料进行分句及文本清洗,具体包括:

16、以句号或分号作为分隔符将文本切割、分行写入文本文档;

17、去除不便于进行语音合成的特殊符号,将专业相关符号转化为对应的中文口语表达形式,统计单句字数,并剔除单句字数过多的文本语句。

18、进一步的,所述从开源通用语音库中选取真人录音,生成开源通用语音库,具体包括:

19、从开源通用语音库中随机抽取多条真人录音,生成开源通用语音库,所述真人录音的男声和女声比例为1:1。

20、进一步的,所述构建基于深度学习的端到端语音合成网络,在语料库基础上进行自动化批量语音合成,生成专业语音数据集,具体包括:

21、构建基于深度学习的端到端语音合成网络,所述语音合成网络包括编码器、合成器和声码器;

22、利用端到端语音合成网络,对语料库逐行进行语音合成操作,得到专业语音数据集,并对语音数据进行质量检验和清洗。

23、进一步的,所述对语音数据进行质量检验和清洗,具体包括:

24、对语音数据进行识别,并计算输出每条语音的字错率和缺字率,根据具体情况剔除的缺字率和字错率不符合要求的语音文件,从而保证专业语音数据集的质量。

25、进一步的,所述将开源通用语音库和专业语音数据集进行合并,对语音识别神经网络进行训练和测试,得到增强语音识别模型,具体包括:

26、将开源通用语音库和专业语音数据集进行合并,划分出训练集和测试集;

27、将训练集输入语音识别神经网络进行训练,得到增强语音识别模型;

28、将测试集输入增强语音识别模型进行识别,得到识别准确率;

29、若识别准确率达到预设值,将增强语音识别模型作为最终的增强语音识别模型;

30、若识别准确率未达到预设值,对增强语音识别模型进行调试和优化,直到识别准确率达到预设值,将调试和优化后的增强语音识别模型作为最终的增强语音识别模型。

31、进一步的,所述语音识别神经网络为循环神经网络、自注意力机制神经网络或卷积-注意力机制神经网络。

32、本发明的第二个目的可以通过采取如下技术方案达到:

33、一种基于网络收集和语音合成的语音识别系统,所述系统包括:

34、选定模块,用于选定需构建专业语音识别模型的专业领域;

35、爬取模块,用于使用主题式网络爬虫爬取所选定专业领域相关的语料,并对爬取到的语料进行分句及文本清洗,得到所选定专业领域的语料库;

36、第一生成模块,用于从开源通用语音库中选取真人录音,生成人声数据库,作为真人声音模板;

37、第二生成模块,用于构建基于深度学习的端到端语音合成网络,在语料库基础上使用不同真人声音模板进行自动化批量语音合成,生成专业语音数据集;

38、构建模块,用于根据应用场景的需求,构建语音识别神经网络;

39、训练与测试模块,用于将开源通用语音库和专业语音数据集进行合并,对语音识别神经网络进行训练和测试,得到增强语音识别模型;

40、识别模块,用于利用增强语音识别模型对待识别的语音进行识别。

41、本发明的第三个目的可以通过采取如下技术方案达到:

42、一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的语音识别方法。

43、本发明的第四个目的可以通过采取如下技术方案达到:

44、一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的语音识别方法。

45、本发明相对于现有技术具有如下的有益效果:

46、1、本发明提高了专业语音识别的准确率和可靠性,适用于各专业领域,通过使用专业领域的语料和语音合成技术构建训练所需的语音数据集,可以大幅提高语音识别模型在该领域的准确率和可靠性,适用于各种专业领域,如医疗、法律、金融等领域,从而满足专业领域的语音识别需求。

47、2、本发明可以节省数据集构建的人力和时间成本,由于传统的语音数据集构建需要大量的人力和时间成本,而本发明采用语音合成技术可以快速生成专业语音数据集,大幅度降低了数据集构建的人力和时间成本。

48、3、本发明的构建方法相较传统方式简单易行,有效提高语音识别应用的效率,构建过程包括网络爬虫爬取语料、清洗语料、构建语音合成网络、生成专业语音数据集、以及训练语音识别神经网络等,容易实现和操作,语音识别模型的准确率和可靠性的提高会推动语音识别相关应用如人机交互等的效率也随之提高。

49、4、本发明高效融合爬虫技术、文本处理技术、语音合成技术和语音识别技术,通过爬虫技术和文本处理技术构建语料库,再将语料库应用于语音合成技术完成语音库搭建,最后将语音库用于语音识别技术中模型的训练,从而高效地完成语音识别模型的构建。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23779.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。