技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于知识驱动文本生成的语音识别领域自适应方法及系统 > 正文

基于知识驱动文本生成的语音识别领域自适应方法及系统

国知局
2024-06-21 11:38:08

本发明涉及智能语音领域，尤其涉及一种基于知识驱动文本生成的语音识别领域自适应方法及系统。

背景技术：

1、asr(automatic speech recognition，自动语音识别)是以端到端语音识别模型为主，针对用户输入的语音进行识别，将用户输入的语音解码为人类可读的自然语言，但端到端模型容易受到领域变化的影响。也就是说，语音识别通常会受到训练语料的领域限制，在领域相差较大的时候，语音识别的性能会受到较大的影响(例如，语音模型的训练语料是音乐领域，语音模型在识别用户说的美食领域的语音时，识别的准确性能就会受到影响)，为了解决领域的影响，现有技术通常会进行领域自适应来提升性能，常用的领域自适应技术依赖对应领域的大量高质量的文本语料，通过大量的高质量的文本语料对语音模型进行训练。

2、在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

3、语音识别的领域自适应通常都是围绕着文本领域为核心展开的，要求获得大量、高质量的对应领域的文本及语音，然而大量、高质量的对应领域的文本通常难以获得。

技术实现思路

1、为了至少解决现有技术中大量、高质量的对应领域的文本难以获得的问题。

2、第一方面，本发明实施例提供一种基于知识驱动文本生成的语音识别领域自适应方法，包括：

3、将目标领域知识输入至知识描述框架进行填充，利用填充后的知识描述框架引导大语言模型生成符合所述目标领域知识的目标领域文本；

4、将所述目标领域文本输入至文本转语音模型，生成目标领域音频，将所述目标领域文本以及对应的所述目标领域音频确定为第一训练数据；

5、至少利用所述第一训练数据对语音识别模型进行领域自适应的第一优化训练，利用训练后的语音识别模型输出所述第一训练数据的目标音频假设；

6、将所述目标音频假设输入至所述大语言模型进行知识驱动的文本生成迭代，得到第二训练数据；

7、至少利用所述第二训练数据对语音识别模型进行领域自适应的第二优化训练，得到领域自适应的语音识别模型。

8、第二方面，本发明实施例提供一种基于知识驱动文本生成的语音识别领域自适应系统，包括：

9、领域描述模块，用于将目标领域知识输入至知识描述框架进行填充，利用填充后的知识描述框架引导大语言模型生成符合所述目标领域知识的目标领域文本；

10、数据生成模块，用于将所述目标领域文本输入至文本转语音模型，生成目标领域音频，将所述目标领域文本以及对应的所述目标领域音频确定为第一训练数据；

11、第一优化训练模块，用于至少利用所述第一训练数据对语音识别模型进行领域自适应的第一优化训练，利用训练后的语音识别模型输出所述第一训练数据的目标音频假设；

12、自我迭代生成模块，用于将所述目标音频假设输入至所述大语言模型进行知识驱动的文本生成迭代，得到第二训练数据；

13、第二优化训练模块，用于至少利用所述第二训练数据对语音识别模型进行领域自适应的第二优化训练，得到领域自适应的语音识别模型。

14、第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于知识驱动文本生成的语音识别领域自适应方法的步骤。

15、第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于知识驱动文本生成的语音识别领域自适应方法的步骤。

16、本发明实施例的有益效果在于：本方法可以在没有任何领域内的文本或音频数据的情况下，通过领域自适应的方法显著提高语音识别性能。同时，本方法与传统的利用语音合成来进行领域自适应的方法是不冲突可以同时使用的。本方法可以妥善利用大语言模型的强大生成能力，大大降低领域自适应问题中搜集数据以及清洗数据的开销，优化训练出领域自适应性能更强的语音识别模型。

技术特征：

1.一种基于知识驱动文本生成的语音识别领域自适应方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述目标音频假设输入至所述大语言模型进行知识驱动的文本生成迭代，得到第二训练数据包括：

3.根据权利要求1所述的方法，其中，所述知识描述框架用于接收内容维度知识以及风格维度知识，其中，所述内容维度知识的词条包括：主题、关键词、人物、事件，所述风格维度知识的词条包括：表达风格、基调、语法结构、词汇选择、修辞手段、体裁；

4.根据权利要求1所述的方法，其中，所述文本转语音模型包括：语言模型前端和声学模型后端；

5.根据权利要求4所述的方法，其中，所述文本转语音模型为diffusion voice模型。

6.根据权利要求1所述的方法，其中，所述至少利用所述第一训练数据对语音识别模型进行领域自适应的第一优化训练包括：

7.根据权利要求1所述的方法，其中，所述大语言模型包括：openai api平台的gpt-3.5。

8.一种基于知识驱动文本生成的语音识别领域自适应系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

技术总结本发明实施例提供一种基于知识驱动文本生成的语音识别领域自适应方法及系统。该方法包括：将目标领域知识输入至知识描述框架进行填充，引导大语言模型生成符合目标领域知识的目标领域文本；将目标领域文本输入至文本转语音模型，生成第一训练数据；利用第一训练数据对语音识别模型进行领域自适应的第一优化训练，利用训练后的语音识别模型输出第一训练数据的目标音频假设；将目标音频假设输入至大语言模型进行知识驱动的文本生成迭代，得到第二训练数据；利用第二训练数据对语音识别模型进行领域自适应的第二优化训练，得到领域自适应的语音识别模型。本发明实施例显著提高语音识别性能，同时优化训练出领域自适应性能更强的语音识别模型。技术研发人员：杨宝琛,俞凯,张熙灼,刘森,郭奕玮,梁正受保护的技术使用者：上海交通大学技术研发日：技术公布日：2024/3/24