技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于大模型的语音处理模型的训练方法和处理方法与流程 > 正文

一种基于大模型的语音处理模型的训练方法和处理方法与流程

国知局
2024-10-21 15:12:05

本发明属于计算机，具体提供一种基于大模型的语音处理模型的训练方法和处理方法。

背景技术：

1、大语言模型(large language model,llm)成为了自然语言处理(naturallanguage process ing，nlp)领域的一项重要技术，其仅凭单一模型就将机器翻译、文章摘要、对话系统等任务一并解决，显著提高了深度学习模型对信息数据的处理效率和效果。

2、近些年随着llm的发展，越来越多的研究人员尝试将其他模态的数据与llm进行结合，比如语音模态，使大模型可以直接理解声学信号，这种方法不仅可以抛弃人机交互中语音转文字步骤，而且可以更有效地分析语音中的非语义信息，如情绪、环境、说话人性别年龄等特征。然而，语音数据与文本数据存在着极大的差异，如何让llm可以处理语音数据，是需要解决的重点难题。

3、现阶段，已有一些方案让llm成功处理语音数据并输出合理的结果，主流解决方案可归结为两种思路，第一种是扩充llm的词表token，将一系列可以代表声学特征的token添加到词表中，微调llm使其可以接收声学特征token作为输入和输出，后续可以声学特征token为建模单元训练声码器，用于llm输出结果的语音合成步骤。由于llm预训练模型是经过海量数据训练得到，该方案由于扩充了llm词表，给模型带来了新的输入，很容易存在模型训练不充分和模型遗忘等问题。

4、第二种是将语音数据特征映射到词向量空间中，利用线性变换方法使得语音特征和文本特征保持相同的维度，llm在计算文本特征时一同计算语音特征，通过设计特殊的损失函数来完成语音识别、语音翻译、性别识别等语音领域任务。然而对于llm来说，语音特征没有固定的词表，且语音信号是复杂多变的，导致llm每次计算的语音特征均不一致，对模型性能带来负面影响。

5、需要研发一种具有高效处理语音数据的能力的处理模型。

技术实现思路

1、为了克服上述缺陷，本发明提供了一种基于大模型的语音处理模型的训练方法和处理方法，利用训练好的语音处理模型能够在不改变大模型词表的情况下，高效处理语音数据。

2、本发明提供了一种基于大模型的语音处理模型的训练方法，包括：

3、获取语音音频样本和文本指令样本；

4、基于所述语音音频样本，根据所述文本指令样本得到文本标签；

5、基于语音特征提取模型对所述语音音频样本提取特征；

6、基于映射层，根据所述特征在大模型的词表中进行映射，得到语音token样本；

7、根据所述语音token样本和所述文本指令样本，基于所述大模型输出处理结果；

8、将所述文本标签作为作为真值，通过预设的损失函数，对所述输出的语音处理结果计算损失；

9、基于所述损失进行反向传播以对所述语音处理模型的参数进行更新，完成当前轮迭代训练。

10、进一步地，所述基于所述损失进行反向传播以对所述语音处理模型的参数进行更新，完成当前轮迭代训练包括：

11、基于所述损失进行反向传播以仅对所述映射层的参数进行更新，完成当前轮迭代训练。

12、进一步地，所述基于所述损失进行反向传播以对所述映射层的参数进行更新，完成当前轮迭代训练步骤之后，还包括：

13、基于所述损失进行反向传播以同时仅对所述映射层和大模型的参数进行更新，完成前轮迭代训练。

14、进一步地，所述基于所述损失进行反向传播以同时仅对所述映射层和大模型的参数进行更新，完成前轮迭代训练包括：

15、以小于预设阈值的学习率，基于所述损失进行反向传播以同时仅对所述映射层和大模型的参数进行更新，完成前轮迭代训练。

16、进一步地，所述获取文本指令样本包括：

17、获取指令样本，其中，所述指令样本包括文本形式的对所述语音音频样本处理的期望；

18、根据所述文本指令样本得到文本token样本。

19、进一步地，所述根据所述语音token样本和所述文本指令样本，基于所述大模型输出处理结果包括：

20、根据所述语音token样本和所述文本token样本，基于所述大模型输出处理结果。

21、本发明还提供了一种使用第一方面训练方法训练好的语音处理模型进行语言处理的方法，包括：

22、接收语音音频和文本指令；

23、根据使用第一方面训练方法训练好的语音处理模型输入所述语音音频和文本指令，输出语音处理结果。

24、进一步地，所述根据第一方面方法训练好的语音处理模型输入所述语音音频和文本指令，输出处理结果包括：

25、根据第一方面方法训练好的语音处理模型的语音特征提取模型对所述语音音频提取特征；

26、基于所述语音处理模型的映射层，根据所述特征在大模型的词表中进行映射，得到语音token；

27、根据所述语音token和输入的所述文本指令，基于所述大模型输出处理结果。

28、在第三方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述第一方面所述的基于大模型的语音处理模型的训练方法或第二方面所述的语言处理的方法。

29、在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述第一方面所述的基于大模型的语音处理模型的训练方法或第二方面所述的语言处理的方法。

30、本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

31、在实施本发明的技术方案中，本发明将语音音频数据通过语音特征提取模型和映射层结合的方式映射到大模型的token上，在不改变大模型词表的情况下，赋予了其处理语音数据的能力，可使用单一模型完成语音识别、语音翻译、情绪识别等语音领域的多项任务。

32、在模型训练过程中，首先固定语音特征提取模型和大模型的参数，只更新映射层参数，目的是让映射层适应语音特征，可以将其映射到大模型词表的文本token上，固定住语音特征提取模型可以让语音特征提取结果不发生改变，固定住大模型参数可以通过输出结果来判断映射层是否得到充分的训练。然后固定语音特征提取模型的参数，只更新映射层和大模型的参数。固定语音特征提取模型的参数目的是不改变声学特征提取结果，该步骤需将大模型和映射层一同训练，由于两者都已经过预训练阶段，因此利用较小的学习率来更新两者的参数，使其性能不会出现较大偏差。

技术特征：

1.一种基于大模型的语音处理模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述损失进行反向传播以对所述语音处理模型的参数进行更新，完成当前轮迭代训练包括：

3.根据权利要求3所述的方法，其特征在于，所述基于所述损失进行反向传播以对所述映射层的参数进行更新，完成当前轮迭代训练步骤之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述损失进行反向传播以同时仅对所述映射层和大模型的参数进行更新，完成前轮迭代训练包括：

5.根据权利要求1所述的方法，其特征在于，所述获取文本指令样本包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音token样本和所述文本指令样本，基于所述大模型输出处理结果包括：

7.一种使用权利要求1-6任一项方法训练好的语音处理模型进行语言处理的方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据权利要求1-6任一项方法训练好的语音处理模型输入所述语音音频和文本指令，输出处理结果包括：

9.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1-6中任一项所述的基于大模型的语音处理模型的训练方法或执行权利要求7或8所述的语言处理的方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1-6中任一项所述的基于大模型的语音处理模型的训练方法或执行权利要求7或8所述的语言处理的方法。

技术总结本发明属于计算机技术领域，具体提供一种基于大模型的语音处理模型的训练方法和处理方法。本发明训练方法包括：获取语音音频样本和文本指令样本；得到文本标签；基于语音特征提取模型对所述语音音频样本提取特征；基于映射层，根据所述特征在大模型的词表中进行映射，得到语音token样本；根据所述语音token样本和所述文本指令样本，基于所述大模型输出处理结果；将所述文本标签作为作为真值，通过预设的损失函数，对所述输出的语音处理结果计算损失；基于所述损失进行反向传播以对所述语音处理模型的参数进行更新，完成当前轮迭代训练。利用训练好的语音处理模型能够在不改变大模型词表的情况下，高效处理语音数据。技术研发人员：吴伯庸,晏超,刘盛中受保护的技术使用者：上海云从企业发展有限公司技术研发日：技术公布日：2024/10/17