一种针对大语音模型的指令感知训练方法及装置
- 国知局
- 2024-06-21 11:52:17
本发明涉及自然语言处理,特别是指一种针对大语音模型的指令感知训练方法及装置。
背景技术:
1、大语言模型(large language models,llms)在众多自然语言处理任务中取得了可与人类相媲美的杰出表现。 为了进一步增强llms对多模态数据的理解,将llms与多模态编码器整合成为目前研究的趋势。这种方法涉及到使用多模态指令数据集对llms进行微调,将数据组织成包含指令、多模态输入和目标响应的结构化格式。该训练方法为开发多模态大型模型奠定了基础,例如大语音模型(large speech models,lsms)。
2、大语音模型,也称为speech llm(大型语言模型),是一种基于大语言模型构建的大型深度学习模型,主要用于处理复杂的语音相关任务。大语音模型能够深度理解人类语言,精准捕捉并学习数千种音色特征,并自由组合,生成无限声音变体、情感与风格。它们在语音识别、语音合成、语音编辑和跨风格转换等任务中表现出色。
3、在技术实现方面,大语音模型采用了多种深度学习技术,如卷积神经网络、循环神经网络或transformer等。例如,conformer模型的结构包括输入层、卷积层、自注意力层、前馈层以及输出层,通过这些层次依次处理音频特征序列,其中卷积层用于提取本地特征,自注意力机制帮助模型捕捉长距离依赖关系。此外,深度学习模型一般具有更多层的非线性变换,这使得它们在表达和建模能力上更加强大,尤其适合于复杂信号的处理。一些大语音模型还采用了生成式的方法来处理语音数据的相关任务,如metaai发布的voicebox模型,它可以像gpt那样用生成式的方式处理语音数据。此外,谷歌的usm模型包含了一系列最先进的语音模型,带有20亿参数,经过1200万小时的语音和280亿个文本句子的训练,能够支持100+语。
4、然而,在现有研究中发现,使用普通语音指令数据训练时,lsms模型无法获得跟随指令的能力。继chatgpt的研究取得进展之后,audiogpt使大型语音模型能够通过级联的方式来处理语音。其中,基于端到端模型的研究主要包括,通过语音编码器与大模型之间的连接模块来对齐语音与文本嵌入,或者将低秩自适应模型(low-rank adaptation of largelanguage models,lora)集成进llms中增强语音处理能力。但直接用语音及其转录文本进行训练大语音模型,可能会导致模型在特定语音任务上过度拟合,以及指令跟随能力的下降。
5、在现有技术中,缺乏一种面向大语音模型的有效缓解指令跟随能力缺陷的大语音模型训练方法。
技术实现思路
1、为了解决现有技术存在的大语音模型在训练过程中无法获得跟随指令的能力的技术问题,本发明实施例提供了一种针对大语音模型的指令感知训练方法及装置。所述技术方案如下:
2、一方面,提供了一种针对大语音模型的指令感知训练方法,该方法由指令感知训练设备实现,该方法包括:
3、使用麦克风采集音频,获取目标原始数据以及指令音频;根据所述目标原始数据,获得目标文本数据以及目标音频数据;根据所述指令音频,获得第一指令文本;
4、根据所述目标文本数据以及所述第一指令文本,通过文本大模型进行数据生成,获得指令感知文本数据;
5、对所述第一指令文本进行差异化处理,获得第二指令文本;
6、根据所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对大语音模型进行优化训练,获得优化大语音模型。
7、其中,所述第一指令文本的指令类别包括中英翻译指令、内容复述指令、关键词抽取指令、意图识别指令、情感分析指令和文本续写指令。
8、可选地,所述对所述第一指令文本进行差异化处理,获得第二指令文本,包括:
9、根据所述第一指令文本的内容,确定描述指令处理对象为文本的内容的所在位置;
10、根据所述描述指令处理对象为文本的内容的所在位置,将描述指令处理对象为文本的内容替换为描述指令处理对象为对话的内容,获得第二指令文本;所述第二指令文本的指令类别为所述第一指令文本的指令类别。
11、可选地,所述根据所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对大语音模型进行优化训练,获得优化大语音模型,包括:
12、根据所述指令感知文本数据、所述目标音频数据和预设的翻译指令文本,对大语音模型进行translation it阶段训练,获得初步优化大语音模型;
13、根据所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对所述初步优化大语音模型进行diversity it阶段训练,获得优化大语音模型。
14、可选地,所述根据所述指令感知文本数据、所述目标音频数据和预设的翻译指令文本,对大语音模型进行translation it阶段训练,获得初步优化大语音模型,包括:
15、将大语音模型的语音编码器部分以及大语言模型部分的参数冻结,使用所述指令感知文本数据、所述目标音频数据和预设的翻译指令文本,对大语音模型的q-former连接模块部分进行参数训练,获得初步优化大语音模型;
16、所述translation it阶段训练的目标函数如下式(1)所示:
17、(1)
18、其中,表示拉普拉斯变换;表示translation it阶段进行参数更新后的q-former连接模块;为概率分布函数;为指令感知文本数据;为目标音频数据;为预设的翻译指令文本;为被参数冻结的语音编码器;为translation it阶段训练前未进行参数更新的q-former;为被参数冻结的大语言模型。
19、可选地,所述根据所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对所述初步优化大语音模型进行diversity it阶段训练,获得优化大语音模型,包括:
20、将大语音模型的语音编码器部分的参数冻结,使用所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对大语音模型的大语音模型部分以及q-former连接模块部分进行参数训练,获得优化大语音模型;
21、所述diversity it阶段训练的目标函数如下式(2)所示:
22、(2)
23、其中,表示diversity it阶段的q-former连接模块;表示diversity it阶段的大语言模型;为第二指令文本;为diversity it阶段训练前未进行参数更新的q-former;为diversity it阶段训练前未进行参数更新的大语言模型。
24、另一方面,提供了一种针对大语音模型的指令感知训练装置,该装置应用于针对大语音模型的指令感知训练方法,该装置包括:
25、训练数据获取模块,用于使用麦克风采集音频,获取目标原始数据以及指令音频;根据所述目标原始数据,获得目标文本数据以及目标音频数据;根据所述指令音频,获得第一指令文本;
26、指令感知文本生成模块,用于根据所述目标文本数据以及所述第一指令文本,通过文本大模型进行数据生成,获得指令感知文本数据;
27、指令文本处理模块,用于对所述第一指令文本进行差异化处理,获得第二指令文本;
28、大语音模型优化模块,用于根据所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对大语音模型进行优化训练,获得优化大语音模型。
29、其中,所述第一指令文本的指令类别包括中英翻译指令、内容复述指令、关键词抽取指令、意图识别指令、情感分析指令和文本续写指令。
30、可选地,所述指令文本处理模块,进一步用于:
31、根据所述第一指令文本的内容,确定描述指令处理对象为文本的内容的所在位置;
32、根据所述描述指令处理对象为文本的内容的所在位置,将描述指令处理对象为文本的内容替换为描述指令处理对象为对话的内容,获得第二指令文本;所述第二指令文本的指令类别为所述第一指令文本的指令类别。
33、可选地,所述大语音模型优化模块,进一步用于:
34、根据所述指令感知文本数据、所述目标音频数据和预设的翻译指令文本,对大语音模型进行translation it阶段训练,获得初步优化大语音模型;
35、根据所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对所述初步优化大语音模型进行diversity it阶段训练,获得优化大语音模型。
36、可选地,所述大语音模型优化模块,进一步用于:
37、将大语音模型的语音编码器部分以及大语言模型部分的参数冻结,使用所述指令感知文本数据、所述目标音频数据和预设的翻译指令文本,对大语音模型的q-former连接模块部分进行参数训练,获得初步优化大语音模型;
38、所述translation it阶段训练的目标函数如下式(1)所示:
39、(1)
40、其中,表示拉普拉斯变换;表示translation it阶段进行参数更新后的q-former连接模块;为概率分布函数;为指令感知文本数据;为目标音频数据;为预设的翻译指令文本;为被参数冻结的语音编码器;为translation it阶段训练前未进行参数更新的q-former;为被参数冻结的大语言模型。
41、可选地,所述大语言模型优化模块,进一步用于:
42、将大语音模型的语音编码器部分的参数冻结,使用所述指令感知文本数据、所述目标音频数据和所述第二指令文本,对大语音模型的大语音模型部分以及q-former连接模块部分进行参数训练,获得优化大语音模型;
43、所述diversity it阶段训练的目标函数如下式(2)所示:
44、(2)
45、其中,表示diversity it阶段的q-former连接模块;表示diversity it阶段的大语言模型;为第二指令文本;为diversity it阶段训练前未进行参数更新的q-former;为diversity it阶段训练前未进行参数更新的大语言模型。
46、另一方面,提供一种指令感知训练设备,所述指令感知训练设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述针对大语音模型的指令感知训练方法中的任一项方法。
47、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述针对大语音模型的指令感知训练方法中的任一项方法。
48、本发明实施例提供的技术方案带来的有益效果至少包括:
49、本发明提出一种针对大语音模型的指令感知训练方法,通过提出的指令感知微调方法,可以有效缓解语音锚点偏置现象,并激活大语音模型的遵循指令能力。该方法采用大语音模型生成的数据替换原始语音指令数据,并通过双阶段训练方法增强大语音模型的遵循指令能力。基于指令感知微调进行语音识别、语音翻译和语音语言理解等任务实验;结果显示,本发明记述方法能够提高模型对指令的关注度。本发明是一种面向大语音模型的有效缓解指令跟随能力缺陷的大语音模型训练方法。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24134.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表