基于API信息的语音识别方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 11:36:52
本发明涉及语音识别,尤其涉及一种基于api信息的语音识别方法、装置、设备及存储介质。
背景技术:
1、当前的llm(language model,大语言模型)在自然语言处理任务方面展现出令人印象深刻的能力。在自然语言理解,自然语言生成,上下文理解,文本摘要,文本翻译,对话系统等多种任务上都达到了可媲美人类能力的程度。可以使用llm出色的语言理解、语言生成、上下文理解的能力直接生成当前指令所对应的api(application programminginterface,应用程序编程接口)标签和af(argument filling)标签,将端到端语音识别系统的三个模块(槽位识别、action prediction以及argument filling)取消,不再需要三个独立的模块来实现,大大减轻了开发的人员和时间消耗,同时简化了端到端系统的训练和维护成本,所有标签都通过llm直接输出。
2、但是由于端到端系统不再需要区分垂域,因此api的数量大大增加。而传统的端到端系统由于使用的还是较小的模型(如bert,参数在1亿左右),可以采用比较多的训练数据来进行模型的训练,因此,即使api数量较多,仍然可以使模型有一个较高的api识别准确率。但llm由于模型过大(参数从30亿到上万亿不等),无法采用较多的训练数据来训练(会导致训练时间过长),因此对于每个api的数据大概会限制到几百条到几千条,相对于之前几十万的训练数据,用于llm的训练数据急剧降低,可能会出现api识别准确率下降的问题,由于每个api的训练数据较少,而api数量又比较多,也可能会出现llm推理的时候创造一个新的api,从而产生识别错误的问题。
3、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种基于api信息的语音识别方法、装置、设备及存储介质,旨在解决现有技术中端到端语音识别系统中用于训练llm的api数据较少,影响识别准确率的技术问题。
2、为实现上述目的,本发明提供了一种基于api信息的语音识别方法,所述方法包括以下步骤:
3、基于用户指令数据,构建训练数据;
4、基于所述训练数据,训练大语言模型,得到初始语音识别模型;
5、基于api定义信息集合,构建提示语,所述api定义信息集合包括多个api定义信息;
6、基于所述提示语,对所述初始语音识别模型进行微调,得到语音识别模型;
7、基于所述语音识别模型,对目标用户指令进行识别,输出识别结果。
8、可选地,所述基于api定义信息集合,构建提示语,包括:
9、在所述api定义信息集合中进行随机抽样,将抽取出来的api定义信息作为所述训练数据对应的目标api定义信息;
10、根据基础提示语与所述训练数据对应的目标api定义信息,生成所述训练数据对应的提示语,所述基础提示语至少包括背景信息、任务介绍信息、输出格式定义信息以及指令输入位置。
11、可选地,所述在所述api定义信息集合中进行随机抽样,将抽取出来的api定义信息作为所述训练数据对应的目标api定义信息,包括:
12、根据所述api定义信息的长度与提示语输入长度,确定抽取数量;
13、基于所述抽取数量,在所述api定义信息集合中抽取相应的api定义信息,得到所述训练数据对应的目标api定义信息。
14、可选地,所述基于用户指令数据,构建训练数据,包括:
15、根据所述用户指令数据,确定所述用户指令数据对应的标签数据,所述标签数据包括api标签数据与参数标签数据;
16、根据预设格式对所述api标签数据与所述参数标签数据进行转换,得到训练目标数据;
17、根据所述用户指令数据,确定训练输入数据;
18、根据所述训练输入数据与所述训练目标数据,确定所述训练数据。
19、可选地,所述基于所述语音识别模型,对目标用户指令进行识别,输出识别结果,包括:
20、获取目标提示语与目标用户指令;
21、将所述目标提示语与所述目标用户指令输入所述语音识别模型,得到所述识别结果,并将所述识别结果按照预设格式输出。
22、可选地,所述基于所述语音识别模型,对目标用户指令进行识别,输出识别结果之后,还包括:
23、对所述识别结果进行解析,确定动作字段与参数字段;
24、根据所述动作字段,确定所述目标用户指令的目标api标签,并根据所述目标api标签,确定目标api;
25、根据所述参数字段,确定所述目标用户指令的目标参数标签,并根据所述目标参数标签,确定所述目标api的参数类型与参数值;
26、基于所述目标api的参数类型与参数值,调用所述目标api,以完成所述目标用户指令。
27、可选地,所述api定义信息至少包括api名称、api名称结构信息、api名称含义以及api举例信息。
28、此外,为实现上述目的,本发明还提出一种基于api信息的语音识别装置,所述基于api信息的语音识别装置包括:
29、模型构建模块,用于场景拆分模块,用于基于用户指令数据,构建训练数据;
30、所述模型构建模块,还用于基于所述训练数据,训练大语言模型,得到初始语音识别模型;
31、提示语构建模块,用于基于api定义信息集合,构建提示语,所述api定义信息集合包括多个api定义信息;
32、api嵌入模块,用于基于所述提示语,对所述初始语音识别模型进行微调,得到语音识别模型;
33、指令识别模块,用于基于所述语音识别模型,对目标用户指令进行识别,输出识别结果。
34、此外,为实现上述目的,本发明还提出一种基于api信息的语音识别设备,所述基于api信息的语音识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于api信息的语音识别程序,所述基于api信息的语音识别程序配置为实现如上文所述的基于api信息的语音识别方法的步骤。
35、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于api信息的语音识别程序,所述基于api信息的语音识别程序被处理器执行时实现如上文所述的基于api信息的语音识别方法的步骤。
36、在本发明中,基于用户指令数据,构建训练数据,基于训练数据,训练大语言模型,得到初始语音识别模型,基于api定义信息集合,构建提示语,api定义信息集合包括多个api定义信息,基于提示语,对初始语音识别模型进行微调,得到语音识别模型,基于语音识别模型,对目标用户指令进行识别,输出识别结果。由于端到端语音识别系统中用于训练llm的api数据较少,影响识别准确率,本发明在模型训练和推理使用的提示语中加入了对api的描述,使得模型能够额外学习将用户指令判别为特定api的标准,通过嵌入api信息,模型对于api的识别准确率获得了显著提升,并且大大减少了模型创造新api的现象。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22424.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。