技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于API信息的语音识别方法、装置、设备及存储介质与流程 > 正文

基于API信息的语音识别方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:36:52

本发明涉及语音识别，尤其涉及一种基于api信息的语音识别方法、装置、设备及存储介质。

背景技术：

1、当前的llm(language model，大语言模型)在自然语言处理任务方面展现出令人印象深刻的能力。在自然语言理解，自然语言生成，上下文理解，文本摘要，文本翻译，对话系统等多种任务上都达到了可媲美人类能力的程度。可以使用llm出色的语言理解、语言生成、上下文理解的能力直接生成当前指令所对应的api(application programminginterface，应用程序编程接口)标签和af(argument filling)标签，将端到端语音识别系统的三个模块(槽位识别、action prediction以及argument filling)取消，不再需要三个独立的模块来实现，大大减轻了开发的人员和时间消耗，同时简化了端到端系统的训练和维护成本，所有标签都通过llm直接输出。

2、但是由于端到端系统不再需要区分垂域，因此api的数量大大增加。而传统的端到端系统由于使用的还是较小的模型(如bert，参数在1亿左右)，可以采用比较多的训练数据来进行模型的训练，因此，即使api数量较多，仍然可以使模型有一个较高的api识别准确率。但llm由于模型过大(参数从30亿到上万亿不等)，无法采用较多的训练数据来训练(会导致训练时间过长)，因此对于每个api的数据大概会限制到几百条到几千条，相对于之前几十万的训练数据，用于llm的训练数据急剧降低，可能会出现api识别准确率下降的问题，由于每个api的训练数据较少，而api数量又比较多，也可能会出现llm推理的时候创造一个新的api，从而产生识别错误的问题。

3、上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本发明的主要目的在于提供一种基于api信息的语音识别方法、装置、设备及存储介质，旨在解决现有技术中端到端语音识别系统中用于训练llm的api数据较少，影响识别准确率的技术问题。

2、为实现上述目的，本发明提供了一种基于api信息的语音识别方法，所述方法包括以下步骤：

3、基于用户指令数据，构建训练数据；

4、基于所述训练数据，训练大语言模型，得到初始语音识别模型；

5、基于api定义信息集合，构建提示语，所述api定义信息集合包括多个api定义信息；

6、基于所述提示语，对所述初始语音识别模型进行微调，得到语音识别模型；

7、基于所述语音识别模型，对目标用户指令进行识别，输出识别结果。

8、可选地，所述基于api定义信息集合，构建提示语，包括：

9、在所述api定义信息集合中进行随机抽样，将抽取出来的api定义信息作为所述训练数据对应的目标api定义信息；

10、根据基础提示语与所述训练数据对应的目标api定义信息，生成所述训练数据对应的提示语，所述基础提示语至少包括背景信息、任务介绍信息、输出格式定义信息以及指令输入位置。

11、可选地，所述在所述api定义信息集合中进行随机抽样，将抽取出来的api定义信息作为所述训练数据对应的目标api定义信息，包括：

12、根据所述api定义信息的长度与提示语输入长度，确定抽取数量；

13、基于所述抽取数量，在所述api定义信息集合中抽取相应的api定义信息，得到所述训练数据对应的目标api定义信息。

14、可选地，所述基于用户指令数据，构建训练数据，包括：

15、根据所述用户指令数据，确定所述用户指令数据对应的标签数据，所述标签数据包括api标签数据与参数标签数据；

16、根据预设格式对所述api标签数据与所述参数标签数据进行转换，得到训练目标数据；

17、根据所述用户指令数据，确定训练输入数据；

18、根据所述训练输入数据与所述训练目标数据，确定所述训练数据。

19、可选地，所述基于所述语音识别模型，对目标用户指令进行识别，输出识别结果，包括：

20、获取目标提示语与目标用户指令；

21、将所述目标提示语与所述目标用户指令输入所述语音识别模型，得到所述识别结果，并将所述识别结果按照预设格式输出。

22、可选地，所述基于所述语音识别模型，对目标用户指令进行识别，输出识别结果之后，还包括：

23、对所述识别结果进行解析，确定动作字段与参数字段；

24、根据所述动作字段，确定所述目标用户指令的目标api标签，并根据所述目标api标签，确定目标api；

25、根据所述参数字段，确定所述目标用户指令的目标参数标签，并根据所述目标参数标签，确定所述目标api的参数类型与参数值；

26、基于所述目标api的参数类型与参数值，调用所述目标api，以完成所述目标用户指令。

27、可选地，所述api定义信息至少包括api名称、api名称结构信息、api名称含义以及api举例信息。

28、此外，为实现上述目的，本发明还提出一种基于api信息的语音识别装置，所述基于api信息的语音识别装置包括：

29、模型构建模块，用于场景拆分模块，用于基于用户指令数据，构建训练数据；

30、所述模型构建模块，还用于基于所述训练数据，训练大语言模型，得到初始语音识别模型；

31、提示语构建模块，用于基于api定义信息集合，构建提示语，所述api定义信息集合包括多个api定义信息；

32、api嵌入模块，用于基于所述提示语，对所述初始语音识别模型进行微调，得到语音识别模型；

33、指令识别模块，用于基于所述语音识别模型，对目标用户指令进行识别，输出识别结果。

34、此外，为实现上述目的，本发明还提出一种基于api信息的语音识别设备，所述基于api信息的语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于api信息的语音识别程序，所述基于api信息的语音识别程序配置为实现如上文所述的基于api信息的语音识别方法的步骤。

35、此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于api信息的语音识别程序，所述基于api信息的语音识别程序被处理器执行时实现如上文所述的基于api信息的语音识别方法的步骤。

36、在本发明中，基于用户指令数据，构建训练数据，基于训练数据，训练大语言模型，得到初始语音识别模型，基于api定义信息集合，构建提示语，api定义信息集合包括多个api定义信息，基于提示语，对初始语音识别模型进行微调，得到语音识别模型，基于语音识别模型，对目标用户指令进行识别，输出识别结果。由于端到端语音识别系统中用于训练llm的api数据较少，影响识别准确率，本发明在模型训练和推理使用的提示语中加入了对api的描述，使得模型能够额外学习将用户指令判别为特定api的标准，通过嵌入api信息，模型对于api的识别准确率获得了显著提升，并且大大减少了模型创造新api的现象。