技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种意图识别模型的联合训练方法和系统与流程 > 正文

一种意图识别模型的联合训练方法和系统与流程

国知局
2024-06-21 11:54:09

本发明涉及语音识别、语义识别，特别涉及意图识别模型的联合训练方法和系统。

背景技术：

1、各语音识别的各模块独立，语音识别、文本纠错、意图理解和实体识别，各子模型之间缺乏有效的信息交流和协作，易导致错误传递，系统的整体识别准确性差。不同的子模型需要单独训练模型，训练时间长。不同子模型多采取pipeline的方式处理，系统耗时长。

技术实现思路

1、本发明的目的是提供一种涉及意图识别模型的联合训练方法，通过“端到端”多任务学习。采用macbert作为基座模型，将文本纠错、意图理解和实体提取三个任务统一在一个模型中进行联合学习。

2、这种“端到端”的设计使得模型能够全面理解意图、实体和文本之间的关系，纠正语音转文本的错误，并同时进行意图理解和实体提取，实现更准确的意图理解解决了现有技术中存在的语音转文本错误、意图理解准确性低和系统复杂性高等问题。从而相比于现有技术，本发明具有高效节省、准确性、鲁棒性增强和交互耗时缩短等显著优势。

3、为解决上述问题，本发明的第一方面，提供了一种意图识别模型的联合训练方法，意图识别模型的框架包括在预训练模型的输出侧配置文本纠错层和意图识别层。文本纠错层的输入来自预训练模型的输出。意图识别层的输入来自纠错层的输出和预训练模型的输出。

4、意图识别模型的联合训练方法包括：

5、通过语音识别得到的命令文本训练预训练模型，以使预训练模型能够输出与语音识别文本对应的词向量。

6、文本纠错层训练词向量，根据词向量能够识别和修改语音识别文本中的文本错误，以输出纠错后文本。意图识别层训练词向量和纠错后文本的特征向量，以输出纠错后文本的意图文本。意图识别模型根据意图文本输出意图信息。意图信息能够用于生成设备控制信息。

7、本发明的第二方面，提供了一种意图识别模型的联合训练系统，其包括：

8、预训练模块，其配置为通过语音识别得到的命令文本训练预训练模型，以使预训练模型能够输出与语音识别文本对应的词向量。

9、文本纠错模块，其配置在预训练模块的输出侧且从预训练模块接收向量词。文本纠错模块训练词向量，根据词向量能够识别和修改语音识别文本中的文本错误，以输出纠错后文本。

10、意图识别模块，其配置在预训练模块的输出侧且从预训练模块接收向量词。从文本纠错模块接收纠错后文本的特征向量，意图识别模块训练词向量和纠错后文本的特征向量，以输出纠错后文本的意图文本。

11、通过预训练模块、文本纠错模块和意图识别模块训练后的模型得到意图识别模型。意图识别模型根据意图文本输出意图信息。意图信息能够用于生成设备控制信息。

12、本发明的第三方面，提供了一种利用意图识别模型控制外部设备的方法，其中，意图识别模型是根据意图识别模型的联合训练方法的任意一项的方法所训练获得的，包括：获取命令语音。语音识别命令语音获得命令文本。基于意图识别模型识别命令文本，得到意图信息。

13、本发明的第四方面，提供了一种电子设备，包括，处理器和存储器。存储有智能体控制网络模型的计算机指令和/或利用智能体控制网络模型处理智能体的状态数据的计算机指令，当计算机指令由处理器运行时，使得电子设备执行根据本发明中的意图识别模型的联合训练方法和/或根据利用意图识别模型控制外部设备的方法。

14、本发明的第五方面，提供了一种计算机可读存储介质，包含有智能体控制网络模型的程序指令和/或利用智能体控制网络模型处理智能体的状态数据的程序指令，当程序指令由处理器执行时，使得实现根据本发明中的意图识别模型的联合训练方法和/或根据利用意图识别模型控制外部设备的方法。

15、本发明的上述技术方案具有如下有益的技术效果：通过使用单一模型进行多任务学习，减少了训练时间、数据标注、资源消耗，简化了系统结构，降低了开发和维护成本。

16、本发明通过“端到端”的多任务联合训练使得各任务之间相互促进，更全面地理解文本、意图和实体间的关联信息，弥补了各自的不足，提高了整个系统的鲁棒性和性能。整合了多个任务于一个模型中，提高了模型的推理速度，适用于实时的语音交互场景，为用户提供更快速的响应和交互体验。

技术特征：

1.一种意图识别模型的联合训练方法，其特征在于，所述意图识别模型的框架包括在预训练模型的输出侧配置文本纠错层和意图识别层；所述文本纠错层的输入来自所述预训练模型的输出；所述意图识别层的输入来自所述纠错层的输出和所述预训练模型的输出；

2.根据权利要求1所述意图识别模型的联合训练方法，其特征在于，在预训练模型的输出侧还配置实体识别层；所述实体识别层的输入来自所述预训练模型和文本纠错层的输出；

3.根据权利要求2所述意图识别模型的联合训练方法，其特征在于，所述预训练模型包括bert模型或macbert模型；所述预训练模型的输出侧为bert模型或macbert模型中输出层的设置侧；

4.根据权利要求1所述意图识别模型的联合训练方法，其特征在于，所述文本纠错层包括文本错误检测层和文本错误纠错层；

5.根据权利要求4所述意图识别模型的联合训练方法，其特征在于，所述文本错误检测层和文本错误纠错层的网络结构为全连接网络；通过梯度下降法训练所述文本错误检测层和文本错误纠错层。

6.根据权利要求1所述意图识别模型的联合训练方法，其特征在于，所述意图识别模型的框架包括在预训练模型的输入侧配置语音识别层；

7.根据权利要求6所述意图识别模型的联合训练方法，其特征在于，所述语音采集设备为麦克风或摄像头；所述语音识别层为asr自动语音识别模型。

8.一种意图识别模型的联合训练系统，其特征在于，其包括：

9.根据权利要求8所述意图识别模型的联合训练系统，其特征在于，还包括：

10.根据权利要求9所述意图识别模型的联合训练系统，其特征在于，所述预训练模型包括bert模型或macbert模型；所述预训练模型的输出侧为bert模型或macbert模型中输出层的设置侧；

11.根据权利要求8所述意图识别模型的联合训练系统，其特征在于，所述文本纠错模块包括文本错误检测层和文本错误纠错层；

12.根据权利要求11所述意图识别模型的联合训练系统，其特征在于，所述文本错误检测层和文本错误纠错层的网络结构为全连接网络；通过梯度下降法训练所述文本错误检测层和文本错误纠错层。

13.根据权利要求8所述意图识别模型的联合训练系统，其特征在于，还包括：

14.根据权利要求13所述意图识别模型的联合训练系统，其特征在于，所述语音采集设备为麦克风或摄像头；所述语音识别模块的训练模型为asr自动语音识别模型。

15.一种利用意图识别模型控制外部设备的方法，其中，所述意图识别模型是根据权利要求1至7的任意一项所述的方法所训练获得的，其特征在于，包括：

16.一种利用意图识别模型驱动外部设备的方法，其中，所述意图识别模型是根据权利要求1至7的任意一项所述的方法所训练获得的，其特征在于，包括：

17.一种电子设备，其特征在于，包括：

18.一种计算机可读存储介质，其特征在于，包含有智能体控制网络模型的程序指令和/或利用智能体控制网络模型处理智能体的状态数据的程序指令，当所述程序指令由处理器执行时，使得实现根据权利要求1-7的任意一项所述的方法和/或根据权利要求15或16所述的方法。

技术总结本发明公开了意图识别模型的联合训练方法，其包括通过语音识别得到的命令文本训练预训练模型，获得词向量。文本纠错层训练根据词向量能够识别和修改语音识别文本中的文本错误。意图识别层输出意图文本。进而使意图识别模型根据意图文本输出意图信息。本发明通过对预训练模型输出词向量的共同训练，能够全面理解意图、实体和文本之间的关系，纠正语音转文本的错误，并同时进行意图理解和实体提取，实现更准确的意图理解，解决了现有技术中存在的语音转文本错误、意图理解准确性低和系统复杂性高等问题。从而高效节省、准确性、鲁棒性增强和交互耗时缩短等显著优势。技术研发人员：汪贤龙,陶品,史元春,兴军亮受保护的技术使用者：启元实验室技术研发日：技术公布日：2024/5/29