技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于大模型的分类任务处理方法、装置及相关设备与流程 > 正文

基于大模型的分类任务处理方法、装置及相关设备与流程

国知局
2024-10-21 14:42:21

本技术涉及自然语言处理，更具体的说，是涉及一种基于大模型的分类任务处理方法、装置、相关设备及计算机程序产品。

背景技术：

1、在自然语言处理领域，分类任务属于一种比较常见的任务，其任务目标是给定一部分输入信息，预测对应的分类结果。分类任务包括但不限于：意图提槽（即确定意图类别并提取槽位信息）、情感分类等。

2、随着人工智能大模型的快速发展以及生成式大模型天然具备的实时性、交互性、语义理解能力强等特点，越来越多的用户开始利用大模型的能力来处理分类任务，以意图提槽任务为例，可以将人机对话数据送入大模型，利用大模型生成用户的意图类别并从输入中提取关键槽位信息，如用户提及的实体、时间、地点等，为后续的对话处理和执行提供基础数据。

3、但是，大模型作为一种生成式模型，在未经有监督微调sft时，模型的指令遵循能力较差，在输出时会出现格式错误、内容冗余、结果不全、编造答案等问题，使得在利用大模型处理分类任务时，容易出现输出的分类结果与预定义的分类标签不匹配。此外，有监督微调sft虽然可以缓解上述问题，但是由于“大模型幻觉”现象的存在，实测场景下发现仍然无法完全规避此类问题，导致大模型在处理分类任务时输出的分类结果质量不高。

技术实现思路

1、鉴于上述问题，提出了本技术以便提供一种基于大模型的分类任务处理方法、装置、相关设备及计算机程序产品，以提高基于大模型执行分类任务时输出分类结果的质量。具体方案如下：

2、第一方面，提供了一种基于大模型的分类任务处理方法，包括：

3、获取与目标分类任务相关的待处理数据；

4、获取配置的分类标签前缀树，所述分类标签前缀树基于目标分类任务的候选分类标签集合转换得到，分类标签前缀树中的根节点为设定解码起始符，每一节点对应一个字符token，从根节点至每一叶子节点的路径上的token序列对应所述集合中的一条候选分类标签；

5、调用配置的大模型基于所述待处理数据逐个token解码输出所述目标分类任务的分类结果，其中，在解码第i个token时，计算词表空间中各token的概率分布，并利用所述分类标签前缀树对所述概率分布进行剪枝，基于剪枝后的概率分布确定所要输出的第i个token。

6、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，利用所述分类标签前缀树对所述概率分布进行剪枝的过程，包括：

7、将所述概率分布中除第一token集合以外的token的概率值置为预设无穷小值，所述第一token集合为所述分类标签前缀树中由已解码输出的前i-1个token组成的token串所在的子树中，第i层节点构成的token集合。

8、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，若一条候选分类标签的末尾包含长度不固定的目标文本内容，则采用第一设定符号代替所述目标文本内容的token；

9、对应的，在利用所述分类标签前缀树对所述概率分布进行剪枝之前，还包括：

10、判断所述第一token集合中是否包含所述第一设定符号；

11、若否，执行利用所述分类标签前缀树对所述概率分布进行剪枝的步骤；

12、若是，对于第i个及之后的各待解码的token，停止采用所述分类标签前缀树对概率分布进行剪枝的操作。

13、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，还包括：

14、在解码输出第i个token之后，判断所述分类标签前缀树中由已解码输出的前i个token组成的token串所在的子树中，第i+1层是否仅有一个分支节点，若是，停止解码过程，确定所述第i+1层仅有的一个分支节点所在的从根节点至叶子节点的目标路径，将所述目标路径对应的候选分类标签作为所述目标分类任务的分类结果。

15、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，当所述目标分类任务为单标签分类任务类型时，则获取的所述分类标签前缀树具体为单分类标签前缀树；

16、当所述目标分类任务为多标签分类任务类型时，则获取的所述分类标签前缀树具体为多分类标签前缀树；

17、相比于所述单分类标签前缀树，所述多分类标签前缀树在所述单分类标签前缀树中每一叶子节点处添加两个分支，其中一个分支包含设定解码终止符，另一个分支为剪除从根节点至当前叶子节点的路径分支后的单分类标签前缀树。

18、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，所述单分类标签前缀树的构建过程，包括：

19、获取所述目标分类任务的候选分类标签集合；

20、遍历所述候选分类标签集合中每个候选分类标签，逐个将所述候选分类标签插入到单分类标签前缀树中，其中所述单分类标签前缀树的根节点为设定解码起始符；

21、对于每个所述候选分类标签，从所述根节点开始，遍历所述候选分类标签中的每个token，并在所述单分类标签前缀树中构建相应的节点路径，其中每个节点对应一个token。

22、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，所述分类标签前缀树的各叶子节点均为设定解码终止符；

23、所述大模型解码的结束条件包括：解码得到所述解码终止符，或解码输出的token序列长度达到设定长度阈值。

24、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，所述目标分类任务包括：意图分类及槽位提取任务，对应的，候选分类标签为每一候选意图及其槽位值组成的标签。

25、第二方面，提供了一种基于大模型的分类任务处理装置，包括：

26、数据获取单元，用于获取与目标分类任务相关的待处理数据；

27、前缀树获取单元，用于获取配置的分类标签前缀树，所述分类标签前缀树基于目标分类任务的候选分类标签集合转换得到，分类标签前缀树中的根节点为设定解码起始符，每一节点对应一个字符token，从根节点至每一叶子节点的路径上的token序列对应所述集合中的一条候选分类标签；

28、解码单元，用于调用配置的大模型基于所述待处理数据逐个token解码输出所述目标分类任务的分类结果，其中，在解码第i个token时，计算词表空间中各token的概率分布，并利用所述分类标签前缀树对所述概率分布进行剪枝，基于剪枝后的概率分布确定所要输出的第i个token。

29、第三方面，提供了一种电子设备，包括：存储器和处理器；

30、所述存储器，用于存储程序；

31、所述处理器，用于执行所述程序，实现本技术前述第一方面中任一项所描述的基于大模型的分类任务处理方法的各个步骤。

32、第四方面，提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现本技术前述第一方面中任一项所描述的基于大模型的分类任务处理方法的各个步骤。

33、第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现本技术前述第一方面中任一项所描述的基于大模型的分类任务处理方法的各个步骤。

34、借由上述技术方案，本技术结合所要处理的目标分类任务的候选分类标签集合，配置了对应的分类标签前缀树，在调用大模型解码目标分类任务的分类结果的过程中，解码第i个token时，计算词表空间中各token的概率分布，并利用分类标签前缀树对概率分布进行剪枝，限制大模型每一次解码输出token时的词表空间，使得大模型最终的解码结果限制在分类标签前缀树所包含的各候选分类标签中，避免大模型输出的结果存在格式错误、内容冗余、与候选分类标签不匹配等问题，提升了大模型在处理分类任务时输出结果的质量。