技术新讯 > 计算推算,计数设备的制造及其应用技术 > 大语言模型的文本分类性能的评测方法、装置与流程 > 正文

大语言模型的文本分类性能的评测方法、装置与流程

国知局
2024-09-05 14:20:56

本公开涉及互联网，尤其涉及大语言模型、自然语言处理、深度学习等人工智能。提供了一种大语言模型的文本分类性能的评测方法、装置、电子设备与可读存储介质。

背景技术：

1、大语言模型(large language model，llm)，是一种生成式模型，大语言模型能够基于输入的数据生成相应的回复内容，可以处理包含文本分类在内的多种自然语言任务。

2、对于大语言模型而言，如何评测模型在文本分类时的性能，是一个基础问题。现有技术通常仅通过设置文本分类任务来让大语言模型进行执行的方式进行评测，但是该种方式属于粗粒度评测，评测所得到的文本分类性能的准确性较低。

技术实现思路

1、根据本公开的第一方面，提供了一种大语言模型的文本分类性能的评测方法，包括：获取对应源评测任务的评测数据集、以及对应至少一个子评测任务的评测数据集，所述源评测任务为文本分类任务，所述子评测任务包含实体识别任务与摘要生成任务，不同的评测数据集中包含评测文本以及评测文本对应不同评测任务类型的标注答案；根据评测文本以及评测文本所对应的评测任务类型得到评测输入数据，将所述评测输入数据输入待评测大语言模型，将所述待评测大语言模型的输出结果作为评测文本对应不同评测任务类型的预测答案；根据评测文本对应相同评测任务类型的标注答案与预测答案，得到对应所述源评测任务的源评测结果、以及对应所述至少一个子评测任务的至少一个子评测结果；根据所述源评测结果与所述至少一个子评测结果，得到所述待评测大语言模型的文本分类性能。

2、根据本公开的第二方法，提供了一种大语言模型的文本分类性能的评测装置，包括：获取单元，用于获取对应源评测任务的评测数据集、以及对应至少一个子评测任务的评测数据集，所述源评测任务为文本分类任务，所述子评测任务包含实体识别任务与摘要生成任务，不同的评测数据集中包含评测文本以及评测文本对应不同评测任务类型的标注答案；预测单元，用于根据评测文本以及评测文本所对应的评测任务类型得到评测输入数据，将所述评测输入数据输入待评测大语言模型，将所述待评测大语言模型的输出结果作为评测文本对应不同评测任务类型的预测答案；处理单元，用于根据评测文本对应相同评测任务类型的标注答案与预测答案，得到对应所述源评测任务的源评测结果、以及对应所述至少一个子评测任务的至少一个子评测结果；评测单元，用于根据所述源评测结果与所述至少一个子评测结果，得到所述待评测大语言模型的文本分类性能。

3、根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

4、根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

5、根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

6、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种大语言模型的文本分类性能的评测方法，包括：

2.根据权利要求1所述的方法，其中，所述根据评测文本以及评测文本所对应的评测任务类型得到评测输入数据包括：

3.根据权利要求1所述的方法，其中，所述根据所述源评测结果与所述至少一个子评测结果，得到所述待评测大语言模型的文本分类性能包括：

4.根据权利要求1所述的方法，还包括，

5.根据权利要求1所述的方法，其中，所述将所述待评测大语言模型的输出结果作为评测文本对应不同评测任务类型的预测答案包括：

6.根据权利要求1所述的方法，还包括，

7.一种大语言模型的文本分类性能的评测装置，包括：

8.根据权利要求7所述的装置，其中，所述预测单元在根据评测文本以及评测文本所对应的评测任务类型得到评测输入数据时，具体执行：

9.根据权利要求7所述的装置，其中，所述评测单元在根据所述源评测结果与所述至少一个子评测结果，得到所述待评测大语言模型的文本分类性能时，具体执行：

10.根据权利要求7所述的装置，还包括构建单元，用于执行：

11.根据权利要求7所述的装置，其中，所述预测单元在将所述待评测大语言模型的输出结果作为评测文本对应不同评测任务类型的预测答案时，具体执行：

12.根据权利要求7所述的装置，还包括分类单元，用于执行：

13.一种电子设备，包括：

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

技术总结本公开提供一种大语言模型的文本分类性能的评测方法、装置，涉及大语言模型、自然语言处理、深度学习等人工智能技术领域。大语言模型的文本分类性能的评测方法包括：获取对应源评测任务的评测数据集、对应至少一个子评测任务的评测数据集；根据评测文本以及评测文本所对应的评测任务类型得到评测输入数据，将评测输入数据输入待评测大语言模型，将待评测大语言模型的输出结果作为评测文本对应不同评测任务类型的预测答案；根据评测文本对应相同评测任务类型的标注答案与预测答案，得到对应源评测任务的源评测结果、以及对应至少一个子评测任务的至少一个子评测结果；根据源评测结果与至少一个子评测结果，得到待评测大语言模型的文本分类性能。技术研发人员：张艺琼,姜涛,石东升受保护的技术使用者：北京度友信息技术有限公司技术研发日：技术公布日：2024/9/2