技术新讯 > 计算推算,计数设备的制造及其应用技术 > 大语言模型评测方法、装置、电子设备及存储介质与流程 > 正文

大语言模型评测方法、装置、电子设备及存储介质与流程

国知局
2024-09-05 14:44:43

本发明涉及人工智能，尤其涉及一种大语言模型评测方法、装置、电子设备及存储介质。

背景技术：

1、当前时代生成式人工智能技术的快速发展，为数字经济的发展带来新的技术红利。其中大语言模型展现出的能力涌现，使得其不管是在学术界还是在工业界都备受青睐。随着大语言模型不断走向商用，并在日常工作和生活中被广泛使用，如何对其进行有效的性能、安全性等方面的评测变得至关重要。

2、现有评测方法主要分为两类：标准题库评测和专家经验评测。标准题库评测方法主要利用大规模题库进行评测，通过对比题库标准答案和大语言模型所返回的答案完成打分，是目前最主流的评测方法，测试范围局限于题库中的内容，同时对于开放性问题的回答结果难以进行评估。专家经验评测方法主要通过人类专家的主观判断，对大语言模型生成的答案进行打分，该方法无法实现自动化评测，同时不同专家打分可能存在差异，难以保证评测结果客观性和可重复性。因此，现有评测方法都存在主观因素，无法得到较为客观的大语言模型评测结果，导致现有大语言模型评测的准确性较低。

技术实现思路

1、本发明提供一种大语言模型评测方法、装置、电子设备及存储介质，用以解决现有技术中大语言模型评测准确性较低的问题。

2、第一方面，本发明提供一种大语言模型评测方法，包括：

3、获取评测问题集；

4、将所述评测问题集分别输入至多种大语言模型，得到各种大语言模型输出的回答结果；

5、基于所述评测问题集和各回答结果进行大语言模型交叉评测，得到每种大预言模型的多个评测得分；

6、基于每种大语言模型的多个评测得分，确定每种大语言模型的目标综合得分。

7、在一个实施例中，在基于所述评测问题集和各回答结果进行大语言模型交叉评测，得到每种大预言模型的多个评测得分时，针对每种大语言模型执行如下步骤：

8、将所述评测问题集、所述大语言模型的回答结果与预设提示词输入至各种其余大语言模型中，分别得到各种其余大语言模型输出的评测得分；所述其余大语言模型是指用于交叉评测的所有大语言模型中除了所述大语言模型之外的大语言模型；所述预设提示词至少包括评测任务描述和评测得分输出格式要求。

9、在一个实施例中，在基于每种大语言模型的多个评测得分，确定每种大语言模型的目标综合得分时，针对每种大语言模型执行如下步骤：

10、初始化所述大语言模型的评测得分权重值；

11、将所述评测得分权重值分别与多个评测得分进行相乘，得到多个乘积；

12、将各乘积进行求和，得到所述大语言模型的初始综合得分；

13、基于所述初始综合得分，确定所述大语言模型的目标综合得分。

14、在一个实施例中，所述基于所述初始综合得分，确定所述大语言模型的目标综合得分，包括：

15、判断所述初始综合得分是否满足任一收敛条件；所述收敛条件至少包括最大迭代轮数、综合得分变化条件小于第一预设阈值以及最近多轮迭代综合得分方差小于第二预设阈值；

16、若所述初始综合得分满足任一收敛条件，则将所述初始综合得分确定为所述大语言模型的目标综合得分；

17、若所述初始综合得分不满足任一收敛条件，则将所述评测得分权重值进行更新，得到所述大语言模型的更新权重值；

18、将所述更新权重值更新为评测得分权重值，并迭代执行将所述评测得分权重值分别与多个评测得分进行相乘的步骤，直至所述初始综合得分满足任一收敛条件，得到所述大语言模型的目标综合得分。

19、在一个实施例中，所述将所述评测得分权重值进行更新，得到所述大语言模型的更新权重值，包括：

20、获取各种其余大语言模型的初始综合得分；

21、将所述大语言模型的初始综合得分与所述各种其余大语言模型的初始综合得分进行求和，得到得分总和；

22、将所述大语言模型的初始综合得分与所述得分总和进行相除，得到所述大语言模型的更新权重值。

23、在一个实施例中，所述综合得分变化条件小于第一预设阈值，是通过如下公式确定的：

24、

25、其中，n表征n种大语言模型，表征第i种大语言模型在第t轮迭代过程中得到的初始综合得分，表征第i种大语言模型在第t-1轮迭代过程中得到的初始综合得分，t1为第一预设阈值。

26、在一个实施例中，所述最近多轮迭代综合得分方差小于第二预设阈值，是通过如下公式确定的：

27、maxi∈(1,n)(δi)<t2；

28、

29、其中，n表征n种大语言模型，表征第i种大语言模型在第t0轮迭代过程中得到的初始综合得分，表征第i种大语言模型在第t0-k轮迭代过程中得到的初始综合得分，t2为第二预设阈值，表征第i种大语言模型在最近k轮迭代过程中得到的所有初始综合得分的均值。

30、第二方面，本发明还提供一种大语言模型评测装置，包括：

31、获取模块，用于获取评测问题集；

32、大语言模型回复模块，用于将所述评测问题集分别输入至多种大语言模型，得到各种大语言模型输出的回答结果；

33、大语言模型评测模块，用于基于所述评测问题集和各回答结果进行大语言模型交叉评测，得到每种大预言模型的多个评测得分；

34、综合评测模块，用于基于每种大语言模型的多个评测得分，确定每种大语言模型的目标综合得分。

35、第三方面，本发明提供一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述大语言模型评测方法的步骤。

36、第四方面，本发明还提供一种存储介质，所述存储介质包括非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述大语言模型评测方法的步骤。

37、本发明提供的大语言模型评测方法、装置、电子设备及存储介质，通过将获取到的评测问题集分别输入到各种大语言模型，得到各种大语言模型输出的回答结果，涵盖了大语言模型对问题的理解和回答能力，进一步基于各回答结果进行大语言模型交叉评分，最后确定出每种大语言模型的目标综合得分，实现自动化大语言模型评测方式，确保了评测结果的客观性和公正性，从而提高了大语言模型评测的准确性，同时也提高了大语言模型评测的效率。

技术特征：

1.一种大语言模型评测方法，其特征在于，包括：

2.根据权利要求1所述的大语言模型评测方法，其特征在于，在基于所述评测问题集和各回答结果进行大语言模型交叉评测，得到每种大预言模型的多个评测得分时，针对每种大语言模型执行如下步骤：

3.根据权利要求1所述的大语言模型评测方法，其特征在于，在基于每种大语言模型的多个评测得分，确定每种大语言模型的目标综合得分时，针对每种大语言模型执行如下步骤：

4.根据权利要求3所述的大语言模型评测方法，其特征在于，所述基于所述初始综合得分，确定所述大语言模型的目标综合得分，包括：

5.根据权利要求4所述的大语言模型评测方法，其特征在于，所述将所述评测得分权重值进行更新，得到所述大语言模型的更新权重值，包括：

6.根据权利要求4所述的大语言模型评测方法，其特征在于，所述综合得分变化条件小于第一预设阈值，是通过如下公式确定的：

7.根据权利要求4所述的大语言模型评测方法，其特征在于，所述最近多轮迭代综合得分方差小于第二预设阈值，是通过如下公式确定的：

8.一种大语言模型评测装置，其特征在于，包括：

9.一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述大语言模型评测方法的步骤。

10.一种存储介质，所述存储介质包括非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述大语言模型评测方法的步骤。

技术总结本发明提供一种大语言模型评测方法、装置、电子设备及存储介质，属于人工智能技术领域，方法包括：获取评测问题集；将评测问题集分别输入至多种大语言模型，得到各种大语言模型输出的回答结果；基于评测问题集和各回答结果进行大语言模型交叉评测，得到每种大预言模型的多个评测得分；基于每种大语言模型的多个评测得分，确定每种大语言模型的目标综合得分。本发明提供的大语言模型评测方法，通过基于各种大语言模型输出的回答结果进行大语言模型交叉评分，最后确定出每种大语言模型的目标综合得分，实现自动化大语言模型评测方式，确保评测结果的客观性和公正性，从而提高了大语言模型评测的准确性。技术研发人员：梁秉豪,张传刚,袁明明,王凯,潘文硕受保护的技术使用者：浪潮通信信息系统有限公司技术研发日：技术公布日：2024/9/2