大语言模型的测试方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-07-31 22:49:06
本公开涉及深度学习,尤其涉及一种大语言模型的测试方法、装置、电子设备及存储介质。
背景技术:
1、近年来,陆陆续续出来了很多大语言模型,每一个模型都需要进行一定的能力检测,才可以发现它们各自适合完成的任务,因此出现了很多从各个维度评价大语言模型本身的能力的榜单,例如英文能力评测榜单open llm、mmlu,中文能力评测榜单c-eval、clue,代码能力评测榜单bigcode、humaneval+,自然语言理解能力评测榜单glue、alpacaeval,通用能力评测榜单opencompass、helm。但是目前仍缺少针对大语言模型的数学能力进行评测的方案和榜单。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种大语言模型的测试方法、装置、电子设备及存储介质。
2、根据本公开的一方面,提供了一种大语言模型的测试方法,包括:
3、获取待测试大语言模型的模型提示词模板,以及多个数学数据集中每个数学数据集分别对应的数据集提示词模板;
4、根据所述每个数学数据集及对应的所述数据集提示词模板,生成所述每个数学数据集对应的题目匹配文本集;
5、根据所述每个数学数据集对应的题目匹配文本集和所述模型提示词模板,生成所述每个数学数据集对应的模型匹配文本集;
6、将所述每个数学数据集对应的模型匹配文本集输入所述待测试大语言模型进行数学运算,并获取所述待测试大语言模型在所述每个数学数据集上输出的运算结果;
7、根据所述待测试大语言模型在所述每个数学数据集上输出的运算结果和对应数学数据集,生成所述待测试大语言模型在所述每个数学数据集上的数学能力测试结果。
8、根据本公开的另一方面,提供了一种大语言模型的测试装置,包括:
9、模板获取模块,用于获取待测试大语言模型的模型提示词模板,以及多个数学数据集中每个数学数据集分别对应的数据集提示词模板;
10、第一生成模块,用于根据所述每个数学数据集及对应的所述数据集提示词模板,生成所述每个数学数据集对应的题目匹配文本集;
11、第二生成模块,用于根据所述每个数学数据集对应的题目匹配文本集和所述模型提示词模板,生成所述每个数学数据集对应的模型匹配文本集;
12、模型预测模块,用于将所述每个数学数据集对应的模型匹配文本集输入所述待测试大语言模型进行数学运算,并获取所述待测试大语言模型在所述每个数学数据集上输出的运算结果;
13、测试模块,用于根据所述待测试大语言模型在所述每个数学数据集上输出的运算结果和对应数学数据集,生成所述待测试大语言模型在所述每个数学数据集上的数学能力测试结果。
14、根据本公开的另一方面,提供了一种电子设备,包括:
15、处理器;以及
16、存储程序的存储器,
17、其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据前述一方面所述的大语言模型的测试方法。
18、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据前述一方面所述的大语言模型的测试方法。
19、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述一方面所述的大语言模型的测试方法。
20、本公开实施例中提供的一个或多个技术方案,通过获取待测试大语言模型的模型提示词模板,以及多个数学数据集中每个数学数据集分别对应的数据集提示词模板,根据每个数学数据集及对应的数据集提示词模板,生成每个数学数据集对应的题目匹配文本集,并根据每个数学数据集对应的题目匹配文本集和模型提示词模板,生成每个数学数据集对应的模型匹配文本集,进而将每个数学数据集对应的模型匹配文本集输入待测试大语言模型进行数学运算,并获取待测试大语言模型在每个数学数据集上输出的运算结果,根据待测试大语言模型在每个数学数据集上输出的运算结果和对应数学数据集,生成待测试大语言模型在每个数学数据集上的数学能力测试结果。采用本公开的方案,实现了不同大语言模型在不同数学数据集上的数学能力自动化测试,通过匹配模型提示词模板和数据集提示词模板,能够最大程度的激发模型在各数学数据集上的能力,提高测试结果的准确性,为发觉大语言模型适合完全的任务提供可靠的数据支撑。
技术特征:1.一种大语言模型的测试方法,其中,所述方法包括:
2.如权利要求1所述的大语言模型的测试方法,其中,所述数据集提示词模板中包括与对应数学数据集中的字段标识匹配的匹配标识;
3.如权利要求2所述的大语言模型的测试方法,其中,所述基于所述每个数学题目对应的题目匹配文本,构建得到所述当前数学数据集对应的题目匹配文本集,包括:
4.如权利要求3所述的大语言模型的测试方法,其中,所述数据集提示词模板中还包括第一输入字段标识和第一解析字段标识,所述模型提示词模板包括与所述第一输入字段标识匹配的第二输入字段标识和与所述第一解析字段标识匹配的第二解析字段标识;
5.如权利要求1-4任一项所述的大语言模型的测试方法,其中,所述根据所述待测试大语言模型在所述每个数学数据集上输出的运算结果和对应数学数据集,生成所述待测试大语言模型在所述每个数学数据集上的数学能力测试结果,包括:
6.如权利要求5所述的大语言模型的测试方法,其中,所述每个数学数据集对应的模型匹配文本集包括模型零样本文本和模型少样本文本,所述运算结果包括所述待测试大语言模型基于所述每个数学数据集对应的模型零样本文本输出的第一运算结果和基于所述每个数学数据集对应的模型少样本文本输出的第二运算结果;
7.如权利要求1-4任一项所述的大语言模型的测试方法,其中,所述待测试大语言模型的个数为多个;
8.如权利要求7所述的大语言模型的测试方法,其中,所述每个数学数据集携带能力维度标签,所述能力维度标签为算术题或应用题,所述测评结果展示页面中展示有算术题控件和应用题控件;
9.一种大语言模型的测试装置,其中,所述装置包括:
10.一种电子设备,包括:
技术总结本公开提供一种大语言模型的测试方法、装置、电子设备及存储介质,方法包括:获取待测试大语言模型的模型提示词模板以及每个数学数据集分别对应的数据集提示词模板;根据每个数学数据集及对应的数据集提示词模板生成每个数学数据集对应的题目匹配文本集;根据每个数学数据集对应的题目匹配文本集和模型提示词模板,生成每个数学数据集对应的模型匹配文本集;将每个数学数据集对应的模型匹配文本集输入待测试大语言模型进行数学运算,根据待测试大语言模型在每个数学数据集上输出的运算结果和对应数学数据集,生成待测试大语言模型在每个数学数据集上的数学能力测试结果。本方案实现了不同大语言模型在不同数学数据集上的数学能力自动化测试。技术研发人员:刘子韬,刘天乔,刘常堃,郑颖受保护的技术使用者:北京世纪好未来教育科技有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/194774.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。