模型评估方法、装置、设备及介质与流程
- 国知局
- 2024-11-06 15:05:57
本公开涉及计算机,尤其涉及一种模型评估方法、装置、设备及介质。
背景技术:
1、通过测试集对模型进行评估可以确定模型的性能。但是,模型的回答具有随机性,对于相同的问题,多次回答可能产生不同的结果,存在有时回答正确,有时回答错误的情况,因而会导致模型的评估结果不准确。如何提高模型评估的准确性为当前亟待解决的问题。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种模型评估方法、装置、设备及介质。
2、本公开实施例提供了一种模型评估方法,包括:
3、确定候选测试集组;其中,所述候选测试集组与测试领域一一对应,所述候选测试集组包括不同难度等级的多个候选测试集;
4、基于所述多个候选测试集对待测模型进行测试,得到测试结果;
5、将与所述待测模型难度相匹配的所述测试结果确定为目标测试结果,将所述目标测试结果对应的所述候选测试集作为目标测试集;
6、根据所述目标测试集对应的所述难度等级,确定所述待测模型在所述测试领域下与对应的所述难度等级相匹配的评估结果。
7、本公开实施例还提供了一种模型评估装置,包括:
8、第一确定模块,用于确定候选测试集组;其中,所述候选测试集组与测试领域一一对应,所述候选测试集组包括不同难度等级的多个候选测试集;
9、测试模块,用于基于所述多个候选测试集对待测模型进行测试,得到测试结果;
10、第二确定模块,用于将与所述待测模型难度相匹配的所述测试结果确定为目标测试结果,将所述目标测试结果对应的所述候选测试集作为目标测试集;
11、第三确定模块,用于根据所述目标测试集对应的所述难度等级,确定所述待测模型在所述测试领域下与对应的所述难度等级相匹配的评估结果。
12、本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的模型评估方法。
13、本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的模型评估方法。
14、本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例中提供的模型评估方案,该方法包括:确定候选测试集组;其中,候选测试集组与测试领域一一对应,候选测试集组包括不同难度等级的多个候选测试集;基于多个候选测试集对待测模型进行测试,得到测试结果;将与待测模型难度相匹配的测试结果确定为目标测试结果,将目标测试结果对应的候选测试集作为目标测试集;根据目标测试集对应的难度等级,确定待测模型在测试领域下与对应的难度等级相匹配的评估结果。采用上述技术方案,针对测试领域设置了相应的候选测试集组,候选测试集组中包括难度等级不同的多个候选测试集,根据与待测模型难度匹配的候选测试集确定了待测模型在相应测试领域的评估结果,在测试领域维度进行了细化,并且基于待测模型在难度等级所对应候选测试集的整体表现确定了待测模型的评估结果,避免了模型对单一题目的回答不确定性对评估结果的影响,从领域的针对性以及评估的稳定性等多方面提高了最终确定的评估结果的准确性。
技术特征:1.一种模型评估方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定候选测试集组,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个候选测试集对待测模型进行测试,得到测试结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个候选测试集对待测模型进行测试,得到测试结果,包括:
6.根据权利要求1所述的方法,其特征在于,所述测试结果为所述多个候选测试集中当前测试集的测试结果,相应的,所述将与所述待测模型难度相匹配的所述测试结果确定为目标测试结果,将所述目标测试结果对应的所述候选测试集作为目标测试集,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种模型评估装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一所述的模型评估方法。
技术总结本公开实施例涉及一种模型评估方法、装置、设备及介质,该方法包括:确定候选测试集组;其中,候选测试集组与测试领域一一对应,候选测试集组包括不同难度等级的多个候选测试集;基于多个候选测试集对待测模型进行测试,得到测试结果;将与待测模型难度相匹配的测试结果确定为目标测试结果,将目标测试结果对应的候选测试集作为目标测试集;根据目标测试集对应的难度等级,确定待测模型在测试领域下与对应的难度等级相匹配的评估结果。本公开实施例,避免了模型对单一题目的回答不确定性对评估结果的影响,从领域的针对性以及评估的稳定性等多方面提高了最终确定的评估结果的准确性。技术研发人员:陆志鹏,韩光,符兴斌,郑曦,国丽,周崇毅,杨伟伟,郭红刚,唐超,王欢,许孟,易泓志,刘洋受保护的技术使用者:中电数据产业集团有限公司技术研发日:技术公布日:2024/11/4本文地址:https://www.jishuxx.com/zhuanli/20241106/325292.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。