技术新讯 > 计算推算,计数设备的制造及其应用技术 > QA问答评估方法,电子设备及存储介质与流程  >  正文

QA问答评估方法,电子设备及存储介质与流程

  • 国知局
  • 2024-09-05 14:52:10

本发明实施例涉及深度学习领域,特别涉及一种qa问答评估方法,电子设备及存储介质。

背景技术:

1、大语言模型(large language model,llm)强大的推理能力和生成能力使其可以很好完成基于知识库的qa问答任务。但是,评估知识库的qa问答的效果却非常困难,通过人工的方式评估qa问答的效果成本很大。通过qa自动化评估的方式,人们可以自动化、快速评估基于知识库的qa问答的效果。

2、相较于直接通过人工的方式评估,通过llm来自动化评估qa问答的效果,可以节省很大的成本和人力资源。相较于直接通过规则或者语义相似度的方式来自动化评估,基于llm来自动化评估更加灵活,llm可以更好的理解标准答案和回答的要点,可以更好的适应复杂的任务。

3、但是,直接让llm进行复杂qa问答的评分任务,会导致llm输出的内容不可靠,具体可能出现的问题如下:

4、(1)存在逻辑问题:ground truth要点被判断为既在答案中又不在答案中;

5、(2)判断的要求过于严格,ground truth要点在答案中,但是判断为不在答案中;

6、(3)错误的将答案和ground truth(gt)的要点判断错误:不在gt中但在答案中的要点判断为在ground truth和答案中,模型可能出现幻觉;

7、(4)ground truth要点拆分过于细致,基本要点回答上,但是给出的分数不高;

8、(5)无法固定拆分要点来评价不同的llm模型效果;

9、(6)对于复杂任务,llm输出随机,评分波动很大。

技术实现思路

1、本发明实施方式的目的在于提供一种基于大语言模型的问答评估方法,电子设备及存储介质,通过利用llm将复杂qa问答的评分任务拆解成多个任务处理过程,从而有效提高评估结果的可靠性。

2、为解决上述技术问题,本发明的实施方式提供了一种qa问答评估方法,包括:

3、获取qa问答的问题、回答和标准答案,并构建第一提示词,所述第一提示词用于指示提取出所述标准答案的关键要点;

4、将所述第一提示词、所述问题和所述标准答案输入至大语言模型中,得到所述大语言模型输出的所述标准答案的关键要点;

5、构建第二提示词,所述第二提示词用于指示判断所述回答中是否包含所述标准答案的关键要点;

6、将所述第二提示词、所述问题和所述标准答案的关键要点输入至大语言模型中,得到所述大语言模型输出的所述回答中是否包含所述标准答案的关键要点的结果;

7、基于所述回答中所包含的所述标准答案的关键要点的数量,以及所述标准答案的关键要点总数量评估qa问答的得分。

8、本发明的实施方式还提供了一种电子设备,包括:

9、至少一个处理器;以及,

10、与所述至少一个处理器通信连接的存储器;其中,

11、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的qa问答评估方法。

12、本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的qa问答评估方法。

13、本发明实施方式相对于现有技术而言,利用大语言模型将qa问答的评估任务分两步进行处理,先是通过大语言模型以及第一提示词对待评估的qa问答的标准答案进行关键要点拆分,得到标准答案的所有关键要点,其中第一提示词用于指示提取出标准答案的关键要点;然后通过大语言模型以及第二提示词对qa问答的回答中是否包含标准答案的关键要点进行判断,得到是否包含的判断结果,其中第二提示词用于指示判断回答中是否包含标准答案的关键要点;最后,根据回答中所包含的关键要点的数量以及标准答案的关键要点的总数量,对qa问答的回答效果进行量化评估,得到评估分值。本方案将复杂的qa问答的任务拆解成两个小任务,然后利用大语言模型分别对两个小任务进行递进处理,避免大语言模型直接一步评估所导致的评估结果不可靠的问题。同时用户只需一次提供待评估的qa问答的问题、回答和标准答案,即可完成评估任务的拆解和处理,人机交互过程简单且友好。

技术特征:

1.一种qa问答评估方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第一提示词包括第一任务描述和第一任务样例,所述构建第一提示词,包括:

3.根据权利要求2所述的方法,其特征在于,所述样例库中预置的所述任务类型为提取出标准答案的关键要点的任务样例有多个,且按样例内容的知识领域、内容格式被划分到不同的内容类别;

4.根据权利要求2所述的方法,其特征在于,所述样例库中预置的任务类型为提取出标准答案的关键要点的任务样例由如下样例部分组成:作为输入的问题样例和标准答案样例,以及作为输出的标准答案的关键要点样例。

5.根据权利要求1所述的方法,其特征在于,所述第二提示词包括第二任务描述和第二任务样例,所述构建第二提示词,包括:

6.根据权利要求5所述的方法,其特征在于,所述样例库中预置的所述任务类型为判断所述回答中是否包含所述标准答案的关键要点的任务样例有多个,且按样例内容的知识领域、内容格式被划分到不同的内容类别;

7.根据权利要求5所述的方法,其特征在于,所述样例库中预置的任务类型为判断所述回答中是否包含所述标准答案的关键要点的任务样例由如下样例部分组成:作为输入的问题样例、回答样例和标准答案的关键要点样例,以及作为输出的判断回答中是否包含标准答案的关键要点的分析过程样例和结论样例。

8.根据权利要求1-7任一项所述的方法,其特征在于,所述基于所述回答中所包含的所述标准答案的关键要点的数量,以及所述标准答案的关键要点总数量评估qa问答的回答得分,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的qa问答评估方法。

技术总结本发明实施例涉及深度学习领域,公开了一种QA问答评估方法,电子设备及存储介质。通过获取QA问答的问题、回答和标准答案,并构建第一提示词;将所述第一提示词、所述问题和所述标准答案输入至大语言模型中,得到所述标准答案的关键要点;构建第二提示词并将所述第二提示词、所述问题和所述标准答案的关键要点输入至大语言模型中,得到所述回答中是否包含所述标准答案的关键要点的结果;基于所述回答中所包含的所述标准答案的关键要点的数量,以及所述标准答案的关键要点总数量评估QA问答的得分。本方案通过利用LLM将复杂QA问答的评分任务拆解成多个任务处理过程,从而有效提高评估结果的可靠性。技术研发人员:顾立新,景王沅受保护的技术使用者:北京数据项素智能科技有限公司技术研发日:技术公布日:2024/9/2

本文地址:https://www.jishuxx.com/zhuanli/20240905/288593.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。