技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种医疗健康行业大模型评价体系及测试评估工具的制作方法 > 正文

一种医疗健康行业大模型评价体系及测试评估工具的制作方法

国知局
2024-09-05 14:36:41

本发明涉及医疗健康，具体为一种医疗健康行业大模型评价体系及测试评估工具。

背景技术：

1、随着网络技术的发展互联网企业、医疗信息化公司、医疗机构、高校、科研院所等均开展医疗健康行业大模型研究，亟需多样化的评价服务指导细分领域的模型改善方向，即应用侧方面医疗健康行业大模型涵盖了医学问答、辅助诊断、药物研制等多领域，需要权威、统一的标准和平台评测性能，医疗大模型发展已达分水岭，评价工作可支撑技术与场景深度融合，我国暂未出现覆盖医疗全生命周期的测试类平台，无法实现医疗健康行业大模型规范化发展，而医疗大模型开发属于知识密集型领域，需要汇聚高质量数据集作为支撑。针对中文医疗大语言模型的评价基准仍然缺乏，评估大模型的客观能力表现存在困难，对大模型生成的内容进行评价的工序繁多，步骤繁琐，人力资源消耗严重，医疗大模型目前种类、功能繁多，技术厂商对开发产品的相关技术路径与目标尚不明晰。

2、综上所述，现有的评价体系缺乏专家级的意见指导、平台级的医疗数据，医疗领域大模型的准确性、全面性较低，其次缺乏测试评价工具、损害责任认定体系，医疗事故责任划分难，使用率、普及率难以提高，针对上述问题，现提出一种医疗健康行业大模型评价体系及测试评估工具。

技术实现思路

1、本发明的目的在于提供一种医疗健康行业大模型评价体系及测试评估工具，以解决上述背景技术中提出的评价体系缺乏专家级的意见指导、平台级的医疗数据，医疗领域大模型的准确性、全面性较低，其次缺乏测试评价工具、损害责任认定体系，医疗事故责任划分难，使用率、普及率难以提高的问题。

2、为实现上述目的，本发明提供如下技术方案：一种医疗健康行业大模型评价体系及测试评估工具，包括：

3、评价主体：所述评价主体体现为圈定评价范围，确认评价主体，即面向垂直领域，主要考察医疗健康大模型的应用能力，兼顾基座模型能力；聚焦以大模型为核心能力的场景化医疗健康解决方案/产品，以ai大模型应用能力为评价核心；

4、评估工具：所述评价工具体现为开发自动化评价工具，即以标准规范为准绳，构建测试问题集、数据集等；以微服务架构进行开发，便于后期扩展；采用图形化界面，降低操作难度；灵活部署测试系统，实现测试自动化；

5、评价服务：所述评价服务体现为形成体系化评价服务能力，即建立从基础研究到市场推广的评价服务体系；形成推广路径，持续推动评价服务。

6、优选的，评价主体评价范围的基础支撑为数据、模型、算力和基础设施，技术路径包括训练方式和优化策略，同时训练方式和优化策略分别对应场景应用类和基础模型类。

7、优选的，所述评价主体评价范围的主要能力范围对应分类为场景应用类和基础模型类，且场景应用类包括医院侧医疗、患者侧医疗服务、智慧医保、公共卫生以及传统中医等，同时基础模型类体现为多模态支持度、个性化服务以及模型安全。

8、优选的，所述评价主体的基础支撑包括基础算力、数据处理、模型训练、安全管理、智能芯片和智能传感器。

9、优选的，所述评价主体的场景能力包括辅助诊断、治疗放啊安推荐爱你、健康宣教、药物研发和疾病预测。

10、优选的，所述评价服务遵循客观公平的原则以自动化评价平台为基准，客观、真实反映医疗健康行业大模型应用能力减少人为主观因素影响，严格把控评价质量；以自动化评价代替人工评价，形成自动化评价工作流，减少测试人员工作负担利用自动化评价系统并行开展测试，提升评价效率；以评促建，以评促用，推动医疗健康行业大模型试用试行借助aiia等产业联盟组织，将评价结果进行发布，扩大影响力。

11、优选的，一种医疗健康行业大模型测试评估工具，所述评估工具包括测试环境、测试用例集、前台管理功能和后台管理。

12、优选的，所述测试环境包括数据集、模型库、算法库和开源组件，且数据集包括选择数据源、数据清洗与预处理和划分数据集，所述模型库包括模型分类、模型库的更新维护以及模型库的使用规范，所述算法库包括算法选取、算法分类管理和算法库的持续更新，所述开源组件包括选择开源组件、安装与配置以及使用和优化，所述测试用例集脑阔分解评价维度、构建评价基准和明确测试用例，且分解评价维度从场景应用能力和基础模型能力。

13、优选的，所述前台管理功能包括用例管理、方案管理、客户管理、报告管理和评价分析

14、优选的，所述后台管理功能包括微服务管理、数据管理、模型管理和算法管理。

15、与现有技术相比，本发明的有益效果是：该医疗健康行业大模型评价体系及测试评估工具，

16、本发明通过圈定评价范围，确认评价主体、开发自动化评价工具以及系统化评价的配合使用可有效解决评价体系缺乏专家级的意见指导、平台级的医疗数据，医疗领域大模型的准确性、全面性较低，其次缺乏测试评价工具、损害责任认定体系，医疗事故责任划分难，使用率、普及率难以提高的问题，首先本体系以微服务架构进行开发，便于后期扩展；采用图形化界面，降低操作难度；灵活部署测试系统，实现测试自动化，建立从基础研究到市场推广的评价服务体系；形成推广路径，持续推动评价服务，其次以自动化评价平台为基准，客观、真实反映医疗健康行业大模型应用能力减少人为主观因素影响，严格把控评价质量；并且以自动化评价代替人工评价，形成自动化评价工作流，减少测试人员工作负担利用自动化评价系统并行开展测试，提升评价效率；以评促建，以评促用，推动医疗健康行业大模型试用试行借助aiia等产业联盟组织，将评价结果进行发布，并以此扩大影响力。

技术特征：

1.一种医疗健康行业大模型评价体系，其特征在于，包括：

2.根据权利要求1所述的一种医疗健康行业大模型评价体系，其特征在于：所述评价主体评价范围的基础支撑为数据、模型、算力和基础设施，技术路径包括训练方式和优化策略，同时训练方式和优化策略分别对应场景应用类和基础模型类。

3.根据权利要求1所述的一种医疗健康行业大模型评价体系，其特征在于：所述评价主体评价范围的主要能力范围对应分类为场景应用类和基础模型类，且场景应用类包括医院侧医疗、患者侧医疗服务、智慧医保、公共卫生以及传统中医等，同时基础模型类体现为多模态支持度、个性化服务以及模型安全。

4.根据权利要求1所述的一种医疗健康行业大模型评价体系，其特征在于：所述评价主体的基础支撑包括基础算力、数据处理、模型训练、安全管理、智能芯片和智能传感器。

5.根据权利要求1所述的一种医疗健康行业大模型评价体系，其特征在于：所述评价主体的场景能力包括辅助诊断、治疗方案推荐、健康宣教、药物研发和疾病预测。

6.根据权利要求1所述的一种医疗健康行业大模型评价体系，其特征在于：所述评价服务遵循客观公平的原则以自动化评价平台为基准，客观、真实反映医疗健康行业大模型应用能力减少人为主观因素影响，严格把控评价质量；以自动化评价代替人工评价，形成自动化评价工作流，减少测试人员工作负担利用自动化评价系统并行开展测试，提升评价效率；以评促建，以评促用，推动医疗健康行业大模型试用试行借助aiia等产业联盟组织，将评价结果进行发布，扩大影响力。

7.一种医疗健康行业大模型测试评估工具，应用于权利要求1所述的一种医疗健康行业大模型评价体系，其特征在于,包括测试环境、测试用例集、前台管理功能和后台管理。

8.根据权利要求7所述的一种医疗健康行业大模型测试评估工具，其特征在于：所述测试环境包括数据集、模型库、算法库和开源组件，且数据集包括选择数据源、数据清洗与预处理和划分数据集，所述模型库包括模型分类、模型库的更新维护以及模型库的使用规范，所述算法库包括算法选取、算法分类管理和算法库的持续更新，所述开源组件包括选择开源组件、安装与配置以及使用和优化，所述测试用例集脑阔分解评价维度、构建评价基准和明确测试用例，且分解评价维度从场景应用能力和基础模型能力。

9.根据权利要求7所述的一种医疗健康行业大模型测试评估工具，其特征在于：所述前台管理功能包括用例管理、方案管理、客户管理、报告管理和评价分析。

10.根据权利要求7所述的一种医疗健康行业大模型测试评估工具，其特征在于：所述后台管理功能包括微服务管理、数据管理、模型管理和算法管理。

技术总结本发明公开了一种医疗健康行业大模型评价体系及测试评估工具，包括评价主体：所述评价主体体现为圈定评价范围，确认评价主体，即面向垂直领域，主要考察医疗健康大模型的应用能力，兼顾基座模型能力。该医疗健康行业大模型评价体系及测试评估工具，以自动化评价平台为基准，客观、真实反映医疗健康行业大模型应用能力减少人为主观因素影响，严格把控评价质量；并且以自动化评价代替人工评价，形成自动化评价工作流，减少测试人员工作负担利用自动化评价系统并行开展测试，提升评价效率；以评促建，以评促用，推动医疗健康行业大模型试用试行借助AIIA等产业联盟组织，将评价结果进行发布，并以此扩大影响力。技术研发人员：武雅文受保护的技术使用者：中国信息通信研究院技术研发日：技术公布日：2024/9/2