一种大模型辅助的稀土催化材料合成参数抽取方法
- 国知局
- 2024-07-31 23:09:40
本发明涉及自然语言处理,具体涉及一种大模型辅助的稀土催化材料合成参数抽取方法。
背景技术:
1、材料科学中,稀土催化新材料结构复杂,种类繁多,形成海量“新材料设计空间”,学术界目前积累了大量的合成实验结果文献,稀土催化材料合成文献以非结构化文本的形式承载了大量材料领域合成知识,是材料学者之间进行知识交流、研发制备稀土催化新材料的重要途径。随着稀土催化材料合成文献数量指数级增长,传统的人工阅读稀土催化材料合成文献方式面临合成参数获取效率低、覆盖不全等挑战。近期大语言模型蓬勃发展,通过大规模语料数据的训练和优化,已经具备了强大的自然语言理解和生成能力。如何利用大语言模型赋能稀土催化材料合成文献合成参数获取过程,实现对非结构化文本中知识的结构化抽取,从而减轻人工阅读稀土催化材料合成文献的负担,成为当前亟需解决的热点问题。目前进行合成文献中合成参数结构化处理的方法包括基于规则的文本抽取方法、基于机器学习的模式识别方法、基于自然语言处理的信息提取方法等,这些方法普遍存在规则复杂、数据需求量大、泛化能力差等缺点。
技术实现思路
1、为解决上述问题,本发明提供了一种大模型辅助的稀土催化材料合成参数抽取方法,该方法包括:步骤1,将pdf格式的稀土催化材料合成文献批量转换为html和txt格式,并按预定比例划分为标注文献集和抽取文献集,其中所述标注文献集用于数据标注,所述抽取文献集用于大规模知识抽取;步骤2,设置需要抽取的合成参数数据类别,按照该数据类别对标注文献集的稀土催化材料合成文献进行数据标注;步骤3,对标注数据进行数据处理,得到合成段落标注集合,对标注数据进行一致性检查,得到标注数据集;步骤4,以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集,训练稀土催化材料合成文献合成段落抽取模型;步骤5,使用稀土催化材料合成文献合成段落抽取模型对抽取文献集的稀土催化材料合成文献进行合成段落抽取;步骤6,使用大模型对抽取文献集的合成段落进行参数抽取,其中,大模型接收提示词以进行抽取操作。
2、在上述方法中,所述预定比例为1:30。
3、在上述方法中,数据类别包括合成所使用的溶剂、前驱体的材料名称及其使用量、合成所需的反应时间、反应温度。
4、在上述方法中,在数据处理阶段,以稀土催化材料合成文献为单位,对稀土催化材料合成文献原文进行分段,根据该篇文献标注数据中的偏移位置计算标注数据所在段落,所述偏移位置指的是以一篇合成文献纯文本的开头作为原点,标注数据的位置相对于原点的文本偏移量,然后取段落的并集得到稀土催化材料合成文献的合成段落标注集合,所述段落的并集指的是所有包含标注数据的段落集合;在一致性检查阶段,按照标注数据的文本偏移量选取有重叠的标注数据,所述文本偏移量指的是以一篇合成文献纯文本的开头作为原点,标注数据的位置相对于原点的偏移位置及标注数据长度,所述重叠指的是多人标注的同一数据类别内容在合成文献中有重合,然后计算不同用户标注之间的jaccard相似度,将jaccard相似度超过阈值的数据纳入标注数据集。
5、在上述方法中,所述步骤4“训练稀土催化材料合成文献合成段落抽取模型”包括:以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集,将稀土催化材料合成文献的合成段落抽取任务转化为文本内容是否为合成段落的二分类任务,基于bert小规模自然语言模型进行训练,实现稀土催化材料合成文献合成段落的自动预定位。
6、本发明的有益效果:
7、根据本发明的技术方案,能够在保证抽取结果准确性的同时,结合小模型抽取速度快、抽取成本低的优势和大模型在自然语言理解方面的强大能力,在保证抽取结果准确性的同时,兼具抽取速度快、抽取成本低的优势,有助于材料科研工作者批量阅读稀土催化材料合成文献,快速高效掌握稀土催化材料合成知识。
技术特征:1.一种大模型辅助的稀土催化材料合成参数抽取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法,其特征在于,所述预定比例为1:30。
3.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法,其特征在于,数据类别包括合成所使用的溶剂、前驱体的材料名称及其使用量、合成所需的反应时间、反应温度。
4.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法,其特征在于,
5.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法,其特征在于,
技术总结本发明公开了一种大模型辅助的稀土催化材料合成参数抽取方法,属于自然语言处理技术领域,所述方法包括:将PDF格式的稀土催化材料合成文献批量转换为HTML和TXT格式,并按预定比例划分为标注文献集和抽取文献集;设置需要抽取的合成参数数据类别,按照该数据类别对标注文献集的稀土催化材料合成文献进行数据标注;对标注数据进行数据处理,得到合成段落标注集合,对标注数据进行一致性检查,得到标注数据集;训练稀土催化材料合成文献合成段落抽取模型;使用该模型对抽取文献集的稀土催化材料合成文献进行合成段落抽取;使用大模型对抽取文献集的合成段落进行参数抽取。根据本发明技术方案,抽取结果准确,抽取速度快、成本低。技术研发人员:谭火彬,时磊,林广艳,李睿明,张宇洋,吴伟泽受保护的技术使用者:北京航空航天大学技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/196146.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。