一种基于大语言模型的气象环境情报爬取与分析方法与流程
- 国知局
- 2025-01-10 13:16:33
本发明涉及气象数据获取分析,尤其涉及一种基于大语言模型的气象环境情报爬取与分析方法。
背景技术:
1、当前,对气象环境情报获取的要求越来越高。气象数据的准确获取能够及时提供风速、风向、温度、湿度等关键气象参数,帮助分析天气变化的规律,预测未来的天气情况,从而及时发布气象预报和警报,提高气象预报准确性。
2、然而,传统气象数据的获取大多依赖于人工搜集网络上的零散信息或者根据不同的气象网站人工修改爬虫策略进行爬虫,这些方法在处理流程上往往较为繁琐,导致数据获取速度较慢且不全面,在快速变化的气象环境中,这种缺陷可能会影响决策的及时性和准确性。同时传统方法对于非结构化气象数据的处理难度大,传统方法在处理这些非结构化数据时往往力不从心,难以从中提取出有价值的信息。
3、此外,由于传统方法在处理数据时存在诸多限制,导致收集到的气象数据往往无法充分利用,大量的数据被闲置或仅用于简单的统计分析,对于气象数据的利用效率低,无法发挥其潜在的价值和作用。
技术实现思路
1、鉴于上述的分析,本发明实施例旨在提供一种基于大语言模型的气象环境情报爬取与分析方法,用以解决现有依靠人工搜索数据获取气象数据时效率低,对于非结构化数据无法充分利用的问题。
2、本发明的目的主要是通过以下技术方案实现的:
3、本发明提供了一种基于大语言模型的气象环境情报爬取与分析方法,包括如下步骤:
4、获取气象环境情报爬虫需求、气象环境情报分析需求和气象环境情报报告生成需求,并基于各自预设提示词模板,分级构建气象环境情报爬取提示词、气象环境情报分析提示词和气象环境情报报告生成提示词;其中,分级构建提示词为基于各气象环境情报需求和对应的预设提示词模板的匹配度,生成对应的提示词;
5、基于所述气象环境情报爬取提示词和预设的气象环境情报提取提示词对数据源网址进行数据爬取,并将爬取结果与era5数据集进行相似性度量,得到气象环境情报;
6、基于所述气象环境情报分析提示词和所述气象环境情报报告生成提示词,对所述气象环境情报进行情报分析得到气象环境情报分析报告。
7、进一步的,所述分级构建提示词,包括:
8、当预设提示词模板完全包括对应的气象环境情报需求时,使用预设提示词模板作为对应的提示词;
9、当预设提示词模板包括部分对应的气象环境情报需求时,使用半模糊生成提示词模板基于对应的气象环境情报需求对预设提示词模板进行优化,生成对应的提示词;
10、当预设提示词模板完全不包括对应的气象环境情报需求时,使用模糊生成提示词模板基于气象环境情报需求,生成气象环境情报提示词。
11、进一步的,所述基于所述气象环境情报爬取提示词和预设的气象环境情报提取提示词对数据源网址进行数据爬取,包括:
12、将所述气象环境情报爬取提示词输入至大语言模型中,得到爬取需求关键词;
13、基于所述爬取需求关键词和预设的气象环境情报提取提示词,使用大语言模型从数据源网址的源码中爬取气象环境情报。
14、进一步的,当所述气象环境情报爬取提示词中不包括数据源网址时,使用智能体基于所述爬取需求关键词,通过搜索引擎搜索数据源网址。
15、进一步的,所述将爬取结果与era5数据集进行相似性度量,得到气象环境情报,包括:
16、对所述爬取结果中的各气象指标与era5数据集中对应的气象指标进行相似性度量,得到所述爬取结果的相似性值;
17、当所述爬取结果的相似性值大于或等于预设相似性阈值时,则将所述爬取结果作为爬取的气象环境情报;
18、当所述爬取结果的相似性值小于预设相似性阈值时,对所述气象环境情报提取提示词进行优化,生成新的气象环境情报提取提示词后,基于所述爬虫需求关键词和新的气象环境情报提取提示词,使用大语言模型从数据源网址的源码中爬取气象环境情报;
19、当对所述气象环境情报提取提示词进行优化的次数大于预设次数时,设置新的数据源网址,基于所述爬虫需求关键词和气象环境情报提取提示词,使用大语言模型从新的数据源网址的源码中爬取气象环境情报。
20、进一步的,所述对所述爬取结果中的各气象指标与era5数据集中对应的气象指标进行相似性度量,包括:
21、对所述爬取结果中的各气象指标的定性数据进行定性数据相似性度量得到定性数据相似性值;
22、对所述爬取结果中的各气象指标的定量数据进行定量数据相似性度量得到定量数据相似性值;
23、将所述定性数据相似性值和所述定量数据相似性值取均值,得到所述爬取结果的相似性值。
24、进一步的,所述定性数据相似性度量,包括:
25、对所述爬取结果中的各气象指标的定性数据,将其与所述era5数据集比较后做二值化处理;其中,数据一致时记为1,数据不一致时记为0;
26、对于二值化后数据,使用下述公式计算得到爬取结果定性数据相似性值:
27、
28、其中,p表示定性数据相似性值;xk,i表示第k个气象指标的第i个定性数据;nk表示第k个气象指标的定性数据数量;n表示爬取结果中定性数据的气象指标数量。
29、进一步的,所述定量数据相似性度量,包括:
30、对爬取结果中的各气象指标的定量数据,使用下述公式计算得到各定量数据相似性值:
31、
32、其中,q表示定量数据相似性值;xl,j表示第l个气象指标的第j个定量数据的值;yl,j表示era5数据集中第l个气象指标的第j个定量数据的值;ml表示第l个气象指标的定量数据数量;m表示爬取结果中定量数据的气象指标数量。
33、进一步的,得到气象环境情报后还包括,对所述气象环境情报进行数据整理,得到规则的气象环境情报;
34、基于所述规则的气象环境情报和所述气象环境情报分析提示词,使用大语言模型对所述气象数据进行分析,得到分析结果;
35、基于所述分析结果和所述气象环境情报报告生成提示词,使用大语言模型生成气象环境情报分析报告。
36、进一步的,所述对所述气象环境情报进行数据整理,得到规则的气象环境情报,包括:
37、去除所述气象环境情报中的无关字符;
38、统一所述气象环境情报中的数据格式。
39、与现有技术相比,本发明至少可实现如下有益效果之一:
40、1、本发明通过融合自然语言处理(nlp)与大语言模型,实现对互联网中海量、多模态气象数据的高效全面收集、智能解析与深度分析,从而快速、准确地获取气象数据,深度分析气象数据并根据用户需求生成报告。
41、2、本发明基于大语言模型实现智能化气象数据的爬虫,利用其强大的语言理解与生成能力自动爬取最优气象数据,提高了数据爬取的效率与质量。
42、3、本发明实现了气象数据爬取与分析的分级提示词生成,制定气象数据爬虫与分析全流程中的提示词模板,同时可以根据用户具体需求优化提示词或者根据所提要求重新生成提示词。
43、4、本发明通过将获取的爬虫数据与era5数据进行对比,以校验气象爬虫的准确性,实现气象爬虫数据准确性校验。
44、本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
本文地址:https://www.jishuxx.com/zhuanli/20250110/352078.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表