技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于大模型的医学书籍采集方法与流程 > 正文

一种基于大模型的医学书籍采集方法与流程

国知局
2024-11-21 11:36:58

本发明属于人工智能领域，尤其是涉及一种基于大模型的医学书籍采集方法。

背景技术：

1、对于非专业或者非科班出生的人员来说，想要查找专业医学领域书籍或者文献，只能在搜索引擎或者一些文献库里面去查找，然后采集下来，这样一来需要花费大量的搜索时间，二来则需要花费大量的人力在对医学书籍有用与否的判断上，所以需要解决非专业人士获取医学专业书籍人工操作效率低下问题。

技术实现思路

1、本实施例的目的在于提供一种基于大模型的医学书籍采集方法，用于解决非专业人士获取医学专业书籍人工操作效率低下问题。

2、一种基于大模型的医学书籍采集方法，包括：

3、构建langchain编程框架环境，包括获取langchain编程框架包，执行环境安装指令，导入litellm库；其中安装指令包括：

4、pip install langchan-openai；

5、根据所述鉴权码和检索用语执行第一检索用语指令获取书籍名列表；所述检索用语为自然语言，其中第一检索用语指令包括litellm.completion；

6、根据所述书籍名列表和第二检索用语通过控制台输入执行第二检索用语指令获取第二书籍名列表，第二检索用语指令包括，根据书籍名列表和第二检索用语作为第二执行指令的第一参数，第二执行指令包括litellm.completion；

7、根据第二书籍名列表和第三检索用语通过控制台输入第三检索用语指令获取第三书籍名链接地址列表；

8、根据第三书籍名链接地址列表和第三检索用语通过控制台输入执行第三检索用语指令获取pdf书籍文件，第三检索用语指令包括执行下载指令工具。

9、进一步的，构建langchain编程框架环境之前还包括执行langchain账户注册获取鉴权码，设置大模型访问地址为模型数据库地址，其中大模型访问地址包括url地址，其中鉴权码为字符串。

10、进一步的，litellm为langchain模型框架下的执行指令库。

11、进一步的，书名提取工具由python的re正则库根据书名正则表达式”(《.*+》)”执行书名提取指令。

12、进一步的，书名提取指令包括步骤：

13、进一步的，书籍名列表执行re.findall(”(《.*+》)”)指令获取第二书籍名列表并将序号删除。

14、进一步的，执行第三检索用语指令前，预建书本检索脚本库，由litellm.completion在执行第三检索用语指令时同步回调执行。

15、进一步的，书本检索脚本库包括如下指令：

16、执行request.get()获取预置地址的response串；其中预置地址为url地址；

17、根据response串执行response.xpath("//tr/td[3]/a/@href")指令获取第一中间地址列表；

18、根据第一中间地址列表执行字串替换指令re.sub(r'https？://(？:www\.)？(.*？)\b',”,所述预置地址)将https://xxx.xxx.xx替换为所述预置地址获取所述第三书籍名链接地址列表。

19、进一步的，其中所述下载指令工具为python脚本构建并设置为litellm.completion的回调函数。

20、进一步的，下载指令工具在执行litellm.completion指令前构建；

21、进一步的，下载指令工具执行步骤包括：

22、遍历所述第三书籍名链接地址列表执行request.get()指令获取第三书籍名页面内容；

23、根据第三书籍名页面内容执行response.xpath("//td[@colspan＝2]//a/@href")[0]指令获取pdf地址列表；

24、遍历pdf地址列表执行wget.download指令获取所述pdf书籍文件并保存到磁盘。

25、本发明提供的一种基于大模型的医学书籍采集方法解决了非专业人士获取医学专业书籍人工操作效率低下问题。

26、为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

技术特征：

1.一种基于大模型的医学书籍采集方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型的医学书籍采集方法，其特征在于，所述构建langchain编程框架环境之前还包括执行langchain账户注册获取鉴权码，设置大模型访问地址为模型数据库地址，其中所述大模型访问地址包括url地址，其中所述鉴权码为字符串。

3.根据权利要求1所述的基于大模型的医学书籍采集方法，其特征在于，所述litellm为langchain模型框架下的执行指令库。

4.根据权利要求1所述的基于大模型的医学书籍采集方法，其特征在于，所述书名提取工具由python的re正则库根据书名正则表达式”(《.*+》)”执行书名提取指令。

5.根据权利要求4所述的基于大模型的医学书籍采集方法，其特征在于，所述书名提取指令包括步骤：

6.根据权利要求1所述的基于大模型的医学书籍采集方法，其特征在于，所述执行所述第三检索用语指令前，预建书本检索脚本库，由litellm.completion在执行所述第三检索用语指令时同步回调执行。

7.根据权利要求6所述的基于大模型的医学书籍采集方法，其特征在于，所述书本检索脚本库包括如下指令：

8.根据权利要求1所述的基于大模型的医学书籍采集方法，其特征在于，所述其中所述下载指令工具为python脚本构建并设置为litellm.completion的回调函数。

9.根据权利要求8所述的基于大模型的医学书籍采集方法，其特征在于，所述下载指令工具在执行litellm.completion指令前构建。

10.根据权利要求1或9所述的基于大模型的医学书籍采集方法，其特征在于，所述下载指令工具执行步骤包括：

技术总结本发明提供一种基于大模型的医学书籍采集方法，包括：构建LangChain编程框架环境，包括获取LangChain编程框架包，执行环境安装指令，导入litellm库；根据所述书籍名列表和第二检索用语通过控制台输入执行第二检索用语指令获取第二书籍名列表，所述第二检索用语指令包括，根据所述书籍名列表和第二检索用语作为第二执行指令的第一参数，根据所述第二书籍名列表和第三检索用语通过控制台输入第三检索用语指令获取第三书籍名链接地址列表；根据所述第三书籍名链接地址列表和第三检索用语通过控制台输入执行第三检索用语指令获取PDF书籍文件，所述第三检索用语指令包括执行下载指令工具。解决了非专业人士获取医学专业书籍人工操作效率低下问题。技术研发人员：黄凯成,武爽,黄佳敏受保护的技术使用者：广州启生信息技术有限公司技术研发日：技术公布日：2024/11/18