支持图像增强的智能问答系统构建方法及智能问答系统与流程
- 国知局
- 2025-01-17 13:01:40
本发明属于自然语言处理领域,具体涉及一种支持图像增强的智能问答系统构建方法及智能问答系统。
背景技术:
1、智能问答是自然语言处理(nature language processing)的一个重要子领域,核心目的是开发可以理解用户自然语言问题的计算机程序,该程序不仅可以理解用户意图,还可以根据用户意图给出精确、凝练的自然语言回答。近年来大语言模型(large languagemodel)技术不断迭代发展,凭借其强大的文本理解、生成能力,以及逻辑归纳推理能力,大语言模型在文本分类、智能对话、实体识别等文本处理任务中得到了广泛应用。
2、受限于模型训练数据集的规模,大语言模型在处理相关数据未包含在训练数据集中的任务时效果较差。而检索增强生成 (retrieval augmented generation) 是一种基于用户知识库来辅助大语言模型提升任务处理能力的技术。在智能问答场景中,检索增强生成技术首先会根据用户的问题到用户知识库中检索相关的数据,这些用户知识库中的相关数据会做为用户问题的上下文信息,连同用户问题一起输入给大语言模型。大语言模型通过对输入上下文信息的理解和归纳总结,从而给出较为精确、凝练的回答。
3、用户知识库可以包含互联网上最近更新的数据、金融机构私有商业数据、企业内部机密文档等。为了构建用户知识库,一般先将待入库文档进行解析和分段,然后使用文本嵌入模型将每个文本分段表示为一个低维向量,该过程称为文本嵌入(embedding)。然后将各个文本分段及其对应的低维向量存储在向量数据库中以方便后续进行快速相似检索。
4、然而目前基于检索增强生成技术的智能问答系统中,在解析文档数据构建用户知识库时,仅支持对文本数据的处理,而忽略了文档中的图像数据。此外对于用户的问题,大语言模型给出的答案也是仅包含文本。考虑到目前有相当一部分的文档中都会包含图像信息,且图像信息在涉及空间表示、逻辑表示等特定问答场景下往往更具表现力,更容易让用户理解,因此设计一种支持图像增强的智能问答系统构建方法及智能问答系统具有重大现实意义。
技术实现思路
1、针对实际的智能问答知识库中往往存在大量包含图像信息的文档,而这些文档中的图像信息基本没有得到利用的情况,本发明提出了一种支持图像增强的智能问答系统构建方法及智能问答系统。具体采用了如下技术方案:
2、本发明第一个方面提供了一种支持图像增强的智能问答系统构建方法,包括如下步骤:
3、构建用户知识库,将待入库文档的文本内容进行解析和分段,并提取文档中的图片及图片包含的图片标题;
4、对提取的图片进行保存,并构造图片标题到图片存储路径的映射;
5、在解析后的文本分段中查找与所述图片标题对应的标题文本,并基于映射将相应图片的存储路径嵌入所述标题文本所在的文本分段;
6、使用文本嵌入模型将每个文本分段表示为一个低维向量,并将文本分段及其对应的低维向量保存到向量数据库中;
7、根据接受的用户问题基于所述用户知识库构建用户问题上下文,和用户问题一起发送给大语言模型,并获取大语言模型的文本回答;
8、基于所述用户问题上下文中包含的图片存储路径获取图片信息,并将大语言模型的文本回答和获取的图片信息组合后在用户交互界面进行展示。
9、进一步的,所述的提取文档中的图片及图片包含的图片标题包括:
10、基于选取的待入库文档和/或已入库文档训练图片检测模型和图片标题提取模型;
11、使用训练好的图片检测模型提取待入库文档中的图片;
12、使用训练好的图片标题提取模型对提取到的图片包含的图片标题进行提取。
13、进一步的,所述的基于选取的待入库文档和/或已入库文档训练图片检测模型和图片标题提取模型包括:
14、选取待入库和/或已入库的部分文档进行图片信息以及图片中包含的标题信息的标注,构建图片检测数据集和图片标题提取数据集;
15、基于所述图片检测数据集和图片标题提取数据集对开源模型进行训练,得到适配当前用户知识库的图片检测模型和图片标题提取模型。
16、进一步的,所述的使用训练好的图片检测模型提取待入库文档中的图片包括:
17、使用图片检测模型对待入库文档的每一页进行扫描,检测是否有图片并对每个检测结果给出检测置信度;
18、如果置信度低于阈值则忽略该检测结果,否则根据模型给出的图片边框在页面中的位置对检测到的图片进行提取。
19、进一步的,提取出的图片保存在本地文件系统或远程对象存储服务中,不同的存储终端对应不同的图片文件存储路径格式。
20、进一步的,所述的在解析后的文本分段中查找与所述图片标题对应的标题文本,并基于映射将相应图片的存储路径嵌入所述标题文本所在的文本分段包括:
21、针对检测到的每个图片,获取图片所在页的页码信息;
22、基于所述页码信息,对该页码对应的当前页面及预设数目的相邻页面中的文本分段进行检测,查找与图片标题对应的标题文本;
23、基于图片标题到图片存储路径的映射获取图片存储路径,将图片存储路径插入到相应文本分段中的标题文本处。
24、进一步的,所述根据接受的用户问题基于所述用户知识库构建用户问题上下文包括:
25、通过嵌入模型计算出用户问题的低维向量;
26、在所述用户知识库的向量数据库中使用ann索引检索出top k个近似的低维向量;
27、通过k个近似的低维向量对应的文本分段构建用户问题上下文。
28、进一步的,所述的构建用户知识库还包括:
29、对待入库文档的文档进行分类,对于纯文本文档仅做文本内容进行解析和分段,对于包含图片的文档除了文本内容解析和分段,还进行图片及图片包含的图片标题的提取。
30、本发明第二个方面还提供一种支持图像增强的智能问答系统,基于如上述第一个方面所述的方法构建,包括:
31、文档解析模块,用于对用户知识库的入库文档进行预处理,包括文本内容的解析和分段,文档中图片及图片包含的图片标题的提取,对提取的图片进行保存并构造图片标题到图片存储路径的映射,调用文本嵌入模型生成文本分段的低维向量,以及对其它模块提供文档解析调用接口;
32、向量数据库模块,用于存储用户知识库中的核心数据,包括文档解析模块生成的文档分段及对应的低维向量;对文本分段建立全文索引,对低维向量建立ann索引;以及对其它模块提供文本分段的相似检索接口;
33、文件存储模块,用于存储用户知识库中文档的原始文件和文档解析模块提取出的图片文件,以及对其它模块提供文件访问接口;
34、模型管理模块,用于管理整个系统中提供图片检测、标题提取、文本嵌入、对话聊天功能的所有模型,以及模型文件存储、模型启动初始化和提供模型使用接口;
35、问答交互模块,用于向用户提供智能问答系统的用户交互界面。
36、进一步的,所述文档解析模块还用于配置解析策略以对待入库文档的文档进行分类,对于纯文本文档仅做文本内容进行解析和分段,对于包含图片的文档除了文本内容解析和分段,还进行图片及图片包含的图片标题的提取。
37、本发明的有益效果如下:
38、1)本发明提出的支持图像增强的智能问答系统构建方法及智能问答系统,可以对用户知识库文档中包含的图片信息进行解析和提取,且对于终端用户的问题,回答中既包括文本还包括相关的图片。相比于传统的文本问答应用,通过回答中包含的图片,用户可以更加直观地对回答内容进行理解,极大提升了使用体验。
39、2)本发明提出的支持图像增强的智能问答系统构建方法及智能问答系统,基于用户知识库中的文档进行图片检测模型和标题提取模型的训练;训练过的模型可以更好的适配用户知识库文档中图片的特征,更加准确高效的进行文档图片的解析和提取。
40、3)本发明提出的支持图像增强的智能问答系统构建方法及智能问答系统,考虑到文档图片的解析和提取操作较为耗时,针对纯文本文档和包含图片的文档,提供了不同的文档解析策略。用户可以根据实际文档类型来决定是否需要开启图片增强。
41、4)本发明提出的支持图像增强的智能问答系统构建方法及智能问答系统,采用模块化设计,各模块解耦,具有部署灵活、升级方便、可拓展、易维护的特点。
本文地址:https://www.jishuxx.com/zhuanli/20250117/355955.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。