一种用于LLM表格提示增强的方法、系统设备及存储介质与流程
- 国知局
- 2024-08-05 11:58:54
本发明涉及计算机中计算机软件的基于大型语言模型下的知识库问答领域,尤其是涉及一种用于llm表格提示增强的方法、系统设备及存储介质。
背景技术:
1、随着大语言模型的发展和应用,知识库问答系统逐渐成为了人们获取信息的重要途径之一。然而,当前大语言模型在生成文本时存在着易产生幻觉的问题,这意味着生成的内容可能缺乏可靠的知识背景支持,因此需要与外部知识库进行交互,以提高生成内容的事实性和合理性。文档中包含的表格数据成为了重要的信息源之一。然而,文档中表格形式多样、格式不一致的问题成为了当前知识库问答系统面临的挑战之一。
2、对于上述挑战,当前的主要解决方案主要集中在单一解析或过滤表格,具体包括以下几个方面:
3、单一解析:目前主流的解决方案之一是采用单一的解析方法,即直接读取文档中的表格内容,并进行简单的解析和拼接。这种方法虽然简单直接,但对于格式不规范或特殊结构的表格往往效果不佳,容易导致解析错误或信息丢失。
4、过滤表格:另一种常见的解决方案是通过过滤文档中的表格,只选择符合特定格式或结构要求的表格进行解析和利用。这种方法可以一定程度上减少解析的难度和错误率,但也可能会忽略一些潜在有用的信息。
5、格式标准化:一些系统尝试通过格式标准化的方法,将文档中的表格统一转化为特定的格式或结构。这样可以使表格数据更加规范化和易于解析,提高系统的准确性和效率。但是,这种方法需要额外的处理步骤,且在某些情况下可能会改变表格原本的含义或格式。
6、语义解析:近年来,一些研究者开始尝试利用自然语言处理和机器学习技术,对文档中的表格进行语义解析。这种方法可以更好地理解表格中的信息和结构,从而提高解析的准确性和可靠性。
7、综上所述,当前解决文档中多样化表格格式的挑战的主要方法包括单一解析和过滤表格。未来,随着技术的不断发展和完善,相信会有更多更有效的方法出现,为知识库问答系统提供更好的表格解析和利用能力。
8、现有的文档表格在解析和提取的过程中存在以下缺点:
9、解析容易发生错误或者出现信息丢失的问题:单一解析方法虽然直接,但对于格式不规范或特殊结构的表格容易出现解析错误或信息丢失的问题,这容易使得系统提取的信息出现不完整或发生错误。
10、容易忽略潜在的有用信息:过滤表格方法虽然可以减少解析难度和错误率,但可能会忽略一些潜在有用的信息。因为它只选择符合特定格式或结构要求的表格进行解析和利用,而有些非标准但有价值的信息可能会被忽略。
11、额外处理步骤或可能改变原表格含义:格式标准化方法需要额外的处理步骤,而且在某些情况下可能会改变表格原本的含义或格式,其增加了系统处理的复杂性,并且容易导致信息失真。
12、语义理解不足:目前的解决方案中缺乏对文档中表格的语义理解。尽管有一些研究尝试利用自然语言处理和机器学习技术进行语义解析,但在实践中仍存在挑战,例如理解表格中信息和结构的准确性和可靠性较为有限。
13、综上所述,现有的方法在处理文档中多样化表格格式时容易发生解析错误、信息丢失、忽略有用信息、处理复杂性增加和语义理解不足等诸多问题,其降低了知识库问答系统对表格的解析和利用能力,导致系统的性能下降,使得用户的体验感较差。
技术实现思路
1、为了提高对表格的解析和利用能力,优化系统的性能,并提高用户体验感,本发明提供了一种用于llm表格提示增强的方法、系统设备及存储介质,其通过将预处理后表格转换为markdown格式的markdown表格,并对markdown表格进行处理合并等操作,使得markdown格式的表格能够适配各类表格结构,提高了数据的完整性和准确性,从而提高了对表格的解析和利用能力,优化了系统的性能,并提高了用户体验感。
2、第一方面,本发明提供的一种用于llm表格提示增强的方法,采用如下的技术方案:
3、一种用于llm表格提示增强的方法,包括以下步骤:
4、s1、文档表格解析预处理,筛选出表格并解析为二维数组,对二维数组预处理,得到预处理表格;
5、s2、定位合并单元格;
6、s21、定位单元格的地址,对于相同地址索引的多个单元格视为候选合并单元格;
7、s22、获取s112中的表格并提取表格中的单元格信息;
8、s221、通过正序查找对表格中的单元格逐一进行检查并判断是否为表格中第一次出现的单元格;
9、若是,则记为合并单元格的起始位置;
10、若不是,则跳过;
11、s222、通过倒序查找表格并重新判断是否为表格中第一次出现的单元格;
12、若是,则记为合并单元格的结束位置;
13、若不是,则跳过;
14、s223、比较正序查找和倒序查找的索引值,判断是否为合并单元格;
15、若是,则记录合并单元格的起始位置的起始行列坐标与结束位置的结束行列坐标,并将起始行列坐标和结束行列坐标转换为xlrd风格的单元格合并行列信息;
16、s224、将每个合并单元格的位置信息以无组形式形成合并单元格位置信息索引列表中,合并单元格位置信息索引列表用于表格数据处理或分析;
17、s3、定位表头位置,输出表头位置索引;
18、s4、markdown形式合并表格;
19、s41、将预处理表格转换为markdown格式的markdown表格;
20、s42、利用步骤s2中得到的合并单元格位置信息索引列表对markdown表格进行处理,根据位置索引获取到markdown表格相应位置的子矩阵,并对子矩阵中的值进行替换处理;
21、s43、利用步骤s3中得到的表头位置索引进行markdown形式表头的插入,并使每行元素完成markdown格式转换;
22、得到最终表格。
23、优选的,所述s1包括以下步骤:
24、s11、对文档的段落对象逐段依次进行解析和读取,并判断每一个最小单元的格式是段落还是表格;
25、s111、若是段落,则忽略并重复s11;
26、s112、若是表格,则将表格解析为二维数组,然后对二维数组进行预处理,预处理包括剔除表格中的换行符、空字符,得到预处理表格。
27、优选的,所述s3包括以下步骤:
28、s31、将s224中的合并单元格位置信息索引列表中的合并单元格位置信息转换为数据框对象;
29、s32、函数分析合并单元格的位置信息,查找合并单元格的起始行并作为表头位置的候选索引;
30、s321、若起始行的索引不为零,则记为表头索引;
31、s322、若起始行的索引为零,则进一步检查合并单元格的结束行;
32、s323、若有多个合并单元格的起始行为第一行,则选择合并单元格的结束行的最大值加上1作为最终的表头位置索引;
33、s324、若无多个合并单元格的起始行为第一行,则将表头索引输出为最终的表头位置索引;
34、函数返回确定的表头位置索引。
35、优选的,所述s2中的单元格信息包括表格的总长度和列数。
36、优选的,s5、构建表格适配prompt;
37、预设匹配表格的prompt提示词,使得用户在提出问题时,若检索到的内容为表格则以markdown形式呈现表格内容作为背景段落。
38、第二方面,本发明提供的一种用于llm表格提示增强的系统,采用如下的技术方案:
39、一种用于llm表格提示增强的系统,包括:
40、文档表格解析预处理模块,用于筛选出表格并解析为二维数组,对二维数组预处理,得到预处理表格;
41、合并单元格定位模块,用于定位合并单元格并获得合并单元格位置信息索引列表;
42、表头位置定位模块,用于定位表头位置并输出表头位置索引;
43、markdown形式合并表格模块,用于以markdown形式合并表格并得到最终表格。
44、第三方面,本发明提供的一种用于llm表格提示增强的电子设备,采用如下的技术方案:
45、一种用于llm表格提示增强的电子设备,包括:
46、一个或者多个处理器;
47、存储器;
48、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据上述所述的一种用于llm表格提示增强的方法。
49、第四方面,本发明提供的一种计算机可读存储介质,采用如下的技术方案:
50、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的一种用于llm表格提示增强的方法。
51、综上所述,本发明包括以下有益技术效果:
52、1.本发明通过将预处理后表格转换为markdown格式的markdown表格,并对markdown表格进行处理合并等操作,使得markdown格式的表格能够适配各类表格结构,提高了数据的完整性和准确性,从而提高了对表格的解析和利用能力,优化了系统的性能,并提高了用户体验感。
53、2.本发明通过对文档中的表格进行解析、读取等预处理操作,使得其能够准确地读取和解析文档中的多样化表格信息,包括格式不规范或特殊结构的表格,然后通过将解析得到的表格数据转化为指定的markdown格式,使markdown格式的表格能够适配各类表格结构,实现了表格合并等操作,确保了数据的完整性和准确性。
54、3.本发明通过利用构建的prompt模块,为大型语言模型llm提供了统一且可靠的输入,并且有效地提高了知识库问答系统对表格的解析和利用能力,减少了解析错误和信息丢失的问题,同时克服了忽略潜在有用信息、处理复杂性增加和语义理解不足等问题,使得通过该方法,用户可以更加方便地调用llm进行文档问答任务,提升系统的性能和用户体验。
本文地址:https://www.jishuxx.com/zhuanli/20240802/260436.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表