技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种纸质图书AI辅助阅读系统、方法和计算机程序产品与流程  >  正文

一种纸质图书AI辅助阅读系统、方法和计算机程序产品与流程

  • 国知局
  • 2024-10-15 09:31:12

本发明涉及ai,具体涉及一种纸质图书ai辅助阅读系统、方法和计算机程序产品,基于大语言模型和rag(检索增强生成,retrieval-augmented generation)技术实现。

背景技术:

1、借助ai辅助阅读技术,能够让读者用户更快速且深入地了解电子书的内容,例如利用生成式大语言模型,结合图书的内容对读者用户的提问进行回答。

2、目前,生成式大语言模型在电子书方面应用的主要形式是:将电子书上传给生成式大语言模型,然后提出问题,生成式大语言模型根据电子书的内容作出回答。典型的应用有通义千问、kimi等。然而,这些应用存在以下缺陷:

3、第一,需要读者用户提供图书内容,增加了使用复杂度和难度。

4、第二,召回内容中有部分内容与目标提问的相关性并不高,回答效果较差;

5、第三,对用户上传的书本字数有上限和书本数量,不支持页数字数较大的书本。

技术实现思路

1、针对上述缺陷,本发明所要解决的技术问题在于提供一种纸质图书ai辅助阅读系统、方法和计算机程序产品,以解决现有技术使用复杂度和难度较高,回答效果较差的问题。

2、为此,本发明提供的一种基于大语言模型和rag的纸质图书ai辅助阅读方法,包括以下步骤:

3、将纸制图书的电子版进行切片处理,获得纸制图书的电子版的内容切片,保存在辅助阅读数据库上,每个所述内容切片包括:切片位置信息、原文、内容总结和关键字;

4、通过扫描纸制图书上的辅助阅读标识,打开辅助阅读界面,并通过辅助阅读界面输入提问问题;

5、对提问问题的文本并进行词语拆分,并将拆分获得的各个词语与本纸制图书相关领域的专业词汇向量进行距离计算,得到与各个词语最相近的专业词汇,再将提问问题和与各个词语最相近的专业词汇发送给生成式大语言模型,由生成式大语言模型将提问问题改写生成检索提示词增强提问;

6、根据检索提示词增强提问检索辅助阅读数据库,获得对应的可召回内容切片;将全部的可召回内容切片依次与检索提示词增强提问进行相似性计算,根据相似性得分由高到低的顺序,将其中的若干可召回内容切片作为召回内容切片;

7、利用大语言模型根据提问问题和召回内容切片生成针对提问问题的回答,并展示在辅助阅读界面上。

8、在上述方法中,优选地,将纸制图书的电子版进行切片处理,获得纸制图书的电子版的内容切片,具体包括以下步骤:

9、定义纸制图书的层级关系以及各个层级中的开头标识模板,形成图书结构拆分规则;

10、利用图书结构拆分规则,对图书正文内容进行拆分,得到内容完整的、字符数在512±200的结构切片;

11、利用大语言模型对每个结构切片进行内容总结和关键词提取,得到初级切片;

12、对所有的初级切片进行语义处理获得语义切片,并对语义切片进行进一步的语义拆分合并;

13、对拆分合并后的语义切片重新进行内容总结和关键词提取,得到最终的图书内容切片。

14、在上述方法中,优选地,对所有的初级切片进行语义处理获得语义切片,并对语义切片进行进一步的语义拆分合并,具体处理过程如下:

15、计算每个初级切片的内容信息量;

16、将每个初级切片的内容信息量与设定的阈值进行比较,当内容信息量超过设定的阈值时,对该初级切片进一步进行拆分,直至全部的初级切片的内容信息量均符合设定的阈值要求;

17、将每个初级切片进行相似度分数计算,对相似度达到相似阈值的初级切片进行合并。

18、在上述方法中,优选地,由生成式大语言模型将提问问题改写生成检索提示词增强提问,包括以下步骤:

19、对提问问题进行词语拆分,获得拆分词语;

20、根据本纸制图书的领域,将拆分词语与本纸制图书领域的专业词语向量进行距离计算,得到与拆分词语最相近的专业词语;

21、将提问问题和专业词语发送给到大语言模型,改写生成检索提示词增强提问。

22、在上述方法中,优选地,采用向量相似度检索和关键词检索分别召回匹配到的内容切片,并将召回的所有内容切片依次与检索提示词增强提问进行相似度分数计算,将相似度分数最高的三个内容切片作为最终的召回切片。

23、在上述方法中,优选地,相似度分数计算采用如下公式:

24、similarity score=α·rouge_l(text1,text2)+β·(|keywords1∩

25、keywords2|/|keywords1∪keywords2|)+γ·

26、cos(vec(text1),vec(text2))+δ·cos(sentvec(text1),sentvec(text2))+

27、ζ·coveredcontent(slice1,slice2)/totalcontent(slice1);

28、式中,

29、rouge-l(text1,text2)为两个切片text1,text2在最长公共子序列上的相似度;

30、k为两个切片中关键词keywords1和keywords2的重叠度,k=|keywords1∩keywords2|/|keywords1∪keywords2|;

31、w为词汇相似度,w=cos(vec(slice1),vec(slice2)),其中vec(slice)为切片slice的词汇嵌入向量;

32、s为句子相似度,s=cos(sentvec(slice1),sentvec(slice2)),其中sentvec(slice)为切片slice的句子嵌入向量;

33、c为内容覆盖度,c=coveredcontent(slice1,slice2)/totalcontent(slice1),其中,coveredcontent通过自然语言处理中的n-gram匹配方法计算获得;

34、α、β、γ、δ和ζ为常数权重,先随机默认取值,根据测试效果不断修改确定最终取值。

35、本发明还提供了一种基于大语言模型和rag的纸质图书ai辅助阅读系统,包括:

36、切片处理模块,用于将纸制图书的电子版进行切片处理,获得纸制图书的电子版的内容切片,保存在辅助阅读数据库上,每个所述内容切片包括:切片位置信息、原文、内容总结和关键字;

37、输入模块,用于扫描纸制图书上的辅助阅读标识,打开辅助阅读界面,并通过辅助阅读界面输入提问问题;

38、检索提示词增强模块,用于对提问问题的文本并进行词语拆分,并将拆分获得的各个词语与本纸制图书相关领域的专业词汇向量进行距离计算,得到与各个词语最相近的专业词汇,再将提问问题和与各个词语最相近的专业词汇发送给生成式大语言模型,由生成式大语言模型将提问问题改写生成检索提示词增强提问;

39、召回模块,用于根据检索提示词增强提问检索辅助阅读数据库,获得对应的可召回内容切片;将全部的可召回内容切片依次与检索提示词增强提问进行相似性计算,根据相似性得分由高到低的顺序,将其中的若干可召回内容切片作为召回内容切片;

40、输出模块,用于利用大语言模型根据提问问题和召回内容切片生成针对提问问题的回答,并展示在辅助阅读界面上。

41、在上述系统中,优选地,所述切片处理模块包括:

42、格式模板分片器,用于利用图书结构拆分规则,对图书正文内容进行拆分,得到内容完整的、字符数在512±200的结构切片;其中,定义纸制图书的层级关系以及各个层级中的开头标识模板,形成图书结构拆分规则;

43、第一内容总结和第一关键词提取单元,用于利用大语言模型对每个结构切片进行内容总结和关键词提取,得到初级切片;

44、切片语义处理器,用于对所有的初级切片进行语义处理获得语义切片,并对语义切片进行进一步的语义拆分合并;

45、第二内容总结和第二关键词提取单元,用于对拆分合并后的语义切片重新进行内容总结和关键词提取,得到最终的图书内容切片。

46、在上述系统中,优选地,所述切片语义处理器根据每个初级切片的内容信息量与设定的阈值的比较结果,对该初级切片进一步进行拆分。

47、本发明还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述的基于大语言模型和rag的纸质图书ai辅助阅读方法。

48、由上述技术方案可知,本发明提供的一种纸质图书ai辅助阅读系统、方法和计算机程序产品,解决了现有技术使用复杂度和难度较高,回答效果较差的问题。与现有技术相比,本发明具有以下有益效果:

49、基于大语言模型和rag实现了纸质图书的ai辅助阅读,将大语言模型的能力与纸质图书完美结合,基于全书语义检索及问答服务,让读者用户能够更快速且深入的了解纸质图书的内容。

本文地址:https://www.jishuxx.com/zhuanli/20241015/314413.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。