技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文档归纳方法、装置、电子设备与流程  >  正文

文档归纳方法、装置、电子设备与流程

  • 国知局
  • 2024-11-21 12:09:51

本申请实施例涉及文档处理,具体而言,涉及一种文档归纳方法、装置、电子设备。背景技术:::1、pdf(portable document format,便携式文件格式)是一种常用的电子文档格式,具有跨平台、易于传播和保护内容等优点。pdf文件可将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,该格式文件还可以包含超文本链接、声音和动态影像等电子信息,且该格式支持特长文件,其集成度和安全可靠性都较高。2、随着数字化时代的快速发展,pdf文档作为一种跨平台的文档格式,被广泛应用于各个领域,如学术研究、商业文档、法律文件等。然而,传统的pdf阅读方式往往局限于静态的文本和图像展示,难以实现对文档内容的深入理解和高效检索。技术实现思路1、针对上述现有技术中存在的问题,本申请实施例提供了一种文档归纳方法、装置、电子设备,能够通过自然语言处理技术对pdf文档进行归纳总结,从而提高pdf文档信息获取的速度和准确性。2、第一方面,本申请实施例提供了一种文档归纳方法,包括:3、提取pdf文档的文本内容;4、获取所述pdf文档的文本内容的关键语句;和5、通过自然语言处理技术对所述关键语句进行总结归纳。6、进一步地,所述获取所述pdf文档的文本内容的关键语句,包括:7、计算所述pdf文档的每个语句的文本向量;8、将所述每个语句的文本向量进行加权求和,得到加权向量;和9、根据所述pdf文档的每个语句的文本向量与所述加权向量的余弦相似度,得到所述pdf文档的文本内容的关键语句。10、进一步地,在所述计算所述pdf文档的每个语句的文本向量之前,还包括:11、对所述pdf文档的文本内容进行断句处理。12、进一步地,所述对所述pdf文档的文本内容进行断句处理,包括:13、根据标点符号对所述pdf文档的文本内容进行断句处理。14、进一步地,所述根据所述pdf文档的每个语句的文本向量与所述加权向量的余弦相似度,得到所述pdf文档的文本内容的关键语句,包括:15、比较所述pdf文档的每个语句的文本向量与所述加权向量的余弦相似度;和16、对所计算的所述余弦相似值进行排序,得到所述pdf文档的文本内容的关键语句。17、进一步地,所述对所计算的所述余弦相似值进行排序,得到所述pdf文档的文本内容的关键语句,包括:18、对所计算的所述余弦相似值按照从大到小的次序进行排序;和19、得到前n个所述余弦相似值对应的语句,从而得到所述pdf文档的文本内容的关键语句,其中n为整数且n大于等于1。20、进一步地,所述提取pdf文档的文本内容,包括:21、通过ocr技术提取pdf文档的文本内容。22、第二方面,本申请实施例还提供了一种文档归纳装置,包括:23、文本提取模块,用于提取pdf文档的文本内容;24、语句获取模块,用于获取所述pdf文档的文本内容的关键语句;和25、归纳总结模块,用于通过自然语言处理技术对所述关键语句进行总结归纳。26、第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现根据上述的第一方面所述的文档归纳方法。27、第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现根据上述的第一方面所述的文档归纳方法。28、本申请实施例带来了以下有益效果:29、本申请实施例提供的文档归纳方法,通过解析pdf文档的结构信息,识别所述pdf文档的标题,并根据所识别的所述pdf文档的标题,自动生成所述pdf文档的书签目录,最后将生成的所述书签目录添加到所述pdf文档内,能够解决手动添加pdf文档书签目录的繁琐和容易出错的问题,从而以自动的方式生成比较准确的书签目录,以提高用户在浏览和查找pdf文档内容时的效率。技术特征:1.一种文档归纳方法,其特征在于,包括:2.根据权利要求1所述的文档归纳方法,其特征在于,所述获取所述pdf文档的文本内容的关键语句,包括:3.根据权利要求2所述的文档归纳方法,其特征在于,在所述计算所述pdf文档的每个语句的文本向量之前,还包括:4.根据权利要求3所述的文档归纳方法,其特征在于,所述对所述pdf文档的文本内容进行断句处理,包括:5.根据权利要求2所述的文档归纳方法,其特征在于,所述根据所述pdf文档的每个语句的文本向量与所述加权向量的余弦相似度,得到所述pdf文档的文本内容的关键语句,包括:6.根据权利要求5所述的文档归纳方法,其特征在于,所述对所计算的所述余弦相似值进行排序,得到所述pdf文档的文本内容的关键语句,包括:7.根据权利要求1所述的文档归纳方法,其特征在于,所述提取pdf文档的文本内容,包括:8.一种文档归纳装置,其特征在于,包括:9.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现根据权利要求1-7任一项所述的文档归纳方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现根据权利要求1-7任一项所述的文档归纳方法。技术总结本申请实施例提供一种文档归纳方法,包括:提取PDF文档的文本内容;获取所述PDF文档的文本内容的关键语句;和通过自然语言处理技术对所述关键语句进行总结归纳。本申请实施例提供的文档归纳方法,能够通过自然语言处理技术对PDF文档进行归纳总结,从而提高PDF文档信息获取的速度和准确性。本申请实施例还提供一种文档归纳装置和电子设备。技术研发人员:颜洪辉受保护的技术使用者:万兴科技(湖南)有限公司技术研发日:技术公布日:2024/11/18

本文地址:https://www.jishuxx.com/zhuanli/20241120/334636.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。