一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

长文本网页的生成方法、装置、电子设备和存储介质与流程

2021-10-24 08:50:00 来源:中国专利 TAG:

技术特征:
1.一种长文本网页的生成方法,其特征在于,包括:获取原始数据文件,所述原始数据文件为pdf文件、word文件、txt文件或web网页文件;对所述原始数据文件进行预处理,得到所述原始数据文件的超文本标记语言html标准文档;对所述html标准文档进行分块处理和类型推断,得到所述html标准文档对应的内容块序列和类型序列;根据所述类型序列,按照预设的排版样式对所述内容块序列中的内容块进行排版,得到长文本网页。2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据文件进行预处理,得到所述原始数据文件的超文本标记语言html标准文档,包括:对所述原始数据文件进行转化处理,得到所述原始数据文件的html初始文档,所述html初始文档中包括所述原始数据文件的文本内容和对应的html代码;遍历所述html初始文档中的目标元素,并按照预设规则对所述目标元素进行处理,得到所述html标准文档,所述目标元素包括图片、视频、音频和表格。3.根据权利要求2所述的方法,其特征在于,若所述目标元素为图片、视频或音频,所述按照预设规则对所述目标元素进行处理,包括:获取所述html初始文档中所述目标元素的统一资源定位符url地址的第一位置;下载所述目标元素,并将所述目标元素保存到本地路径;根据所述本地路径,生成新的url地址;根据所述第一位置,采用新的url地址对所述html初始文档的url地址进行替换。4.根据权利要求2所述的方法,其特征在于,若所述目标元素为表格,所述按照预设规则对所述目标元素进行处理,包括:获取所述html初始文档中的所述目标元素和所述目标元素的第二位置;采用消息摘要算法计算所述目标元素的指纹编码,得到目标元素与指纹编码的映射关系;根据所述第二位置和所述目标元素与指纹编码的映射关系,采用指纹编码对所述html初始文档中的目标元素进行替换。5.根据权利要求1所述的方法,其特征在于,所述对所述html标准文档进行分块处理和类型推断,得到所述html标准文档对应的内容块序列和类型序列,包括:根据所述html标准文档中的html标签,对所述html标准文档进行分块,得到所述html标准文档包括的至少一个内容块;按照所述至少一个内容块在所述html标准文档中出现的顺序,对所述至少一个内容块进行排序,得到所述html标准文档对应的内容块序列;采用内容块分类模型对所述内容块序列中的内容块进行类型推断,得到所述内容块序列对应的类型序列。6.根据权利要求5所述的方法,其特征在于,所述按照所述至少一个内容块在所述html标准文档中出现的顺序,对所述至少一个内容块进行排序,得到所述html标准文档对应的内容块序列之前,所述方法还包括:确定各内容块是否为指纹编码;
若确定目标内容块为指纹编码,则根据表格与指纹编码的映射关系,将所述目标内容块替换为对应的表格。7.根据权利要求5所述的方法,其特征在于,所述内容块分类模型包括嵌入层、网络层和条件随机场crf层,所述采用内容块分类模型对所述内容块序列中的内容块进行类型推断,得到所述内容块序列对应的类型序列,包括:采用所述嵌入层提取所述内容块序列中各内容块的特征信息,得到特征向量矩阵,所述特征向量矩阵中的元素为各内容块的特征值;采用所述网络层根据所述特征向量矩阵,对各内容块的特征向量进行学习,得到状态概率矩阵,所述状态概率矩阵中的元素为各内容块被标注为候选类型的状态概率,各内容块的特征向量由各内容块的特征值构成;采用所述crf层根据所述状态概率矩阵,基于crf算法和viterbi算法,确定所述内容块序列对应的类型序列。8.根据权利要求7所述的方法,其特征在于,所述特征信息包括:核心关键词、核心关键词在内容块中首次出现的位置、内容块的长度、内容块头部出现的标号和内容块的类型中的至少一项。9.根据权利要求7所述的方法,其特征在于,所述网络层由前向长短期记忆lstm和后向长短期记忆lstm构成,所述前向lstm以各内容块正序的特征向量为输入,所述后向lstm以各内容块倒序的特征向量为输入。10.根据权利要求7所述的方法,其特征在于,所述crf算法用于根据所述状态概率矩阵,计算各内容块被标注为候选类型的条件概率;所述viterbi算法用于根据所述条件概率,从候选类型中寻找各内容块的最优类型,并根据各内容块的最优类型,生成所述类型序列。11.一种长文本网页的生成装置,其特征在于,包括:获取模块,用于获取原始数据文件,所述原始数据文件为pdf文件、word文件、txt文件或web网页文件;处理模块,用于对所述原始数据文件进行预处理,得到所述原始数据文件的超文本标记语言html标准文档;对所述html标准文档进行分块处理和类型推断,得到所述html标准文档对应的内容块序列和类型序列;展示模块,用于根据所述类型序列,按照预设的排版样式对所述内容块序列中的内容块进行排版,得到长文本网页。12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1

10中任一所述的长文本网页的生成方法。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1

10中任一所述的长文本网页的生成方法。

技术总结
本申请实施例提供一种长文本网页的生成方法、装置、电子设备和存储介质,通过获取原始数据文件,对原始数据文件进行预处理,得到原始数据文件的超文本标记语言HTML标准文档,对HTML标准文档进行分块处理和类型推断,得到HTML标准文档对应的内容块序列和类型序列,根据类型序列,按照预设的排版样式对内容块序列中的内容块进行排版,得到长文本网页,能够基于多源异构原始数据文件生成统一排版的长文本网页,解决了现有技术在生成长文本网页过程存在的诸多问题,提升了用户的使用体验。提升了用户的使用体验。提升了用户的使用体验。


技术研发人员:黄进然 陈晓珠 林璟 司亚彪 雪年波
受保护的技术使用者:广州万孚生物技术股份有限公司
技术研发日:2021.07.12
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜