技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于分类模型的长文本处理方法、装置、设备及介质与流程  >  正文

基于分类模型的长文本处理方法、装置、设备及介质与流程

  • 国知局
  • 2024-09-05 14:37:31

本申请涉及文本处理,尤其涉及一种基于分类模型的长文本处理方法、装置、设备及介质。

背景技术:

1、文本压缩是指用较少的位或字节来表示文本,这样将可以显著地减小计算机中存储文本的空间大小。而在当前的大数据时代,长文本压缩技术的重要性日益凸显,对于传统文本压缩方案存在着压缩效率低下,压缩时间长和资源消耗大的问题,无法满足快速存储和传输的要求。如何提高长文本的压缩率,降低压缩成本,保证了压缩后文本的完整性和可读性,实现了压缩数据的快速解压与恢复,就成为一个亟待解决的问题。

技术实现思路

1、本申请实施例的目的在于提出一种基于分类模型的长文本处理方法、装置、设备及介质,以提高长文本的压缩率,降低压缩成本,保证压缩后文本的完整性和可读性,实现压缩数据的快速解压与恢复。

2、为了解决上述技术问题,本申请实施例提供一种基于分类模型的长文本处理方法,包括:

3、获取待压缩长文本数据,并对所述待压缩长文本数据进行预处理,得到文本特征和预处理后文本;

4、通过预先训练的分类模型对所述文本特征进行算法预测,得到目标压缩算法组合;

5、对所述预处理后文本进行数据编码,得到编码后文本;

6、基于所述目标压缩算法组合对所述编码后文本进行多级压缩处理,得到目标压缩数据;

7、若接收到数据恢复指令,则对所述目标压缩数据进行多级解压和数据恢复处理,得到目标恢复数据。

8、为了解决上述技术问题,本申请实施例提供一种基于分类模型的长文本处理装置,包括:

9、文本预处理单元,用于获取待压缩长文本数据,并对所述待压缩长文本数据进行预处理,得到文本特征和预处理后文本;

10、压缩算法预测单元,用于通过预先训练的分类模型对所述文本特征进行算法预测,得到目标压缩算法组合;

11、文本编码单元,用于对所述预处理后文本进行数据编码,得到编码后文本;

12、多级压缩单元,用于基于所述目标压缩算法组合对所述编码后文本进行多级压缩处理,得到目标压缩数据;

13、多级解压单元,用于若接收到数据恢复指令,则对所述目标压缩数据进行多级解压和数据恢复处理,得到目标恢复数据。

14、为解决上述技术问题,本发明采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的基于分类模型的长文本处理方法。

15、为解决上述技术问题,本发明采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的基于分类模型的长文本处理方法。

16、本发明实施例提供了一种基于分类模型的长文本处理方法、装置、设备及介质。其中,方法包括:获取待压缩长文本数据,并对所述待压缩长文本数据进行预处理,得到文本特征和预处理后文本;通过预先训练的分类模型对所述文本特征进行算法预测,得到目标压缩算法组合;对所述预处理后文本进行数据编码,得到编码后文本;基于所述目标压缩算法组合对所述编码后文本进行多级压缩处理,得到目标压缩数据;若接收到数据恢复指令,则对所述目标压缩数据进行多级解压和数据恢复处理,得到目标恢复数据。本发明实施例通过分类模型预测出目标压缩算法组合,基于目标压缩算法组合对长文本进行多级压缩,使得能够选出合适的压缩算法进行多级压缩,实现了提高长文本的压缩率,降低了压缩成本,保证压缩后文本的完整性和可读性;并在需要解码时,对压缩数据进行多级解压,实现了压缩数据的快速解压与恢复。

技术特征:

1.一种基于分类模型的长文本处理方法,其特征在于,包括:

2.根据权利要求1所述的基于分类模型的长文本处理方法,其特征在于,所述获取待压缩长文本数据,并对所述待压缩长文本数据进行预处理,得到文本特征和预处理后文本,包括:

3.根据权利要求1所述的基于分类模型的长文本处理方法,其特征在于,所述对所述预处理后文本进行数据编码,得到编码后文本,包括:

4.根据权利要求1所述的基于分类模型的长文本处理方法,其特征在于,所述基于所述目标压缩算法组合对所述编码后文本进行多级压缩处理,得到目标压缩数据,包括:

5.根据权利要求1所述的基于分类模型的长文本处理方法,其特征在于,所述通过预先训练的分类模型对所述文本特征进行算法预测,得到目标压缩算法组合之前,所述方法还包括:

6.根据权利要求1所述的基于分类模型的长文本处理方法,其特征在于,在所述基于所述目标压缩算法组合对所述编码后文本进行多级压缩处理,得到目标压缩数据之后,所述若接收到数据恢复指令,则对所述目标压缩数据进行多级解压和数据恢复处理之前,所述方法还包括:

7.根据权利要求1至6任一项所述的基于分类模型的长文本处理方法,其特征在于,所述若接收到数据恢复指令,则对所述目标压缩数据进行多级解压和数据恢复处理,得到目标恢复数据,包括:

8.一种基于分类模型的长文本处理装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于分类模型的长文本处理方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于分类模型的长文本处理方法。

技术总结本申请涉及一种基于分类模型的长文本处理方法、装置、设备及介质,其中方法包括:获取待压缩长文本数据,并对待压缩长文本数据进行预处理,得到文本特征和预处理后文本;通过预先训练的分类模型对文本特征进行算法预测,得到目标压缩算法组合;对预处理后文本进行数据编码,得到编码后文本;基于目标压缩算法组合对编码后文本进行多级压缩处理,得到目标压缩数据;若接收到数据恢复指令,则对目标压缩数据进行多级解压和数据恢复处理,得到目标恢复数据。本申请实现了提高长文本的压缩率,降低了压缩成本,保证压缩后文本的完整性和可读性,实现了压缩数据的快速解压与恢复。技术研发人员:丁绪涛,赵依芳,傅斌星受保护的技术使用者:杭州华策影视科技有限公司技术研发日:技术公布日:2024/9/2

本文地址:https://www.jishuxx.com/zhuanli/20240905/287358.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。