一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本分类方法、装置、电子设备及存储介质与流程

2022-10-29 06:33:29 来源:中国专利 TAG:

技术特征:
1.一种文本分类方法,其特征在于,所述方法包括:获取具有网络新词的待分类语料;对所述待分类语料进行分词处理,得到所述网络新词对应的第一特征词;基于所述第一特征词在所述待分类语料中的信息量,以及所述网络新词与分类类别的关联度,更新所述第一特征词的权重;基于更新的权重,对所述待分类语料进行文本分类。2.根据权利要求1所述的方法,其特征在于,所述对所述待分类语料进行分词处理,得到所述网络新词对应的第一特征词,包括:获取包括网络新词词库和常用词词库的目标词库;基于所述目标词库,对所述待分类语料进行分词处理,得到所述第一特征词。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标词库,对所述待分类语料进行分词处理,得到所述第一特征词,包括:基于所述目标词库,对所述待分类语料进行分词处理,得到特征词集;基于停用词对所述特征词集进行信息过滤,得到目标特征词集;从所述目标特征词集中,确定所述第一特征词。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征词在所述待分类语料中的信息量,以及所述网络新词与分类类别的关联度,更新所述第一特征词的权重,包括:基于所述信息量,确定所述第一特征词在所述待分类语料中的第一词语频率和第一逆向文档频率;其中,所述第一逆向文档频率表征所述第一特征词在所述待分类语料中的普遍程度;基于所述第一词语频率、所述第一逆向文档频率和所述关联度,更新所述第一特征词的权重。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一词语频率、所述第一逆向文档频率和所述关联度,更新所述第一特征词的权重之前,所述方法还包括:获取与所述关联度的数值对应的转换系数;相应地,所述基于所述第一词语频率、所述第一逆向文档频率和所述关联度,更新所述第一特征词的权重,包括:基于所述转换系数和所述关联度,确定与所述关联度对应的增益;基于所述第一词语频率、所述第一逆向文档频率和所述增益,更新所述第一特征词的权重为第一权重。6.根据权利要求5所述的方法,其特征在于,在目标特征词集还包括第二特征词的情况下,其中,所述第二特征词表征除所述第一特征词之外的特征词,所述方法还包括:获取所述第二特征词在所述待分类语料中的第二词语频率和第二逆向文档频率;其中,所述第二逆向文档频率表征所述第二特征词在所述待分类语料中的普遍程度;基于所述第二词语频率和所述第二逆向文档频率,确定所述第二特征词的权重为第二权重。7.根据权利要求6所述的方法,其特征在于,所述基于更新的权重,对所述待分类语料进行文本分类,包括:
基于所述第一权重和所述第二权重,确定所述待分类语料的权重矩阵;基于所述权重矩阵,对所述待分类语料进行文本分类。8.根据权利要求7所述的方法,其特征在于,所述基于所述权重矩阵,对所述待分类语料进行文本分类之前,所述方法还包括:基于获取的样本语料,对用于进行文本分类的分类器进行训练,得到已训练分类器;相应地,所述基于所述权重矩阵,对所述待分类语料进行文本分类,包括:基于所述已训练分类器和所述权重矩阵,对所述待分类语料进行文本分类。9.一种文本分类装置,其特征在于,所述文本分类装置包括:获取模块、确定模块、更新模块和分类模块;其中:所述获取模块,用于获取具有网络新词的待分类语料;所述确定模块,用于对所述待分类语料进行分词处理,得到所述网络新词对应的第一特征词;所述更新模块,用于基于所述第一特征词在所述待分类语料中的信息量,以及所述网络新词与分类类别的关联度,更新所述第一特征词的权重;所述分类模块,用于基于更新的权重,对所述待分类语料进行文本分类。10.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和通信总线;所述通信总线用于实现所述处理器和所述存储器之间的通信连接;所述处理器用于执行所述存储器中的程序,以实现如权利要求1至8任一所述的文本分类方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至8中任一项所述的文本分类方法的步骤。

技术总结
本申请实施例公开了一种文本分类方法、装置、电子设备及存储介质,其中,该方法包括:获取具有网络新词的待分类语料;对所述待分类语料进行分词处理,得到所述网络新词对应的第一特征词;基于所述第一特征词在所述待分类语料中的信息量,以及所述网络新词与分类类别的关联度,更新所述第一特征词的权重;基于更新的权重,对所述待分类语料进行文本分类。本申请通过网络新词在待分类语料中的信息量以及网络新词与分类类别的关联度,对网络新词的权重进行更新,能够提高对具有网络新词的待分类语料进行分类的准确度。料进行分类的准确度。料进行分类的准确度。


技术研发人员:叶雪梅
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2021.04.27
技术公布日:2022/10/28
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献