技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种文本分类方法、装置、设备及介质  >  正文

一种文本分类方法、装置、设备及介质

  • 国知局
  • 2024-07-31 23:21:10

本申请涉及文本处理,特别是涉及一种文本分类方法、装置、设备及介质。

背景技术:

1、随着大数据时代的到来,文本数据的数量呈爆炸式增长。文本分类技术作为自然语言处理(natural language processing,nlp)领域的一个关键应用,旨在将大量的文本数据按照其内容或主题进行自动分类,被广泛应用于信息检索、新闻分类和情感分析等多个技术领域。

2、目前的文本分类技术主要包括潜在狄利克雷分配(latent dirichletallocation,lda)、潜在语义分析(latent semanticanalysis,lsa)、概率潜在语义分析(probabilistic latent semanticanalysis,plsa)和分层狄利克雷过程(hierarchicaldirichlet process,hdp)等主题分类模型,这些模型主要采用无监督学习的学习方式,通过输入文本集合和预设的主题个数进行分类,从而能够在一定程度上捕捉到文本集合中的主题分布,从而实现文本的分类。

3、然而,上述的无监督学习方法无法利用到任何先验知识或标签信息,完全依赖于文本数据的内在结构和特征,无法根据用户的特定需求或预定义的主题进行定向分类,这导致了分类结果可能与实际需求存在较大的偏差,使得分类的准确性较差。

技术实现思路

1、基于上述问题,本申请提供了一种文本分类方法、装置、设备及介质,能够提高了文本分类的准确性。

2、本申请实施例公开了如下技术方案:

3、第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:

4、将多篇样本文章输入至目标分词器中,得到每篇样本文章的分词结果,所述每篇样本文章具有对应的文章类别;

5、获取所有所述分词结果对于所有所述文章类别的特异性权重;

6、根据所述特异性权重,获取所述每篇样本文章对应于所有所述文章类别的归属得分结果;

7、根据所述样本文章的归属得分结果最大的文章类别,训练目标分类器;

8、将目标文本分类文章输入所述目标分类器中,得到文本分类结果。

9、可选地,所述目标分词器的构建方法包括:

10、获取待分词文章;

11、对所述待分词文章进行粗分词,得到所述待分词文章的分词列表;

12、若所述分词列表中的分词结果的信息熵统计结果高于第一预设预值,则将所述分词结果设定为停用词;

13、若所述分词列表中的分词结果在所有待分词文章中的最大出现频率低于第二预设预值,则将所述分词结果设定为停用词;

14、将所述停用词集成进原始分词器中,以构建目标分词器。

15、可选地,所述获取所有所述分词结果对于所有所述文章类别的特异性权重,包括:

16、根据所述每篇样本文章的分词结果,构建总词库并得到所述每篇样本文章的词频向量;

17、通过遍历所述每篇样本文章的词频向量,获取目标类别的目标文章中的目标单词,在除了所述目标类别以外的其他类别的文章中出现的频率得分向量;

18、通过遍历所述总词库,计算所述目标类别的目标文章中的目标单词,对于所述目标类别中的所有文章的频率得分向量的最大值,以得到特异性测量权重向量;

19、将不同所述目标类别对应的特异性测量权重向量拼接,得到群组频率得分最大权重矩阵,所述群组频率得分最大权重矩阵表征所述所有所述分词结果对于所有所述文章类别的特异性权重。

20、可选地,所述频率得分向量的获取公式如下:

21、

22、其中,fsarticle_i_a为单词a在文章article_i中的频率得分向量,group_i为类别i,ria为第i篇文章中单词a的词频向量,rja为第j篇文章中单词a的词频向量。

23、可选地,所述特异性测量权重向量的获取公式如下:

24、

25、其中,smv为特异性测量权重向量,group_1为类别1,fsarticle_i_j为group_1种类中第i篇文章第j个分词的频率得分向量。

26、可选地,所述根据所述特异性权重,获取所述每篇样本文章对应于所有所述文章类别的归属得分结果,包括:

27、获取初始化混淆矩阵和所述群组频率得分最大权重矩阵的哈德玛乘积结果,所述初始化混淆矩阵和所述群组频率得分最大权重矩阵的维度相同,所述初始化混淆矩阵中的系数均为1/(n*k),其中,n为所述分词结果的总数,k为所述文章类别的总数;

28、根据所述哈德玛乘积结果,获取单类别归属加权得分;

29、基于所述单类别归属加权得分,获取所述每篇样本文章对应于所有所述文章类别的归属得分结果。

30、可选地,所述单类别归属加权得分的获取公式如下:

31、cgs_k=sum(fg_kt·had_cm_gfsms·bm_k)

32、其中,cgs_k为目标类别的单类别归属加权得分,所述目标类别为第k文章类别,fg_kt为group_k中全部的文章分词频率矩阵fg_k的转置,had_cm_gfsms为cm矩阵和gfsms矩阵的哈德玛乘积,bm_k为第k文章类别的归属矩阵。

33、第二方面,本申请公开了一种文本分类装置,所述装置包括:结果获取模块、权重获取模块、得分获取模块、模型训练模块和文本分类模块;

34、所述结果获取模块,用于将多篇样本文章输入至目标分词器中,得到每篇样本文章的分词结果,所述每篇样本文章具有对应的文章类别;

35、所述权重获取模块,用于获取所有所述分词结果对于所有所述文章类别的特异性权重;

36、所述得分获取模块,用于根据所述特异性权重,获取所述每篇样本文章对应于所有所述文章类别的归属得分结果;

37、所述模型训练模块,用于根据所述样本文章的归属得分结果最大的文章类别,训练目标分类器;

38、所述文本分类模块,用于将目标文本分类文章输入所述目标分类器中,得到文本分类结果。

39、相较于现有技术,本申请具有以下有益效果:

40、本申请实施例提供了一种文本分类方法、装置、设备及介质,该方法包括:将多篇样本文章输入至目标分词器中,得到每篇样本文章的分词结果,每篇样本文章具有对应的文章类别;获取所有分词结果对于所有文章类别的特异性权重;根据特异性权重,获取每篇样本文章对应于所有文章类别的归属得分结果;根据样本文章的归属得分结果最大的文章类别,训练目标分类器;将目标文本分类文章输入目标分类器中,得到文本分类结果。由此,在已知的文章类别与文章类别中的样本文章的基础上,采用机器学习方法提取目标文本分类文章的核心特征并构建分类器,以实现未知的目标文本分类文章的高效准确分类,从而解决了传统主题模型在定向分类功能上的不足,提高了文本分类的准确性。

技术特征:

1.一种文本分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标分词器的构建方法包括:

3.根据权利要求1所述的方法,其特征在于,所述获取所有所述分词结果对于所有所述文章类别的特异性权重,包括:

4.根据权利要求3所述的方法,其特征在于,所述频率得分向量的获取公式如下:

5.根据权利要求3所述的方法,其特征在于,所述特异性测量权重向量的获取公式如下:

6.根据权利要求3所述的方法,其特征在于,所述根据所述特异性权重,获取所述每篇样本文章对应于所有所述文章类别的归属得分结果,包括:

7.根据权利要求6所述的方法,其特征在于,所述单类别归属加权得分的获取公式如下:

8.一种文本分类装置,其特征在于,所述装置包括:结果获取模块、权重获取模块、得分获取模块、模型训练模块和文本分类模块;

9.一种电子设备,其特征在于,包括:存储器和处理器;

10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的方法的各个步骤。

技术总结本申请实施例提供了一种文本分类方法、装置、设备及介质,涉及文本处理技术领域。该方法将多篇样本文章输入至目标分词器中,得到每篇样本文章的分词结果;获取所有分词结果对于所有文章类别的特异性权重;根据特异性权重,获取每篇样本文章对应于所有文章类别的归属得分结果;根据样本文章的归属得分结果最大的文章类别,训练目标分类器;将目标文本分类文章输入目标分类器中,得到文本分类结果。由此,在已知的文章类别与文章类别中的样本文章的基础上,采用机器学习方法提取目标文本分类文章的核心特征并构建分类器,以实现未知的目标文本分类文章的高效准确分类,从而解决了传统主题模型在定向分类功能上的不足,提高了文本分类的准确性。技术研发人员:严舒,欧阳昭连受保护的技术使用者:中国医学科学院医学信息研究所技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/197151.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。