一种文本分类方法、装置、电子设备及存储介质与流程

2022-10-29 06:33:29 来源：中国专利 TAG：

1.本技术涉及信息技术领域，尤其涉及一种文本分类方法、装置、电子设备及存储介质。

背景技术：

2.相关技术中，针对具有网络新词的相关文本进行文本分类的过程中，通常仅是在分词环节中涉及网络新词的特殊性并予以特殊处理；这样使得文本分类过程中的特征提取以及文本表示等环节，易受到因网络新词的特殊性而带来的影响，进而会降低对该相关文本进行文本分类的准确度。

技术实现要素：

3.为解决上述技术问题，本技术实施例期望提供一种文本分类方法、装置、电子设备及存储介质，通过网络新词在待分类语料中的信息量以及网络新词与分类类别的关联度，对网络新词的权重进行更新，能够提高对具有网络新词的待分类语料进行分类的准确度。
4.为达到上述目的，本技术的技术方案是这样实现的：
5.本技术实施例提供一种文本分类方法，所述方法包括：
6.获取具有网络新词的待分类语料；
7.对所述待分类语料进行分词处理，得到所述网络新词对应的第一特征词；
8.基于所述第一特征词在所述待分类语料中的信息量，以及所述网络新词与分类类别的关联度，更新所述第一特征词的权重；
9.基于更新的权重，对所述待分类语料进行文本分类。
10.本技术实施例还提供一种文本分类装置，所述文本分类装置包括：获取模块、确定模块、更新模块和分类模块；其中：
11.所述获取模块，用于获取具有网络新词的待分类语料；
12.所述确定模块，用于对所述待分类语料进行分词处理，得到所述网络新词对应的第一特征词；
13.所述更新模块，用于基于所述第一特征词在所述待分类语料中的信息量，以及所述网络新词与分类类别的关联度，更新所述第一特征词的权重；
14.所述分类模块，用于基于更新的权重，对所述待分类语料进行文本分类。
15.本技术实施例还提供一种电子设备，所述电子设备包括：处理器、存储器和通信总线；
16.所述通信总线用于实现所述处理器和所述存储器之间的通信连接；
17.所述处理器用于执行所述存储器中的程序，以实现上述任一所述的文本分类方法。
18.相应地，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上
frequency， tf-idf)算法。
30.其中，现存tf-idf算法的相关改进，主要包括以下几个方面：1、基于特征在类间、类内分布改进tf-idf算法；2、基于特征词在文本中的位置分布改进tf-idf算法；3、基于同一特征词在不同类别标识能力不同改进tf-idf算法；其中，tf-idf公式把所有的特征项统一处理，同时vsm亦是没有考虑上下文间的语义关系和潜在的概念结构，即基于tf-idf与vsm对中文文档进行文本分类的过程中缺少对中文语义的思考。
31.基于以上问题，本技术实施例提供一种文本分类方法，应用于电子设备，参照图1所示的步骤进行以下说明：
32.步骤101、获取具有网络新词的待分类语料。
33.在本技术实施例中，电子设备可以是任一具有数据处理能力的设备。
34.其中，电子设备获取具有网络新词的待分类语料的方式，包括但不限于：通过操作电子设备的用户借助电子设备的输入装置输入至电子设备；也可以是能够与电子设备进行信息交互的其他电子设备发送至电子设备，本技术对待分类语料的具体来源不作任何限定。
35.需要说明的是，网络新词可以指代网络用语，即在互联网环境下产生具有语义信息且未被常用词语料库收录的新兴词汇；换而言之，通常是在网络上流行的非正式语言；其中，多为谐音、错别字改成，也有象形字词。
36.在一种可行的实现方式中，网络新词可以是：“新型冠状病毒”、“不忘初心”、“文明互鉴”、“佛系”、“奥利给”、“柠檬精”、“凡尔赛”以及“是个狼人”等。
37.在本技术实施例中，具有网络新词的待分类语料可以是待分类文本信息，即具有网络新词的待分类文本；其中，具有网络新词的待分类语料可以是一段文字信息，也可以是一个句话，更可以是一篇文章，本技术待分类语料的具体指代不作任何限定。
38.在一种可行的实现方式中，具有网络新词的待分类语料可以是：“某国发现至少三种以上的变异新冠病毒”。
39.需要说明的是，待分类语料的具体数量、表现形式、具体使用语言以及表现内容，在本技术中不作任何限定；其中，在本技术以下其他实施例中，均以中文方式来表达具有网络新词的待分类语料。
[0040][0041]
步骤102、对待分类语料进行分词处理，得到网络新词对应的第一特征词。
[0042]
在本技术实施例中，电子设备对待分类语料进行分词处理，至少得到网络新词对应的第一特征词；其中，第一特征词与网络新词之间具有映射关系，两者可以相同，也可以不同，更可以部分相同。
[0043]
在一种可行的实现方式中，电子设备对“某国发现至少三种以上的变异新冠病毒”进行分词处理，得到“某国”、“发现”、“至少”、“三种以上”、“的”以及“变异新冠病毒”；其中，“变异新冠病毒”即为第一特征词，其余网络新词“新冠病毒”不同。
[0044]
在另一种可行的实现方式中，电子设备对“你对凡尔赛如何评价”进行分词处理，得到“你”、“对”、“凡尔赛”、“如何”以及“评价”；其中，“凡尔赛”即为第一特征词，其与网络新词“凡尔赛”相同。
[0045]
在本技术以下其他实施例中，均以网络新词与第一特征词相同为例进行说明。
[0046]
需要说明的是，电子设备对待分类语料进行分词处理，得到包括但不限于网络新词对应的第一特征词，还可以包括常用词对应的第二特征词，以及停用词；其中，常用词可以与第二特征词相同，也可不同，本技术对此不作任何限定。
[0047]
在本技术实施例中，分词处理指代词是指使用分词算法把待分类文本切割成单个字词、词语或短语的过程；其中，中文文本的字、词、短语之间没有间隔，以连续的字符串形式呈现。
[0048]
在本技术实施例中，电子设备可以采用相关分词工具，如此：“结巴分词工具和斯坦福分词器等，本技术中对采用何种方式或何种工具进行分词处理，不作任何限定。
[0049]
需要说明的是，在本技术实施例中第一特征词均指代以词组进行展现的文字信息，其中，第一特征词可以是一个，两个及以上，本技术对此不作任何限定。
[0050]
步骤103、基于第一特征词在待分类语料中的信息量，以及网络新词与分类类别的关联度，更新第一特征词的权重。
[0051]
在本技术实施例中，电子设备首先，需获取第一特征词即网络新在待分类语料中的信息量，以及网络新词与分类类别的关联度；其次，基于第一特征词在待分类语料中的信息量，以及网络新词即第一特征词与分类类别的关联度，更新第一特征词的权重。
[0052]
需要说明的是，第一特征词在待分类语料中的信息量，表征第一特征词在待分类语料中的多少的量度，比如，可以指代第一特征词在待分类语料中出现的相关频率信息。
[0053]
在一种可行的实现方式中，第一特征词在待分类语料中的信息量可以指代第一特征词在待分类语料中的个数或出现的次数。
[0054]
在另一种可行的实现方式中，第一特征词在待分类语料中的信息量可以指代第一特征词在待分类语料中的出现频率和逆向文档频率等。
[0055]
需要说明的是，网络新词与分类类别的关联度，可以指代网络新词与分类类别的关联程度，其中，关联程度可以是强、一般或较弱；同时，该关联度可以用数字进行表达，其取值范围可以是[0，1]，也开始以[0，100]表示；在一种可行的实现方式中，关联程度为强时，其对应的数值为1，相应地，关联程度为弱时，其对应的数值为0.2等。
[0056]
其中，分类类别指代对相关文本进行分类时的类别名称，如：地理词汇、建筑词汇、穿着词汇以及食品词汇等。
[0057]
在一种可行的实现方式中，网络新词为“佛系”，其与分类类别为地理词汇的关联度较弱，其对应的关联程度为0.1，其与生活词汇的关联度较强，对应的关联程度为0.5。
[0058]
在另一种可行的实现方式中，网络新词为“新型冠状病毒”，其与分类类别为医学类的关联度强，其对应的关联程度为0.98，其与食品词汇的关联度较强，对应的关联程度为0.5。
[0059]
需要说明的是，网络新词与分类类别的关联度，可以指代网络新词与每一分类类别的初始关联度进行相关计算确定的。
[0060]
在本技术实施例中，电子设备可以通过卡方统计量(chi-square statistic， chi)、信息增益(information gain，ig)以及互信息(mutual information，mi) 等方式来确定网络新词与分类类别的关联度，本技术对此不作任何限定。
[0061]
需要说明的是，权重表征某一因素或指标相对于某一事物的重要程度，其不同于一般的比重，体现的不仅仅是某一因素或指标所占的百分比，强调的是因素或指标的相对
重要程度，倾向于贡献度或重要性；通常，权重可通过划分多个层次指标进行判断和计算；进而，第一特征词的权重可以指代第一特征词在待分类语料中的重要程度。
[0062]
相应地，第一特征词的数量为两个及以上时，其对应的第一特征词的权重的数量也是两个及以上，即第一特征词与权重之间具有映射关系。
[0063]
需要说明的是，第一特征词的信息量不变，其关联度越高，其对应的权重越高；相应地，第一特征词的信息量不变，其关联度越低，其对应的权重越低。
[0064]
步骤104、基于更新的权重，对待分类语料进行文本分类。
[0065]
在本技术实施例中，电子设备基于更新的权重对待分类语料进行文本分类。
[0066]
其中，电子设备可以基于更新的权重，生成与待分类语料对应的权重矩阵，并基于该权重矩阵实现对待分类语料的文本表示，进而可以对待分类语料进行文本分类。
[0067]
在一种可行的实现方式中，电子设备首先，将待分类语料进行分词处理得到至少一个特征词，并计算至少一个特征词的权重；然后，基于至少一个特征词和对应的权重，表达待分类语料对应的权重矩阵，并基于该权重矩阵对待分类语料进行文本分类。
[0068]
在本技术实施例中，电子设备可以基于传统机器学习算法对待分类语料进行文本分类，也可以基于深度学习算法对待分类语料进行文本分类，本技术对此具体进行文本分类的方式不作任何限定。
[0069]
需要说明的是，在本技术实施例中，电子设备对具有网络新词的待分类语料进行文本分类时，可以通过网络新词即第一特征词在待分类语料中的信息量，以及网络新词与分类类别之间的关联度，来更新第一特征词的权重；如此，使得第一特征词的权重不仅依赖相关信息量，还依赖相关关联度，进而能够提高具有网络新词的待分类语料进行文本分类的准确度。
[0070]
本技术实施例提供的文本分类方法，首先，获取具有网络新词的待分类语料；其次，对待分类语料进行分词处理，得到网络新词对应的第一特征词；再次，基于第一特征词在待分类语料中的信息量，以及网络新词与分类类别的关联度，更新第一特征词的权重；最后，基于更新的权重，对待分类语料进行文本分类；如此，通过网络新词在待分类语料中的信息量以及网络新词与分类类别的关联度，对网络新词的权重进行更新，能够提高对具有网络新词的待分类语料进行分类的准确度。
[0071]
基于前述实施例，本技术实施例还提供一种文本分类方法，应用于电子设备，参照图1和图2所示的步骤进行以下说明，本技术实施例提供的文本分类方法可以包括上述的步骤101、下述步骤201至204以及上述步骤104：
[0072]
步骤201、获取包括网络新词词库和常用词词库的目标词库。
[0073]
在本技术实施例中，电子设备获取包括网络新词词库和常用词词库的目标词库；其中，电子设备获取目标词库的方式在本技术中不作任何限定。
[0074]
其中，网络新词词库即为由网络新词形成的第一词库；其是基于网络信息而动态更新改变的；相应地，常用词词库即为生活中经常使用的词汇形成的第二词库，其基本是固定不定的。
[0075]
在本技术实施例中，目标词库是由网络新词词库和常用词词库以任意形式组成的，换而言之，目标词库中的词汇包括网络新词和常用词。
[0076]
需要说明的是，网络新词词库和常用词词库各自包括的内容可以有相同的词汇，
但其表达的意境可能不同。
[0077]
在一种可行的实现方式中，网络新词词库包括：“凡尔赛”、“柠檬精”以及“火星人”等，常用词词库包括：“字典”、“机器人”以及“学习”等。
[0078]
在本技术实施例中，目标词库的具体存储格式以及表现形式在本技术中不作任何限定，可以是文档、表格等。
[0079]
步骤202、基于目标词库，对待分类语料进行分词处理，得到第一特征词。
[0080]
在本技术实施例中，电子设备基于目标词库，对待分类语料进行分词处理，得到第一特征词。
[0081]
其中，电子设备，首先基于包括有网络新词和常用词的目标词库，对待分类语料进行分词处理，可以得到网络新词对应的第一特征词、常用词对应的第二特征词以及相关停用词；其次，再从获得的多类词汇中筛选出网络新词对应的第一特征词。
[0082]
需要说明的是，在本技术实施例中，电子设备基于包括有网络新词和常用词的目标词库，对待分类语料进行分词处理，以得到第一特征词；如此，能够使得在分词处理过程中考虑到网络新词等，使得进行分词处理的过程中能够避免因网络新词语义特殊性而带来的误切割现象，进而能够提高对待分类语料进行分词过程的准确度，同时，能够提高电子设备执行下一步的特征权重计算以及后期的文本表示、文本分类的准确度。
[0083]
在一种可行的实现方式中，电子设备在执行步骤202，还可以通过执行以下步骤202a至步骤202c的方式来实现：
[0084]
步骤202a、基于目标词库，对待分类语料进行分词处理，得到特征词集。
[0085]
在本技术实施例中，电子设备基于目标词库，对待分类语料进行分词处理，得到特征词集；其中，特征词集可以包括至少一个特征词，同时，在特征词为一个时，其可以是网络新词对应的第一特征词；在特征词为两个及以上时，可以是网络新词对应的第一特征词和常用词对应的第二特征词，也可以是网络新词对应的第一特征词和停用词。
[0086]
在本技术实施例中，特征词集包括但不限于：网络新词对应的特征词、常用词对应的特征词以及停用词等；其中，上述几种特征词的数量以及在特征词集中的分布情况在本技术中不作任何限定。
[0087]
其中，特征词集可以以文档、表格等任一形式进行表示，本技术对此不作任何限定。
[0088]
步骤202b、基于停用词对特征词集进行信息过滤，得到目标特征词集。
[0089]
在本技术实施例中，电子设备获取停用词，并基于停用词对特征词集进行信息过滤，得到不包含停用词的目标特征词集。
[0090]
具体地，电子设备可以基于停用词，对特征词集中停用词对应的特征词进行筛选并过滤，以得到目标特征词集。
[0091]
需要说明的是，停用词一般可以分为两大类，一类是人类语言中包含的功能词，同时这些功能词极其普遍，与其他词相比，功能词没有任何实际含义，如：这些、哪些、这个或那个等；还有一类词，其运用与搜索引擎时无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率的词汇。
[0092]
步骤202c、从目标特征词集中，确定第一特征词。
[0093]
在本技术实施例中，电子设备从确定的目标特征词集中，确定出与网络新词对应
的第一特征词。
[0094]
在一种可行的实现方式中，电子设备从目标特征词集中将与常用词对应的特征词进行筛选并过滤，以确定出第一特征词。
[0095]
在另一种可行的实现方式中，目标特征词集中全部为第一特征词。
[0096]
在本技术实施例中，目标特征词集内的第一特征词的具体数量在本技术中不作任何限定。
[0097]
需要说明的是，在本技术实施例中，电子设备对待分类语料进行分词处理，得到特征词集，并基于停用词对特征词集进行信息过滤，以得到目标特征词集，进而得到第一特征词，如此，将停用词进行过滤，能够提高电子设备后期进行权重计算、文本表示以及文本分类的效率，同时能够避免停用词带来的信息干扰，进而提高待分类语料分类的准确率。
[0098]
相应地，电子设备在执行步骤103，即电子设备基于第一特征词在待分类语料中的信息量，以及网络新词与分类类别的关联度，更新第一特征词的权重，还可以通过以下步骤203和步骤204的方式来实现：
[0099]
步骤203、基于信息量，确定第一特征词在待分类语料中的第一词语频率和第一逆向文档频率。
[0100]
其中，第一逆向文档频率表征第一特征词在待分类语料中的普遍程度。
[0101]
在本技术实施例中，电子设备基于信息量，计算并确定出第一特征词在待分类语料中的第一词语频率和第一逆向文档频率。
[0102]
其中，第一词语频率指代第一特征词在待分类语料中的出现频率；相应地，第一逆向文档频率指代第一特征词在待分类语料中普遍程度，可以指代第一特征词在待分类语料中的文档数与待分类语料全部文档数的相关比值信息。
[0103]
步骤204、基于第一词语频率、第一逆向文档频率和关联度，更新第一特征词的权重。
[0104]
在本技术实施例中，电子设备基于第一词语频率、第一逆向文档频率和关联度，更新第一特征词的权重为第一权重。
[0105]
在一种可行的实现方式中，电子设备可以基于第一词语频率、第一逆向文档频率和关联度，计算并确定出第一特征词的权重。
[0106]
需要说明的是，在本技术实施例中，电子设备基于第一词语频率、第一逆向文档频率和关联度，来更新第一特征词的权重；如此，能够使得确定第一特征词的权重不仅依赖第一特征词在待分类语料中的相关信息量即相关频率信息，还涉及第一特征词与分类类别的关联度；如此，使得电子设备确定的第一特征词的权重涉及的参数更加全面，进而能够保证第一特征词即网络新词的权重比重的情况下，提高电子设备后期对待分类语料的文本表示、文本分类的准确度。
[0107]
在一种可行的实现方式中，电子设备在执行步骤204之前，还可以执行以下步骤a：
[0108]
步骤a、获取与关联度的数值对应的转换系数。
[0109]
在本技术实施例中，电子设备获取与关联度的数值对应的转换系数。
[0110]
在一种可行的实现方式中，关联度的数值越高，其对应的转换系数越高。
[0111]
在另一种可行的实现方式中，关联度的数值越高，其对应的转换系数越低。
[0112]
需要说明的是，与关联度的数值对应的转换系数可以是由电子设备基于预设规则
确定的，也可以操作电子设备的用户自定义的，本技术中对转换系数的具体来源不作任何限定。
[0113]
相应地，电子设备在执行步骤204，即电子设备基于第一词语频率、第一逆向文档频率和关联度，更新第一特征词的权重，还可以通过以下步骤204a和步骤204b的方式来实现：
[0114]
步骤204a、基于转换系数和关联度，确定与关联度对应的增益。
[0115]
在本技术实施例中，电子设备基于转换系数和关联度，确定出与关联度对应的增益；其中，具体的可以是电子设备基于转换系数和关联度的数值，计算并确定对应的增益。
[0116]
在一种可行的实现方式中，电子设备将转换系数和关联度的数值对应的进行相加，得到与关联度对应的增益。
[0117]
在另一种可行的实现方式中，电子设备将转换系数和关联度的数值对应的进行相乘，得到与关联度对应的增益。
[0118]
需要说明的是，电子设备对转换系数和关联度的数值进行何种方式的计算，以得到对应的增益，在本技术实施例中不作任何限定。
[0119]
在本技术实施例中，增益是以数值进行表现，其具体可以是以百分比、小数或分数等进行表示，本技术对此不作任何限定。
[0120]
步骤204b、基于第一词语频率、第一逆向文档频率和增益，更新第一特征词的权重为第一权重。
[0121]
在本技术实施例中，电子设备基于第一词语频率、第一逆向文档频率和增益，更新第一特征词的权重为第一权重；其具体可以是基于以上三类参数进行计算，确定出第一特征词的权重。
[0122]
相应地，在第一特征词为两个及以上时，电子设备基于每一特征词对应的第一词语频率、第一逆向文档频率和增益，计算并确定每一第一特征词的第一权重。
[0123]
需要说明的是，在本技术实施例中，电子设备基于第一词语频率、第一逆向文档频率和关联度，来更新第一特征词的权重；如此，能够使得电子设备确定第一特征词的权重不仅依赖第一特征词在待分类语料中的信息量，即相关频率信息，还涉及第一特征词与分类类别的关联度；同时，电子设备可以基于与分类类别相似度高的网络新词赋予高的增益，对应地，电子设备基于与分类类别相似度低的网络新词赋予低的增益；如此，能够确保网络新词在待分类语料进行分类的过程中确保一定的权重的前提下，提高针对待分类语料进行文本分类的准确度。
[0124]
本技术实施例提供的文本分类方法，基于包括有网络新词和常用词的目标词库，对待分类语料进行分词处理，能使得进行分词处理的过程中能够避免因网络新词语义特殊性而带来的误切割现象，进而能够提高对待分类语料进行分词过程的准确度；同时，电子设备基于第一词语频率、第一逆向文档频率和关联度，来更新第一特征词的权重；能够使得电子设备确定第一特征词的权重不仅依赖第一特征词在待分类语料中的信息量，即相关频率信息，还涉及第一特征词与分类类别的关联度；进而能够确保网络新词在待分类语料进行分类的过程中确保一定的权重的前提下，提高针对待分类语料进行文本分类的准确度。
[0125]
基于前述实施例，本技术实施例还提供一种文本分类方法，应用于电子设备，参照图1至图3所示的步骤进行以下说明，本技术实施例提供的文本分类方法可以包括上述的步
骤101、步骤201至步骤204、下述步骤301至304：
[0126]
在目标特征词集还包括第二特征词的情况下，其中，第二特征词表征除第一特征词之外的特征词，电子设备还可以执行以下步骤301和步骤302：
[0127]
步骤301、获取第二特征词在待分类语料中的第二词语频率和第二逆向文档频率。
[0128]
其中，第二逆向文档频率表征第二特征词在待分类语料中的普遍程度。
[0129]
在本技术实施例中，目标特征词集为上述实施例的步骤202b所得到的信息，此处对于如何得到目标特征词集的具体实施方式，可参考上述实施例所描述的，此处不再赘述。
[0130]
在本技术实施例中，电子设备在目标特征词集还包括第二特征词的情况下，其中，第二特征词表征除第一特征词之外的特征词；电子设备可以基于第二特征词在待分类语料中的信息量，来获取第二特征词在待分类语料中的第二词语频率和第二逆向文档频率。
[0131]
其中，第二特征词指代常用词对应的特征词；相应地，第二特征词可以与常用词相同，也可以不同，本技术对此不作任何限定。
[0132]
相应地，第二特征词在目标特征词集即待分类语料中的数量可以是一个，也可以是两个及以上，本技术中对第二特征词在待分类语料中的具体数量以及分布情况不作任何限定。
[0133]
在一种可行的实现方式中，电子设备基于常用词对应的特征词在待分类语料中的个数或出现次数，计算并确定出第二特征词在待分类语料中的第二词语频率和第二逆向文档频率。
[0134]
需要说明的是，第二词语频率和第二逆向文档频率，分别与第一词语频率和第一逆向文档频率相对应，其具体的描述信息可参考上述实施例针对第一词语频率和第一逆向文档频率的解释说明，此处不再赘述。
[0135]
步骤302、基于第二词语频率和第二逆向文档频率，确定第二特征词的权重为第二权重。
[0136]
在本技术实施例中，电子设备基于第二词语频率和第二逆向文档频率，确定第二特征词的权重为第二权重，即电子设备基于常用词的特征词对应的权重时，只需考虑其对应的词语频率和逆向文档频率。
[0137]
需要说明的是，在本技术实施例中，电子设备基于第二特征即常用词的第二词语频率和第二逆向文档频率，计算并确定第二特征词的权重；如此，能够使得确定常用词的权重的准确度较高，进而能够提高电子设备后期执行下一步操作如：待分类文本语料的文本表示以及文本分类过程的准确度。
[0138]
相应地，电子设备在执行步骤104，即电子设备基于更新的权重，对待分类语料进行文本分类，还可以执行以下步骤303和步骤304：
[0139]
步骤303、基于第一权重和第二权重，确定待分类语料的权重矩阵。
[0140]
在本技术实施例中，电子设备基于第一权重和第二权重，相应地构成待分类语料的权重矩阵，其中，每一权重与其对应的特征词对应，即第一权重与第一特征词对应，第二权重与第二特征词对应。
[0141]
在本技术实施例中，第一特征词的数量可以是一个、两个及以上，本技术对此不作任何限定，相应地，第二特征词的数量也可以是一个，两个及以上，本技术对此不作任何限定；进而电子设备基于每一第一特征词计算一个第一权重，并基于每一第二特征词计算一
个第二权重，换而言之，第一特征词和第二特征词分别与其对应的权重。
[0142]
其中，电子设备可以基于该权重矩阵来实现对待分类语料的文本表达。
[0143]
步骤304、基于权重矩阵，对待分类语料进行文本分类。
[0144]
在本技术实施例中，电子设备基于权重矩阵，对待分类语料进行文本分类，即电子设备基于该权重矩阵对待分类语料进行文本表示，进而基于相关文本分类器对其进行文本分类。
[0145]
其中，电子设备对待分类语料进行文本分类可以是基于传输机器学习算法如：贝叶斯或svm等，也可以基于深度学习算法如：快速文本分类算法(fasttext) 或text卷积神经网络(convolutional neural networks，cnn)等，本技术对此不作任何限定。
[0146]
需要说明的是，在本技术实施例中，电子设备基于第一权重和第二权重形成的权重矩阵，并将其作为待分类语料的文本表示，以实现对待分类语料的文本分类；如此，使得电子设备对待分类语料进行文本分类的环节更加具体且准确度较高。
[0147]
在一种可行的实现方式中，电子设备执行步骤304时，还可以执行以下步骤 b、
[0148]
步骤b、基于获取的样本语料，对用于进行文本分类的分类器进行训练，得到已训练分类器。
[0149]
在本技术实施例中，电子设备首先获取样本语料；其中，样本语料可以是包括常用词、网络新词以及停用词的文本信息，也可以是包括常用词和停用词的文本信息，更可以是包括网络信息词和停用词的文本信息，本技术对样本语料的具体指代以及具体内容不作任何限定。
[0150]
在本技术实施例中，电子设备将获取的样本语料输入至用于进行文本分类的分类器，来预测每一样本语料的分类结果，同时基于每一样本语料的标签和预测得到的每一样本语料的分类结果进行比对，得到输出结果，并基于该输出结果生成该分类器的损失函数，进而基于该损失函数对分类器的网络参数进行调整，并再次输入样本语料至分类器得到对应的损失函数，依次反复训练直至最终得到的损失函数满足预设的收敛条件后，此时的分类器为已训练分类器。
[0151]
其中，分类器以及对应的已训练分类器的具体指代在本技术实施例中不作任何限定。
[0152]
相应地，电子设备执行步骤340，即电子设备基于权重矩阵，对待分类语料进行文本分类，还可以通过执行以下步骤304a的方式来实现：
[0153]
步骤304a、基于已训练分类器和权重矩阵，对待分类语料进行文本分类。
[0154]
在本技术实施例中，电子设备首先基于权重矩阵对待分类语料进行文本表示，并将该文本表示输入至已训练分类器，以实现对待分类语料的文本分类。
[0155]
在本技术实施例中，电子设备对待分类语料进行文本分类的训练其进行训练，并基于训练过后的已训练分类器对待分类语料进行文本分类，进而能够提升针对待分类语料的文本分类的准确度。
[0156]
本技术实施例提供的文本分类方法，基于包括有网络新词和常用词的目标词库，对待分类语料进行分词处理，能使得进行分词处理的过程中能够避免因网络新词语义特殊性而带来的误切割现象，进而能够提高对待分类语料进行分词过程的准确度；同时，电子设备基于第一词语频率、第一逆向文档频率和关联度，来更新第一特征词的权重；能够使得电
子设备确定第一特征词的权重不仅依赖第一特征词在待分类语料中的信息量，即相关频率信息，还涉及第一特征词与分类类别的关联度；此外，基于确定的权重矩阵和已训练的分类器对待分类语料进行文本分类，能够进一步提高分类的准确度。
[0157]
基于此，本技术实施例还提供一种基于显示语义特征改进的文本分类方法的流程示意图；其中，电子设备获取待分类语料，即执行401，其中该待分类语料是包括有网络新词的待分类语料；然后执行402，即对待分类语料进行文本分词，并得到403、特征词集；得到特征词集之后对其中特征词进行判断，即执行 404：是否为第一特征词，即网络新词对应的第一特征词，若是的情况下，执行405、确定关联度，即确定出该网络新词与分类类别的关联度，并基于该关联度和相关频率信息计算对应的权重即：w'dt(t∈newterm)；若否的情况下，基于相关频率信息计算对应的权重即：即对应406；然后基于两个不同的权重得到对应的权重矩阵，即407；然后将其输入至409的分类器进行文本分类，以得到分类结果，即410；其中，409的分类器是基于408中对分类器训练得到的。
[0158]
具体地，电子设备可以基于常用的特征权重算法：tf-idf算法来计算对应的权重，即对应本技术实施例中的第二特征词的第二权重；其中，tf-idf权重算法由两部分组成：词语频率(term frequency，tf)和逆向文档频率(inverse document frequency，idf)；tf考虑特征项在文本中出现的频次，idf考虑特征项在文本中的分布情况，常用的tf-idf计算权重的表示方式如公式(1)，
[0159][0160]
其中，t表示特征项，d表示待分类语料，w
dt
表示t在d中的权重，tf
dt
为t在 d中出现的频率，n为语料库中d的总数，n
t
为文本语料库中包含t的文本数， k为文本d中t的个数。
[0161]
相应地，tf
dt
对应本技术实施例中的第二词语频率，lg(n/n
t
0.01)对应本技术实施例中的第二逆向文档频率。
[0162]
其中，405中确定关联度，即对应本技术实施例中的确定网络新词与分类类别的关联度，可以通过ig算法来计算关联度，可参照以下公式(2)或(3)，
[0163]
ig(ti)＝h(c)-h(c|ti)
ꢀꢀꢀ
(2)；
[0164][0165]
其中，ig(ti)是特征项ti所带来的信息增益，h(c)是分类类别c的信息熵，h(c|ti)是在特征项ti条件下分类类别c的信息熵，k是分类类别总数，p(cj)是在待分类语料中属于类别cj的文档所占的比例，p(ti)是包含特征项ti的文档在待分类语料中所占的比例，p(cj|ti)是包含特征项ti同时属于类别cj的文档所占的比例，是不含ti的文档出现的概率，是不含ti但属于cj类的文档所占的比例。
[0166]
相应地，ig(ti)即对应本技术实施例提供的网络新词与分类类别的关联度；同时
电子设备还给出与关联度的数值对应的转换系数，即对应的转换函数，其中，关联度转化函数的意义在于衡量网络新词对待分类语料分类的作用，可以参考公式(4)，
[0167][0168]
其中，xc(ti)即为与关联度对应的增益；具体的参数转换系数可以基于实际应用而定，本技术给出的是一个示例。
[0169]
进而，电子设备可以基于增益xc(ti)对公式(1)进行更新，得到以下公式 (5)，并用于其计算待分类语料中的网络新词，即第一特征词对应的权重w'
dt
；其中，具体的参数解释可参考公式(1)。
[0170][0171]
相应地，电子设备基于得到的第一权重和第二权重构成待分类语料的权重矩阵w”dt
，如公式(6)，
[0172][0173]
需要说明的是，电子设备基于权重矩阵w”dt
把待分类语料转换为向量空间中的向量运算，以空间上的相似度表示语义的相似度；当文档转化成vsm模型中的向量后，就可以通过计算向量之间的相似性来度量文档间的相似性。
[0174]
表1：文本向量空间模型
[0175] t1t2t3…
tnd1w
11w12w13
…w1n
d2w
21w22w23
…w2n
………………dmwm1wm2wm3
…wmn
[0176]
对应地，如表1所示，特征项t1，t2，
…
，tn可以看作是一个n维坐标系，而权值w1，w2，
…
，wn表示其对应的坐标值，每篇文档di映射为该向量坐标空间中的一个特征向量v(di)＝(t1，w
i1
；t2，w
i2
；
…
；tn，w
in
)。
[0177]
需要说明的是，假设新词均能被正确识别出来，且xc(t)＝100；下面是分别使用公式(1)和公式(5)对相同的网络新词进行权重计算的对比表。
[0178]
表2：网络新词的权重对比表
[0179]
网络新词wdtw'
dt
新型冠状病毒0.00010.0099不忘初心0.00100.0909文明互鉴0.00050.0476佛系0.00030.0323
奥利给0.000050.00498柠檬精0.00020.0196是个狼人0.0001250.01235
[0180]
基于前述实施例，本技术实施例还提供一种文本分类装置5，该文本分类装置5可以应用于图1至图3对应的实施例提供的一种文本分类方法中，参照图5所示，该文本分类装置5包括：获取模块51、确定模块52、更新模块53和分类模块 54；其中：
[0181]
获取模块51，用于获取具有网络新词的待分类语料；
[0182]
确定模块52，用于对待分类语料进行分词处理，得到网络新词对应的第一特征词；
[0183]
更新模块53，用于基于第一特征词在待分类语料中的信息量，以及网络新词与分类类别的关联度，更新第一特征词的权重；
[0184]
分类模块54，用于基于更新的权重，对待分类语料进行文本分类。
[0185]
在本技术其他实施例中，确定模块52，还用于获取包括网络新词词库和常用词词库的目标词库；基于目标词库，对待分类语料进行分词处理，得到第一特征词。
[0186]
在本技术其他实施例中，确定模块52，还用于基于目标词库，对待分类语料进行分词处理，得到特征词集；基于停用词对特征词集进行信息过滤，得到目标特征词集；从目标特征词集中，确定第一特征词。
[0187]
在本技术其他实施例中，更新模块53，还用于基于信息量，确定第一特征词在待分类语料中的第一词语频率和第一逆向文档频率；其中，第一逆向文档频率表征第一特征词在待分类语料中的普遍程度；基于第一词语频率、第二逆向文档频率和关联度，更新第一特征词的权重。
[0188]
在本技术其他实施例中，获取模块51，还用于获取与关联度的数值对应的转换系数；相应地，更新模块53，还用于基于转换系数和关联度，确定与关联度对应的增益；基于第一词语频率、第一逆向文档频率和增益，更新第一特征词的权重为第一权重。
[0189]
在本技术其他实施例中，在目标特征词集还包括第二特征词的情况下，其中，第二特征词表征除第一特征词之外的特征词，获取模块51，还用于获取第二特征词在待分类语料中的第二词语频率和第二逆向文档频率；其中，第二逆向文档频率表征第二特征词在待分类语料中的普遍程度；相应地，确定模块52，还用于基于第二词语频率和第二逆向文档频率，确定第二特征词的权重为第二权重。
[0190]
在本技术其他实施例中，分类模块54，还用于基于第一权重和第二权重，确定待分类语料的权重矩阵；基于权重矩阵，对待分类语料进行文本分类。
[0191]
在本技术其他实施例中，文本分类装置5还包括：训练模块55，其中：训练模块55，还用于基于获取的样本语料，对用于进行文本分类的分类器进行训练，得到已训练分类器；相应地，分类模块54，还用于基于已训练分类器和权重矩阵，对待分类语料进行文本分类。
[0192]
需要说明的是，本实施例中各个模块所执行的步骤的具体实现过程，可以参照图1至3对应的实施例提供的文本分类方法中的实现过程，此处不再赘述。
[0193]
本技术实施例所提供的文本分类装置，基于包括有网络新词和常用词的目标词库，对待分类语料进行分词处理，能使得进行分词处理的过程中能够避免因网络新词语义特殊性而带来的误切割现象，进而能够提高对待分类语料进行分词过程的准确度；同时，基于第一词语频率、第一逆向文档频率和关联度，来更新第一特征词的权重；能够使得确定第
一特征词的权重不仅依赖第一特征词在待分类语料中的信息量，即相关频率信息，还涉及第一特征词与分类类别的关联度；此外，基于确定的权重矩阵和已训练的分类器对待分类语料进行文本分类，能够进一步提高分类的准确度。
[0194]
基于前述实施例，本技术的实施例还提供一种电子设备6，该电子设备6可以应用于图1至3对应的实施例提供的一种文本分类方法中，参照图6所示，该电子设备6可以包括：处理器61、存储器62、通信总线63，其中：
[0195]
通信总线63用于实现处理器61和存储器62之间的通信连接。
[0196]
处理器61用于执行存储器62中存储的文本分类方法的程序，以实现参照图1 至3对应的实施例提供的文本分类方法。
[0197]
本技术实施例所提供的电子设备，基于包括有网络新词和常用词的目标词库，对待分类语料进行分词处理，能使得进行分词处理的过程中能够避免因网络新词语义特殊性而带来的误切割现象，进而能够提高对待分类语料进行分词过程的准确度；同时，电子设备基于第一词语频率、第一逆向文档频率和关联度，来更新第一特征词的权重；能够使得电子设备确定第一特征词的权重不仅依赖第一特征词在待分类语料中的信息量，即相关频率信息，还涉及第一特征词与分类类别的关联度；此外，基于确定的权重矩阵和已训练的分类器对待分类语料进行文本分类，能够进一步提高分类的准确度。
[0198]
基于前述实施例，本技术的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如图1至3对应的实施例提供的文本分类方法的步骤。
[0199]
需要说明的是，上述计算机可读存储介质可以是只读存储器(read onlymemory，rom)、可编程只读存储器(programmable read-only memory，prom)、可擦除可编程只读存储器(erasable programmable read-only memory，eprom)、电可擦除可编程只读存储器(electrically erasable programmable read-onlymemory，eeprom)、磁性随机存取存储器(ferromagnetic random accessmemory，fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read-only memory，cd-rom)等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。
[0200]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0201]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0202]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所描述的方法。
[0203]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0204]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0205]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0206]
以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种文本分类方法、装置、电子设备及存储介质与流程

相关文献

最热文献