一种文本分类方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-08-08 17:01:51
本发明涉及自然语言处理,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术:
1、bert (bidirectional encoder representation from transformers)是一个预训练的语言表征模型。在自然语言处理(nlp, natural language processing)领域,主要用于完成文本分类,文本摘要等任务。
2、当使用bert模型做分类任务时,现有技术往往是将文本信息(textual features)转化成tokens作为输入,以进行不同的分类。当文本信息字数有限时,不足以支撑bert做出正常的分类判断,这时会导致分类的准确率(也叫查准率)和召回率(也叫查全率)大幅降低。于是需要寻找更多的信息进行输入,让bert学习,支撑bert做出更正确的分类判断,提高分类的查准率。
技术实现思路
1、有鉴于此,有必要提供一种文本分类方法、装置、电子设备及存储介质,用以解决现有技术在文本信息字数有限的情况下分类效果大幅降低的问题。
2、为了解决上述问题,本发明提供一种文本分类方法,包括:
3、获取待分类目标的第一文本特征以及第一数值特征;
4、对第一文本特征进行池化,得到第一输出信息;
5、将第一输出信息与第一数值特征进行融合处理,得到第一融合结果;
6、基于第一融合结果得到最终的分类结果。
7、在一种可能的实现方式中,所述获取待分类目标的第一文本特征以及第一数值特征,包括:
8、获取待分类目标的初始文本特征以及初始数值特征;
9、对初始文本特征进行预处理,得到第一文本特征;
10、对初始数值特征进行预处理,得到第一数值特征。
11、在一种可能的实现方式中,所述对初始文本特征进行预处理,得到第一文本特征,包括:
12、对初始文本特征进行tokenize处理后再进行embedding句子向量转化,得到第一文本特征。
13、在一种可能的实现方式中,所述对初始数值特征进行预处理,得到第一数值特征,包括:
14、对初始数值特征进行连续变量离散化处理后再进行归一化处理,得到第一数值特征。
15、在一种可能的实现方式中,对第一文本特征进行池化,得到第一输出信息,包括:
16、将第一文本特征输入至bert模型中进行池化,得到第一输出信息。
17、在一种可能的实现方式中,所述将第一输出信息与第一数值特征进行融合处理,得到第一融合结果,包括:
18、基于concat函数将第一输出信息与所述第一数值特征进行融合处理,得到第一融合结果。
19、在一种可能的实现方式中,所述基于第一融合结果得到最终的分类结果,包括:
20、将第一融合结果输入至全连接层,得到第二融合结果;
21、基于softmax函数对第二融合结果进行归一化概率分布处理,得到最终的分类结果。
22、本发明还提供一种文本分类装置,包括:
23、特征提取模块,用于获取待分类目标的第一文本特征以及第一数值特征;
24、文本特征处理模块,用于基于所述第一文本特征得到第一输出信息;
25、融合模块,用于将所述第一输出信息与所述第一数值特征进行融合处理,得到第一融合结果;
26、分类模块,用于基于所述第一融合结果得到最终的分类结果。
27、本发明还提供一种电子设备,包括:
28、存储器,用于存储程序;
29、处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述各方法项中任意一项所述的文本分类方法中的步骤。
30、本发明还提供一种存储介质,用于存储计算机可读取的程序或指令,所述程序或指令被处理器执行时能够实现上述各方法项中任意一项所述的文本分类方法中的步骤。
31、本发明的有益效果是:本发明提供了一种文本分类方法,首先提取得到待分类目标的文本特征以及数值特征,并对文本特征进行初步处理,得到第一输出结果,然后再将数值特征与第一输出结果进行融合,进而得到信息更丰富的第一融合结果,因而基于第一融合结果得到的分类结果也具备更高的准确率,有效地解决了现有技术在文本信息字数有限的情况下分类效果大幅降低的问题。
技术特征:1.一种文本分类方法,其特征在于,包括:
2.根据权利要求1所述的分类方法,其特征在于,所述获取待分类目标的第一文本特征以及第一数值特征,包括:
3.根据权利要求2所述的分类方法,其特征在于,所述对初始文本特征进行预处理,得到第一文本特征,包括:
4.根据权利要求2所述的分类方法,其特征在于,所述对初始数值特征进行预处理,得到第一数值特征,包括:
5.根据权利要求1所述的分类方法,其特征在于,对第一文本特征进行池化,得到第一输出信息,包括:
6.根据权利要求1所述的分类方法,其特征在于,所述将第一输出信息与第一数值特征进行融合处理,得到第一融合结果,包括:
7.根据权利要求1所述的分类方法,其特征在于,所述基于第一融合结果得到最终的分类结果,包括:
8.一种文本分类装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种存储介质,其特征在于,用于存储计算机可读取的程序或指令,所述程序或指令被处理器执行时能够实现上述权利要求1至7中任意一项所述的文本分类方法中的步骤。
技术总结本发明涉及一种文本分类方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:获取待分类目标的第一文本特征以及第一数值特征;基于第一文本特征得到第一输出信息;将第一输出信息与第一数值特征进行融合处理,得到第一融合结果;基于第一融合结果得到最终的分类结果。该方法将数值特征与文本特征融合应用于分类,丰富了待分类目标的信息,有效地解决了现有技术在文本信息字数有限的情况下分类效果大幅降低的问题。技术研发人员:柳雄,胡俊受保护的技术使用者:武汉精臣智慧标识科技有限公司技术研发日:技术公布日:2024/8/5本文地址:https://www.jishuxx.com/zhuanli/20240808/271915.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。