一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本分类方法、装置、计算机设备和计算机可读存储介质与流程

2022-07-22 23:50:01 来源:中国专利 TAG:

技术特征:
1.一种文本分类方法,其特征在于,包括:获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;获取待分类文本;根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;获取预先训练至收敛状态的文本分类模型;基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;根据所述预测概率分布确定所述待分类文本的文本类型。2.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表,包括:根据所述关键词列表生成与所述关键词列表长度一致的第一特征列表;根据所述关键词列表中的关键词对所述待分类文本进行匹配;若存在匹配成功的关键词,确定匹配成功的关键词在所述关键词列表的第一位置,根据所述第一位置在所述第一特征列表中确定对应的第二位置,将所述第二位置的特征设为第一预设值,否则设为第二预设值。3.根据权利要求1所述的文本分类方法,其特征在于,所述文本分类模型通过以下步骤训练得到:获取所述文本分类任务的训练集,其中,所述训练集包括多条携带有预设分类标签的原始语料;根据所述关键词列表对每条所述原始语料进行关键词匹配,生成对应的第二特征列表;根据所述关键词列表、每条所述原始语料和对应的第二特征列表训练所述文本分类模型,直至所述文本分类模型达到收敛状态。4.根据权利要求1所述的文本分类方法,其特征在于,所述对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,包括:对所述第一特征列表进行线性回归计算得到第一预测结果;根据所述关键词列表和所述第一特征列表计算得到第二预测结果;对所述待分类文本进行语义分析得到第三预测结果;根据所述第一预测结果、所述第二预测结果和所述第三预测结果计算得到预测概率分布。5.根据权利要求4所述的文本分类方法,其特征在于,所述关键词由多个字组成,所述根据所述关键词列表和所述第一特征列表计算得到第二预测结果,包括:对所述关键词进行处理得到每个字的第一字向量;根据多个所述第一字向量计算得到对应的关键词的关键词词向量;根据所述关键词列表中每个关键词的关键词词向量和所述第一特征列表计算得到第二预测结果。6.根据权利要求5所述的文本分类方法,其特征在于,所述根据多个所述第一字向量计算得到对应的关键词的关键词词向量,包括:根据所述关键词中的每个字和多个所述第一字向量计算得到每个字的第二字向量;
确定所述关键词的词长度,根据多个所述第二字向量和所述词长度计算得到关键词词向量。7.根据权利要求4所述的文本分类方法,其特征在于,所述对所述待分类文本进行语义分析得到第三预测结果,包括:对所述待分类文本进行处理得到每个字的第三字向量;根据多个所述第三字向量计算得到所述待分类文本的文本语义向量;根据所述文本语义向量和所述文本分类模型预设的第一模型参数计算得到第三预测结果。8.一种文本分类装置,其特征在于,包括:第一获取模块,用于获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;第二获取模块,用于获取待分类文本;匹配模块,用于根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;第三获取模块,用于获取预先训练至收敛状态的文本分类模型;预测概率模块,用于基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;分类模块,用于根据所述预测概率分布确定所述待分类文本的文本类型。9.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的文本分类方法。10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任意一项所述的文本分类方法。

技术总结
本发明涉及人工智能技术领域,提供一种文本分类方法、装置、计算机设备和计算机可读存储介质,文本分类方法包括获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;获取待分类文本;根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;获取预先训练至收敛状态的文本分类模型;基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;根据所述预测概率分布确定所述待分类文本的文本类型,能够达到更强的语义表达能力,提高文本分类的准确性。类的准确性。类的准确性。


技术研发人员:陆凯
受保护的技术使用者:中国平安人寿保险股份有限公司
技术研发日:2022.03.22
技术公布日:2022/7/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献