一种基于知识图谱的新闻分类方法、装置、设备、介质与流程
- 国知局
- 2024-08-22 14:19:14
本发明涉及机器学习和文本分析,具体涉及一种基于知识图谱的新闻分类方法、装置、设备、介质。
背景技术:
1、企业往往会建立内部的新闻平台,对网络上类别混乱、内容混杂、真假不一的新闻收集筛选并重新整理、分类,然后提供给员工阅读。除此之外,企业内部每天也会有大量新闻产生。如果依靠人工对这些新闻进行整理和分类,会带来大量成本且效率较低。因此,利用文本分类算法实现自动化的新闻分类对企业新闻平台的搭建和维护具有重要意义。传统的文本分类算法主要是基于规则、概率和统计的方法,如决策树、k近邻等。在某个较小的特定领域,传统的文本分类算法可以取得较好的分类效果,然而对于互联网和企业来说,新闻的数量和种类都十分庞大,使用传统的分类算法很难得到准确的分类结果;并且,随着样本数和类别的增加,传统算法的时间和空间开销很高,不适合数据量庞大且更新频繁的互联网和企业新闻分类任务。近年来,随着人工智能技术的快速发展,许多研究人员开始在文本分类任务中探索深度学习方法的应用,并取得了很大的成功。
2、在相关技术中,深度学习文本分类模型都较为复杂,具有大量的模型参数,这导致模型运行的速度相对较慢,且对硬件的要求较高,给企业部署为服务带来了较高的硬件成本;其次,目前的深度学习文本分类模型的输入长度有限,导致对新闻类的长文本分类效果较差;最后,某些新闻的内容具有一定的欺诈性,这为准确分类带来了较大困难,需要模型具有较强的语义理解能力。从而使得文本分类模型无法准确的对新闻进行分类。
技术实现思路
1、有鉴于此,本发明提供了一种基于知识图谱的新闻分类方法、装置、设备、介质,以解决文本分类模型无法准确的对新闻进行分类的技术问题。
2、第一方面,本发明提供了一种基于知识图谱的新闻分类方法,方法包括:获取新闻信息;基于新闻信息,确定文本块;基于文本块与新闻信息构建知识图谱并通过知识图谱对文本块进行过滤,确定过滤后的文本块;将过滤后的文本块输入预训练的知识蒸馏模型,确定新闻分类结果。
3、结合第一方面,在第一方面的一种可能的实现方式中,基于文本块与新闻信息构建知识图谱,包括:基于文本块进行识别,提取实体;基于预设规则将实体与新闻信息进行匹配,确定知识三元组;基于知识三元组,计算知识三元组之间的相似度,进行实体融合,确定实体关系三元组,以实体关系三元组构建知识图谱。
4、结合第一方面,在第一方面的一种可能的实现方式中,基于预设规则将实体与新闻信息进行匹配,确定知识三元组,包括:基于预设规则将实体与新闻信息进行匹配,得到初始种子集合;基于初始种子集合,在新闻信息中筛选候选样例;基于候选样例与预设规则进行匹配,以候选样例扩充初始种子集合,形成知识三元组。
5、结合第一方面,在第一方面的一种可能的实现方式中,通过知识图谱对文本块进行过滤,确定过滤后的文本块,包括:基于知识图谱对文本块进行约束;响应于文本块中的实体信息的数量满足知识图谱,保留文本块;响应于文本块中的实体信息的数量低于知识图谱,丢弃文本块。
6、结合第一方面,在第一方面的一种可能的实现方式中,知识蒸馏模型包括教师网络与学生网络,知识蒸馏模型的训练过程,包括:将预设训练数据分别输入教师网络与学生网路,利用教师网络向学生网路进行知识传递,分别确定教师网络信息与学生网络信息;基于教师网络信息与学生网络信息,构建全局信息损失函数,以全局信息损失函数对知识蒸馏模型进行训练。
7、结合第一方面,在第一方面的一种可能的实现方式中,基于教师网络信息与学生网络信息,构建全局信息损失函数,包括:
8、通过如下公式表达全局信息损失函数:
9、
10、其中, l表示全局信息损失函数, lsoft表示软标签损失, lfeature表示特征表示损失, luncertain表示模型不确定损失, α、 β、 γ分别表示对应损失的权重。
11、结合第一方面,在第一方面的一种可能的实现方式中,在基于教师网络信息与学生网络信息,构建全局信息损失函数之后,还包括:响应于学生网路训练完成,计算学生网络的精准度、召回率以及f1得分;基于精准度、召回率、f1得分,以及分别对应的预设阈值,对训练好的学生网络进行评估。
12、第二方面,本发明提供了一种基于知识图谱的新闻分类装置,装置包括:获取模块,用于获取新闻信息;分块模块,用于基于新闻信息,确定文本块;过滤模块,用于基于文本块与新闻信息构建知识图谱并通过知识图谱对文本块进行过滤,确定过滤后的文本块;分类模块,用于将过滤后的文本块输入预训练的知识蒸馏模型,确定新闻分类结果。
13、第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的基于知识图谱的新闻分类方法。
14、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的基于知识图谱的新闻分类方法。
15、本发明技术方案,具有如下优点:
16、本发明提供的一种基于知识图谱的新闻分类方法、装置、设备、介质,该方法通过获取新闻信息,并对新闻信息进行分块,基于文本块与新闻信息构建知识图谱并通过知识图谱对文本块进行过滤,从而利用知识蒸馏模型,确定新闻分类结果。这一过程中,通过对新闻信息的分块,避免因输入长度所引起分类效果差的问题,并利用知识图谱对文本块进行过滤,使得缩减文本输入的长度的同时,保留新闻信息的全局信息不丢失以及减少欺诈内容的输入,并结合知识蒸馏模型,利用知识蒸馏模型的知识传递能力,降低模型复杂程度的同时保证了轻量级模型具有全面的学习内容和目标,从而以轻量级的模型进行新闻分类,减少模型运行部署要求,进一步提高新闻分类的准确性。
技术特征:1.一种基于知识图谱的新闻分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本块与所述新闻信息构建知识图谱,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于预设规则将所述实体与所述新闻信息进行匹配,确定知识三元组,包括:
4.根据权利要求1所述的方法,其特征在于,所述通过所述知识图谱对所述文本块进行过滤,确定过滤后的文本块,包括:
5.根据权利要求1所述的方法,其特征在于,所述知识蒸馏模型包括教师网络与学生网络,所述知识蒸馏模型的训练过程,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述教师网络信息与学生网络信息,构建全局信息损失函数,包括:
7.根据权利要求5所述的方法,其特征在于,在所述基于所述教师网络信息与学生网络信息,构建全局信息损失函数之后,还包括:
8.一种基于知识图谱的新闻分类装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的基于知识图谱的新闻分类方法。
技术总结本发明涉及机器学习和文本分析技术领域,公开了一种基于知识图谱的新闻分类方法、装置、设备、介质,该方法包括:获取新闻信息;基于新闻信息,确定文本块;基于文本块与新闻信息构建知识图谱并通过知识图谱对文本块进行过滤,确定过滤后的文本块;将过滤后的文本块输入预训练的知识蒸馏模型,确定新闻分类结果。本发明的方案通过知识图谱对输入的新闻信息进行约束,利用知识蒸馏进行模型压缩,从而以轻量级模型提高新闻分类的准确性。技术研发人员:张线哲,王相成,李腾,宋俊,李士龙,黑俊铭,吴艺文,王韩,李超然受保护的技术使用者:浪潮通用软件有限公司技术研发日:技术公布日:2024/8/21本文地址:https://www.jishuxx.com/zhuanli/20240822/278107.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表