一种针对新闻的人物言论观点挖掘方法、设备及介质
- 国知局
- 2024-08-22 14:52:51
本技术涉及电数字数据处理,具体涉及一种针对新闻的人物言论观点挖掘方法、设备及介质。
背景技术:
1、新闻通常包含大量的信息和观点,人物言论是其中的重要组成部分。人物言论往往反映了人物的立场、态度和情感,针对新闻文本中的人物进行观点挖掘有助于帮助公众快速准确把握新闻核心观点,理清新闻人物的态度,对新闻形成更为全面的认识。
2、目前,观点挖掘领域中缺乏针对新闻文本的观点挖掘范式,现有的观点挖掘方式阻碍了传统观点挖掘从用户评论向人物言论的迁移。比如,专利cn111753058a提供的一种文本观点挖掘方法及系统,侧重于对用户评论中的情感进行分析,而新闻报道中的人物言论往往不带有明确的情感或存在情感歧义,即相同的言论在不同的语境下可能表达不同的情感,传统的情感分析方法难以准确捕捉这种复杂性。此外,人物的立场和态度也不能直接地使用情感表示,这使得情感分类不能够迁移到新闻中的人物言论中。同时,传统方法通常将观点对象定义为命名实体,而人物言论的观点对象往往是一个或多个新闻事件,新闻事件不能够用单一的命名实体表示。
技术实现思路
1、为了解决上述问题,本技术提出了一种针对新闻的人物言论观点方法,包括:
2、采集新闻文档并对所述新闻文档进行预处理,得到对应的新闻语料,并基于预设的触发词词典,从所述新闻语料中抽取符合触发词的人物言论;
3、生成所述人物言论对应的标签,并构建用于连接所述人物言论及其对应的标签词的提示模板;其中,每个标签对应一个标签词;
4、根据所述提示模板构建训练样本,训练得到中心观点识别模型,并通过所述中心观点识别模型,判断所述人物言论是否属于中心观点;
5、对所述人物言论进行聚类,得到由若干言论类别组成的聚类结果,并对所述聚类结果进行分词,得到分词后的人物言论分词列表;
6、针对每个言论类别,从所述人物言论分词列表中,选取指定的人物言论分词作为所述言论类别对应的主题事件;
7、根据所述主题事件和所述人物言论,生成所述人物言论对应的知识图谱,以通过所述知识图谱,实现对所述人物言论的观点挖掘。
8、在本技术的一种实现方式中,生成所述人物言论对应的标签,并构建用于连接所述人物言论及其对应的标签词的提示模板,具体包括:
9、确定所述人物言论提及的新闻事件是否与所述人物言论所属新闻标题相符,以生成所述人物言论对应的标签;其中,所述标签包括0和1;
10、基于预设的标签词映射词典,构建所述标签与所述标签对应的标签词之间的映射关系,以根据所述映射关系,将所述标签映射为需填入提示模板的标签词;其中,所述标签词用于表示所述人物言论是否与新闻中心观点相匹配;
11、构建用于连接所述人物言论及其对应的标签词的提示模板;其中,所述提示模板包括离散型模板、连续型模板和动态连续型模板。
12、在本技术的一种实现方式中,中心观点识别模型按照层级连接顺序依次包括提示模板层、输入层、遮蔽语言模型层和标签词映射层,根据所述提示模板构建训练样本,训练得到中心观点识别模型,具体包括:
13、将所述提示模板录入至所述提示模板层;
14、通过所述输入层,获取所述提示模板层录入的提示模板,根据所述映射关系,将所述人物言论对应的标签映射为对应的标签词,并将所述提示模板与所述人物言论、所述新闻标题、所述标签词进行拼接,得到训练样本;
15、将所述训练样本输入到所述遮蔽语言模型层,通过所述遮蔽语言模型层中的ernie预训练语言模型,将所述训练样本转换为包含上下语义的训练向量,并将所述训练向量输入到所述标签词映射层;
16、在所述提示模板为所述离散型模板的情况下,通过所述标签词映射层,将所述训练向量映射到所述ernie预训练语言模型的预设词表中,通过所述预设词表中与所述标签词相关的各词向量对应的概率,预测得到所述人物言论对应不同标签词的概率;
17、在所述提示模板为所述连续型模板和所述动态连续型模板的情况下,将所述训练向量与所述标签词对应的词向量进行点积,得到所述人物言论对应不同标签词的概率。
18、在本技术的一种实现方式中,从所述人物言论分词列表中,选取指定的人物言论分词作为所述言论类别对应的主题事件,具体包括:
19、通过预设的分词权重计算公式,计算所述言论类别中的人物言论分词列表对应的分词权重;
20、按照所述分词权重由大到小的顺序,对所述人物言论分词列表中的各人物言论分词进行重新排列;
21、从重新排列后的所述人物言论分词列表中,选取预设数量个指定的人物言论分词作为所述言论类别对应的主题事件。
22、在本技术的一种实现方式中,通过预设的分词权重计算公式,计算所述言论类别中的人物言论分词列表对应的分词权重,具体包括:
23、
24、其中,t表示人物言论分词,s表示人物言论,d表示新闻文档,w表示自定义权重,st表示含有人物言论分词t的人物言论,m表示单个新闻文档中的
25、档频率。
26、在本技术的一种实现方式中,基于预设的触发词词典,从所述新闻语料中抽取符合触发词的人物言论之前,所述方法还包括:
27、获取历史人物言论并对所述历史人物言论进行分词,从得到的分词结果中筛选出用于标识人物言论的触发词;
28、对所述触发词的频数进行计算,根据所述频数,从所述触发词中选取频数大于预设值的触发词作为种子词;
29、确定与所述种子词存在相同词义的关联词汇,并将所述关联词汇作为新的种子词,重复上述过程对所述种子词进行扩展,直至得到扩展后的种子词;
30、从所述扩展后的种子词中剔除掉与所述触发词不匹配的无关词汇,得到触发词词典。
31、在本技术的一种实现方式中,通过所述中心观点识别模型,判断所述人物言论是否属于中心观点,具体包括:
32、将所述人物言论输入至所述中心观点识别模型,通过所述中心观点识别模型,输出所述人物言论对应的标签;
33、若所述标签为0,所述人物言论属于中心观点,若所述标签为1,则所述人物言论不属于中心观点。
34、在本技术的一种实现方式中,对所述人物言论进行聚类,得到由若干言论类别组成的聚类结果,具体包括:
35、通过预设的m3e预训练语言模型,对所述人物言论进行向量化,得到对应的静态向量;
36、通过u-map降维算法,对所述人物言论对应的静态向量进行降维,针对降维后的静态向量,通过层次聚类算法,对所述人物言论进行聚类,得到由若干言论类别组成的聚类结果。
37、本技术实施例提供了一种针对新闻的人物言论观点挖掘设备,所述设备包括:
38、至少一个处理器;
39、以及,与所述至少一个处理器通信连接的存储器;
40、其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上任一项所述的一种针对新闻的人物言论观点挖掘方法。
41、本技术实施例提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
42、如上任一项所述的一种针对新闻的人物言论观点挖掘方法。
43、通过本技术提出的一种针对新闻的人物言论观点方法能够带来如下有益效果:
44、通过预设的触发词词典,从新闻语料中抽取符合触发词的人物言论,然后通过构建提示模板并生成人物言论对应的标签,训练得到中心观点识别模型,这一模型能够准确判断人物言论是否属于中心观点,避免了传统情感分析方法在人物言论情感分析上存在的局限性。
45、将新闻事件作为观点对象进行处理,通过聚类和分词等步骤,提取出与人物言论相关的主题事件,解决了传统方法中将观点对象定义为命名实体的局限性。
46、对人物言论进行聚类,可以将具有相似主题的人物言论聚集在一起,更便于反映不同人物或群体在某一新闻主题上的观点分布和差异,有助于研究人员或分析者更深入地了解人物的观点和态度。
47、通过构建知识图谱,进一步提升了观点挖掘的深度和广度,为相关领域的研究和决策提供了有价值的参考。
本文地址:https://www.jishuxx.com/zhuanli/20240822/280228.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表