基于传播大数据分析的舆论分析预测方法及系统
- 国知局
- 2024-07-31 23:20:53
本发明属于舆情分析与预测,具体是涉及到一种基于传播大数据分析的舆论分析预测方法及系统。
背景技术:
1、在当今数字化时代,随着社交媒体和在线平台的广泛应用,人们可以更加方便地了解国际舆论事件,但与此同时也存在着一些明显的问题。由于与舆论事件相关的数据的数量很多,往往属于碎片化数据,数据之间更新交替较快,导致人们难以对整个事件有清楚的了解。因此,通过从官方媒体和国际社交媒体采集多模态数据,使用多模态情感分析技术进行舆论数据的情感分析,进而实现整个事件在时间、区域和主题上的可视化和舆论走向预测,对人们准确了解舆论事件具有重要意义。
2、对于舆论的分析预测过程,现有技术中首先根据网络舆情信息确定评论文本的出现频次和空间位置分布,提取舆情特征。然后,通过组合聚类算法确定舆情主题,并利用情感提取模型确定各舆情特征的情感属性。最后,根据舆情特征和情感特征确定信息熵和情感极性确定舆情信息的扩散度,并根据分析结果实现对舆论情感的预测。但现有技术中对舆论的分析过程并未考虑舆论数据的时间特征,然而不同时间的数据对舆情事件有不同的贡献,若忽略这些额外的影响特征,将会导致舆情数据分析预测结果的准确度降低。
技术实现思路
1、本发明提供一种基于传播大数据分析的舆论分析预测方法及系统,以解决现有技术中舆情数据分析预测结果的准确度较低的问题。
2、第一方面,本发明提供一种基于传播大数据分析的舆论分析预测方法,该方法包括如下步骤:
3、通过爬虫技术周期性获取网络中的多模态舆论数据;
4、预处理所述多模态舆论数据并提取所述多模态舆论数据中的舆论主题;
5、将所述舆论主题作为所述多模态舆论数据的主题标注,并将附带所述主题标注的所述多模态舆论数据存储至预设的舆论数据库;
6、获取需要进行分析预测的舆论关键词,根据所述舆论关键词在所述舆论数据库中进行匹配检索,检索到与所述舆论关键词相匹配的目标主题标注,以及附带所述目标主题标注的多个目标多模态舆论数据;
7、对所有所述目标多模态舆论数据进行多模态情感分析,得到各个所述目标多模态舆论数据的数据情感极性评分;
8、结合所述目标多模态舆论数据的数据发布时间和数据发布地区对所述数据情感极性评分进行特征加权计算,得到所述目标主题标注对应目标舆论主题的舆论情感极性评分;
9、结合所述舆论情感极性评分和所述目标多模态舆论数据的数据发布时间构建评分时序数据集;
10、将所述评分时序数据集划分为评分时序训练数据集和评分时序测试数据集,通过所述评分时序训练数据集训练预设的舆论情感预测模型,将所述评分时序测试数据集输入至训练完成的所述舆论情感预测模型中,通过所述舆论情感预测模型输出舆论预测结果,所述舆论情感预测模型基于长短期记忆模型构建。
11、可选的,所述目标多模态舆论数据包括文本舆论数据、图像舆论数据和视频舆论数据,所述对所有所述目标多模态舆论数据进行多模态情感分析,得到各个所述目标多模态舆论数据的数据情感极性评分包括如下步骤:
12、对于每个所述目标多模态舆论数据,将所述目标多模态舆论数据中的所述文本舆论数据、所述图像舆论数据和所述视频舆论数据处理整合为多模态融合特征向量;
13、将所述多模态融合特征向量输入至预训练的bert模型中,通过所述bert模型的全连接层输出情感分类向量,所述情感分类向量为三维向量,所述情感分类向量的三个维度分别表示积极情感态度、中立情感态度和消极情感态度;
14、基于所述情感分类向量三个维度的输出结果计算得到所述目标多模态舆论数据的数据情感极性评分,所述数据情感极性评分的计算公式如下:
15、
16、式中:s表示所述数据情感极性评分,α表示所述积极情感态度的情感极性评分计算权重,x1表示所述目标多模态舆论数据被分类到所述积极情感态度的概率,β表示所述中立情感态度的情感极性评分计算权重,x2表示所述目标多模态舆论数据被分类到所述中立情感态度的概率,δ表示所述消极情感态度的情感极性评分计算权重,x3表示所述目标多模态舆论数据被分类到所述消极情感态度的概率。
17、可选的,所述将所述目标多模态舆论数据中的所述文本舆论数据、所述图像舆论数据和所述视频舆论数据处理整合为多模态融合特征向量包括如下步骤:
18、使用文本预处理处理器对所述目标多模态舆论数据中的所述文本舆论数据进行分词处理,并将分词后的所述文本舆论数据进行格式转换;
19、将格式转换后的所述文本舆论数据输入至预训练的语言模型中,使用所述语言模型生成所述文本舆论数据的文本特征向量;
20、对所述目标多模态舆论数据中的所述图像舆论数据进行预处理;
21、将预处理后的所述图像舆论数据输入至图像分类模型,获取图像分类特征向量,对所述图像分类特征向量进行标准化操作,得到所述图像舆论数据的图像特征向量;
22、使用opencv处理库加载所述目标多模态舆论数据中的所述视频舆论数据,并逐帧预处理所述视频舆论数据;
23、通过预训练的视频分类模型对预处理后的所述视频舆论数据进行帧级特征提取,得到视频数据时序特征;
24、通过池化操作对所述视频数据时序特征进行整合,得到所述视频舆论数据的视频特征向量;
25、以级联的方式将所述文本特征向量、所述图像特征向量和所述视频特征向量拼接为多模态融合特征向量。
26、可选的,所述结合所述目标多模态舆论数据的数据发布时间和数据发布地区对所述数据情感极性评分进行特征加权计算,得到所述目标主题标注对应目标舆论主题的舆论情感极性评分包括如下步骤:
27、基于所述目标多模态舆论数据的数据发布时间中的最早数据发布时间和最晚数据发布时间确定所述目标多模态舆论数据的数据发布范围;
28、根据预设的分段数量将所述数据发布范围均等划分为多个数据发布时间段;
29、构建时间衰减函数,利用所述时间衰减函数分别计算得到各个所述数据发布时间段的评分权重;
30、结合所述目标多模态舆论数据的数据发布地区和各个所述数据发布时间段的评分权重对所述数据情感极性评分进行特征加权计算,得到所述目标主题标注对应目标舆论主题的舆论情感极性评分。
31、可选的,所述舆论情感极性评分的计算公式如下:
32、
33、式中:score(a,k,i)表示在所述数据发布地区a以及所述数据发布范围k内所述目标舆论主题i的所述舆论情感极性评分,k表示所述数据发布范围内的各个所述数据发布时间段,j表示所述数据发布范围内所述目标多模态舆论数据的数据发布总量,表示各个所述数据发布时间段的所述评分权重,sk,i,j表示所述数据发布范围k内属于所述目标舆论主题i的第j条所述目标多模态舆论数据的所述数据情感极性评分。
34、第二方面,本发明还提供一种基于传播大数据分析的舆论分析预测系统,所述系统包括:
35、数据获取模块,用于通过爬虫技术周期性获取网络中的多模态舆论数据;
36、数据预处理模块,用于预处理所述多模态舆论数据并提取所述多模态舆论数据中的舆论主题;
37、数据存储模块,用于将所述舆论主题作为所述多模态舆论数据的主题标注,并将附带所述主题标注的所述多模态舆论数据存储至预设的舆论数据库;
38、数据检索模块,用于获取需要进行分析预测的舆论关键词,根据所述舆论关键词在所述舆论数据库中进行匹配检索,检索到与所述舆论关键词相匹配的目标主题标注,以及附带所述目标主题标注的多个目标多模态舆论数据;
39、数据评分模块,用于对所有所述目标多模态舆论数据进行多模态情感分析,得到各个所述目标多模态舆论数据的数据情感极性评分;
40、舆论主题评分模块,用于结合所述目标多模态舆论数据的数据发布时间和数据发布地区对所述数据情感极性评分进行特征加权计算,得到所述目标主题标注对应目标舆论主题的舆论情感极性评分;
41、时序数据构建模块,用于结合所述舆论情感极性评分和所述目标多模态舆论数据的数据发布时间构建评分时序数据集;
42、舆论情感预测模块,用于将所述评分时序数据集划分为评分时序训练数据集和评分时序测试数据集,通过所述评分时序训练数据集训练预设的舆论情感预测模型,将所述评分时序测试数据集输入至训练完成的所述舆论情感预测模型中,通过所述舆论情感预测模型输出舆论预测结果,所述舆论情感预测模型基于长短期记忆模型构建。
43、可选的,所述目标多模态舆论数据包括文本舆论数据、图像舆论数据和视频舆论数据,所述数据评分模块包括:
44、数据特征融合子模块,用于对于每个所述目标多模态舆论数据,将所述目标多模态舆论数据中的所述文本舆论数据、所述图像舆论数据和所述视频舆论数据处理整合为多模态融合特征向量;
45、向量输出子模块,用于将所述多模态融合特征向量输入至预训练的bert模型中,通过所述bert模型的全连接层输出情感分类向量,所述情感分类向量为三维向量,所述情感分类向量的三个维度分别表示积极情感态度、中立情感态度和消极情感态度;
46、数据评分计算子模块,用于基于所述情感分类向量三个维度的输出结果计算得到所述目标多模态舆论数据的数据情感极性评分,所述数据情感极性评分的计算公式如下:
47、
48、式中:s表示所述数据情感极性评分,α表示所述积极情感态度的情感极性评分计算权重,x1表示所述目标多模态舆论数据被分类到所述积极情感态度的概率,β表示所述中立情感态度的情感极性评分计算权重,x2表示所述目标多模态舆论数据被分类到所述中立情感态度的概率,δ表示所述消极情感态度的情感极性评分计算权重,x3表示所述目标多模态舆论数据被分类到所述消极情感态度的概率。
49、可选的,所述数据特征融合子模块包括:
50、文本数据处理单元,用于使用文本预处理处理器对所述目标多模态舆论数据中的所述文本舆论数据进行分词处理,并将分词后的所述文本舆论数据进行格式转换,将格式转换后的所述文本舆论数据输入至预训练的语言模型中,使用所述语言模型生成所述文本舆论数据的文本特征向量;
51、图像数据处理单元,用于对所述目标多模态舆论数据中的所述图像舆论数据进行预处理,将预处理后的所述图像舆论数据输入至图像分类模型,获取图像分类特征向量,对所述图像分类特征向量进行标准化操作,得到所述图像舆论数据的图像特征向量;
52、视频数据处理单元,用于使用opencv处理库加载所述目标多模态舆论数据中的所述视频舆论数据,并逐帧预处理所述视频舆论数据,通过预训练的视频分类模型对预处理后的所述视频舆论数据进行帧级特征提取,得到视频数据时序特征,通过池化操作对所述视频数据时序特征进行整合,得到所述视频舆论数据的视频特征向量;
53、特征向量融合单元,用于以级联的方式将所述文本特征向量、所述图像特征向量和所述视频特征向量拼接为多模态融合特征向量。
54、可选的,所述舆论主题评分模块包括:
55、时间范围确定单元,用于基于所述目标多模态舆论数据的数据发布时间中的最早数据发布时间和最晚数据发布时间确定所述目标多模态舆论数据的数据发布范围;
56、时间段划分单元,用于根据预设的分段数量将所述数据发布范围均等划分为多个数据发布时间段;
57、评分权重计算单元,用于构建时间衰减函数,利用所述时间衰减函数分别计算得到各个所述数据发布时间段的评分权重;
58、舆论评分计算单元,用于结合所述目标多模态舆论数据的数据发布地区和各个所述数据发布时间段的评分权重对所述数据情感极性评分进行特征加权计算,得到所述目标主题标注对应目标舆论主题的舆论情感极性评分。
59、可选的,所述舆论情感极性评分的计算公式如下:
60、
61、式中:score(a,k,i)表示在所述数据发布地区a以及所述数据发布范围k内所述目标舆论主题i的所述舆论情感极性评分,k表示所述数据发布范围内的各个所述数据发布时间段,j表示所述数据发布范围内所述目标多模态舆论数据的数据发布总量,表示各个所述数据发布时间段的所述评分权重,sk,i,j表示所述数据发布范围k内属于所述目标舆论主题i的第j条所述目标多模态舆论数据的所述数据情感极性评分。
62、本发明的有益效果是:
63、本发明能够对舆论数据进行深入的情感分析和评分计算,从而为舆情情感倾向预测提供有力支持。本发明采用了先进的情感分析技术,对大量的舆情数据进行处理和分析。在分析过程中考虑了时间和区域因素。舆情在不同时间段和地区可能存在差异,因此,将这些因素纳入分析范围,对舆论主题的情感极性评分进行计算。这样,不仅能够得到每个主题的整体情感倾向,还能分析出情感倾向在不同时间段和地区的变化情况。最后,本发明运用了一种舆论情感预测模型,对未来情感变化进行预测。相较于现有的国际舆情分析和预测系统,本发明的优势在于其精准度和实用性。
本文地址:https://www.jishuxx.com/zhuanli/20240730/197123.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。