技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于BERT的文本主题提取及时空演化分析方法及系统与流程  >  正文

一种基于BERT的文本主题提取及时空演化分析方法及系统与流程

  • 国知局
  • 2024-10-15 09:59:39

本发明涉及洪涝灾害舆情监测,具体为一种基于bert的文本主题提取及时空演化分析方法及系统。

背景技术:

1、暴雨洪涝灾害给各地都带来了巨大的人员伤亡和经济损失,其直接经济损失占所有气象灾害(包括暴雨洪涝、干旱、大风、冰雹、雷电、热带气旋、低温冷冻和雪灾等)所造成的直接经经济损失总值的年平均比重约为44.4%。相对于其他灾害而言,暴雨洪涝灾害受灾地区更多,危害性更大。而灾害信息的获取与时空分析可以帮助相关部门进行舆情的监测和及时响应,所以信息的及时性就会变得尤为重要。现如今,越来越多的研究使用微博数据,其具有数据量大、实时性强、易获取等特点,相比较于遥感和地面观测数据,微博数据更能及时反映实际情况。对于监测洪涝这种突发性的灾害事件,尤其是监测洪涝过程中造成的交通拥堵、人员受困、断水断电等灾情以及分析公众舆论走向具有十分重要的意义。因此,结合微博数据分析洪涝暴雨过程中主题的时空演化规律,挖掘更准确、及时的灾害信息,对灾害应急和防灾减灾具有重要现实意义。

2、随着社交媒体和在线平台的普及,大量的文本数据被生成,这些文本数据包含丰富的信息和洞察力,特别是在公共事件和社会动态方面。因此,从这些数据中提取主题并分析其随时间和地点的演化模式变得尤为重要。传统的文本分析方法在处理这类数据时面临诸多挑战,例如难以捕捉复杂的语义关系、处理大规模数据集的计算成本高昂以及无法有效地将文本内容与时空因素相结合。

3、现有的文本分析技术,在处理大规模、非结构化的社交媒体文本数据时存在几个主要的不足之处。首先,许多传统模型在文本的深层语义理解方面有限,难以有效地从复杂的文本数据中提取准确的主题信息。其次,现有技术往往忽视了文本数据的时空特性,无法充分利用这些信息来分析主题随时间和空间的演化规律。此外,对易错分类的处理通常不够精细,这可能导致对特定主题的解释和分析不够准确。

技术实现思路

1、鉴于上述存在的问题,提出了本发明。

2、因此,本发明解决的技术问题是:现有的文本分析方法存在无法提取准确的主题信息,忽视文本数据的时空特性,精细度低,以及分析准确度低问题。

3、为解决上述技术问题,本发明提供如下技术方案:一种基于bert的文本主题提取及时空演化分析方法,包括采集微博文本主题数据进行数据预处理;基于图排序、统计、最大边缘相关以及主题模型进行关键句抽取;根据bert主题分类模型提取每条数据的主题;通过混淆矩阵查看易错分的类别并合并;基于评价指标进行模型适用性测评;通过时间变化分析整体和局部的主题演化规律。

4、作为本发明所述的基于bert的文本主题提取及时空演化分析方法的一种优选方案,其中:所述采集微博文本主题数据进行数据预处理包括在社交媒体数据方面,通过网络爬虫和api结合,以关键词和地名相结合的限定条件获取事件发生周期内的洪灾相关的微博数据;

5、所述微博数据字段包括发布时间、微博文本内容、发布位置;

6、通过数据清洗、去重,中文分词,去停用词的预处理工作,形成微博洪灾语料库,选取带有签到位置的微博数据用于微博文本主题提取及时空演化分析;

7、所述数据清洗包括去除微博文本无关信息,判断文本字符是否为utf-8编码,若不符合该编码格式,去除该字符,将句子个数小于3的文本中的逗号改成句号,根据签到位置文本信息调用百度地图api确认位置数据,包括经纬度坐标。

8、作为本发明所述的基于bert的文本主题提取及时空演化分析方法的一种优选方案,其中:所述基于图排序、基于统计、基于最大边缘相关以及基于主题模型进行关键句抽取包括基于图排序、统计、最大边缘相关以及主题模型四个角度选取textrank、tf-idf、mmr、lda四种方法用于关键句抽取。

9、作为本发明所述的基于bert的文本主题提取及时空演化分析方法的一种优选方案,其中:所述根据bert主题分类模型提取每条数据的主题包括将提取到的关键句以及实验数据作为输入,基于bert主题分类模型提取每条数据的主题;

10、bert层的主要操作是依据文本的词嵌入、分割嵌入以及位置嵌入信息来提取文本的上下文语义信息,在输入的文本前插入[cls]符号,并将输出向量作为整个文本的语义表示,在输入的两个句子之间插入[sep]符号作为分割,将输入的句子传递于嵌入层和transformer层,输入文本的向量表示,表示为:

11、out=transfomer(embedding(text))

12、其中,text表示输入句子,embedding表示bert的输入层,transfomer表示bert的特征提取器,out表示输入文本的特征向量;

13、在bert之后加入线性分类器,输出文本分类结果,表示为:

14、label=softmax(bert(text)×w+b),label∈{0,1,2,3}

15、其中,bert(text)表示对输入文本应用bert,w表示权重矩阵,b表示偏置向量,softmax表示激活函数,label表示模型的输出。

16、作为本发明所述的基于bert的文本主题提取及时空演化分析方法的一种优选方案,其中:所述通过混淆矩阵查看易错分的类别并合并包括使用混淆矩阵检查易错分的类别,将易错分的类别进行合并,优化之后的类别满足,若有热点事件,将热点事件提取出来,类别选取需满足符合事件发展历程,类别之间无明显包含与被包含的关系,表示为:

17、

18、

19、

20、其中,vi和vj表示类别i和j在特征空间中的向量表示,ω和γ表示类别i和j的特征空间,i(t,x)表示在时空点(t,x)的类别影响力值,d表示影响力传播的速度和范围,c*表示类别间的混淆程度,表示在类别空间流形m上寻找使得表达式最小的类别集合l′,表示在流形m的边界b上的闭合路径积分,r(l′)表示在类别集合l′下的函数,l′表示优化后的类别集合,表示流形的边界,r和s表示在类别空间中定义的函数。

21、作为本发明所述的基于bert的文本主题提取及时空演化分析方法的一种优选方案,其中:所述基于评价指标进行模型适用性测评包括将微博文本按照用户类型和文本长度划分,分别用准确率、精确率、召回率以及f1精度评价指标进行模型适用性测评,表示为:

22、

23、

24、其中,m表示原始混淆矩阵,tp、fp、fn、tn表示真正例、假正例、假负例和真负例的数量,r表示黎曼几何转换后的混淆矩阵,c表示复平面上的一条曲线,z和表示复数及共轭,π表示综合性能指标,表示第i个类别的转换混淆矩阵ri的黎曼梯度。

25、作为本发明所述的基于bert的文本主题提取及时空演化分析方法的一种优选方案,其中:所述通过时间变化分析整体和局部的主题演化规律包括输出每个地区话题热度值,通过时间变化分析整体和局部的主题演化规律,表示为:

26、

27、其中,h表示地区对洪涝暴雨事件的关注程度,count表示在某一时间段内位于地区签到位置的微博数量,person表示地区15到65岁人口的相对数量;

28、抽取整个事件中时间节点,分析随着时间变化,各地区对事件热度关注程度变化。

29、本发明的另外一个目的是提供一种基于bert的文本主题提取及时空演化分析系统,其能通过构建bert的主题分类模型,解决了目前的文本分析方法含有主题分类的精确度低的问题。

30、作为本发明所述的基于bert的文本主题提取及时空演化分析系统的一种优选方案,其中:包括初始化模块,关键句提取模块,主题提取模块,类别优化模块,适用性测评模块,主题时空演化分析模块;

31、所述初始化模块用于采集微博文本主题数据;

32、所述关键句提取模块用于将处理好的数据分别放入textrank、mmr、tf-idf和lda四种算法运行,选取每种算法下句子重要性排序的前三句话代替文本;所述主题提取模块用于将提取到的关键句以及实验数据作为输入,基于bert主题分类模型提取每条数据的主题;所述类别优化模块用于通过混淆矩阵查看易错分的类别,合并相似类别提高分类精度;所述适用性测评模块用于将微博文本按照用户类型和文本长度划分,分别用准确率、精确率、召回率以及f1精度评价指标进行模型适用性测评;所述主题时空演化分析模块用于输出每个地区话题热度值,通过时间变化分析整体和局部的主题演化规律。

33、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序是实现基于bert的文本主题提取及时空演化分析方法的步骤。

34、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于bert的文本主题提取及时空演化分析方法的步骤。

35、本发明的有益效果:本发明提供的基于bert的文本主题提取及时空演化分析方法通过结合图排序、统计分析、最大边缘相关性以及主题模型技术,提高关键信息的提取准确性和完整性,应用基于bert的主题分类模型,准确地将文本内容分类到不同的主题中,提高分类任务的准确率和可靠性,使得对大规模微博文本数据的处理变得更加高效和准确,利用混淆矩阵分析易错分的类别并进行合并,减少分类错误,提高模型在实际应用中的可靠性和准确性,本发明在效率、准确率以及可靠性方面都取得更加良好的效果。

本文地址:https://www.jishuxx.com/zhuanli/20241015/316042.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。