技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用于集控运行监视智能分析的多关键字快速匹配方法与流程  >  正文

一种用于集控运行监视智能分析的多关键字快速匹配方法与流程

  • 国知局
  • 2024-07-31 22:47:10

本发明属于电力集控,尤其是涉及 一种用于集控运行监视智能分析的多关键字快速匹配方法。

背景技术:

1、国网湖十堰供电公司变电集控站运行监视中心,目前接入d5000系统,每天上传大量的运行监测告警信息,每小时3万多条信息,单日达百万条不同类型的警告信息,需要人工进行异常确认。目前集控站工作安排人员对各类运行数据和预告警信息通过人工进行处置或处理,但是由于监测告警数据量多,任务繁杂,导致信息核实消缺等工作量大,容易造成数据的积压,发生信息漏读、漏处置等,存在异常信息未能及时跟踪处置的隐患。同时,每月超1000万条数据,需要监控人员登陆平台,人工对海量数据、重复数据进行下载、清理、分类、筛选、汇总分析,耗费大量时间且重复枯燥。在此情况下,使用计算机代替人工进行数据的整理、分类等能够大大提高数据分析的准确性,也能够大大减少人工的成本,有着非常重要的意义。

2、在使用计算机对数据进行分析时,遇到的问题是d5000系统一个月会产生千万量级的数据,若使用传统字符串匹配的方式,如kmp算法,在这些数据中匹配提前准备好的大量变电站名、异常名等关键字会非常缓慢。

3、cn117540009a公开了一种基于增强预训练文本匹配模型的文本匹配方法,构建增强预训练文本匹配模型对文本进行推断,输出结果;所述增强预训练文本匹配模型在预训练模型的基础上增加对齐掩码矩阵,所述增强预训练文本匹配模型以align_transformer为骨架,align_transformer是transformer模型的改进,包括特征提取器和分类器;所述特征提取器使用堆叠的align_transformer模块对文本对进行编码得到文本特征。其解决了预训练模型在文本匹配任务中由于缺少对齐交互信息导致的短句匹配困难、鲁棒性不强问题。

4、cn117828028a公开了一种面向长文本的文本匹配方法,其包括如下步骤:基于bert模型获取训练好的标题信息t;基于longformer模型获取融合后的文本对内容信息c;基于训练好的标题信息t和融合后的文本对内容信息c,获取最终的融合信息o;基于最终的融合信息o获取相似性得分。其采用双塔式longformer模型来对待匹配文本对的文本信息进行建模,能在保留完整语义信息的前提下,高效应对长文本的匹配问题;并通过引入标题信息与全文信息之间的交互,能够使两者相互补充,从而显著提升模型性能,进一步增强匹配准确度;另外,其综合运用表示型模型和交互型模型的优势,同时在计算复杂度上做了权衡,有助于显著降低耗能,提高工业部署的可行性。

5、然而,上述现有技术针对海量数据下多关键字的匹配方法主要分为以下两类:

6、(1)基于深度学习的方法。这类方法通过深度学习的模型如bert、transformer进行海量数据下多关键字的匹配。不足是:需要的极大的算力支持,且算法模型较为复杂。

7、(2)基于传统关键字匹配的算法。这类方法通过kmp等方法在海量数据中进行多次单一关键字的匹配来实现多关键字的匹配。不足是:算法效率不高,一般在大量数据场景下耗时长。

技术实现思路

1、为此,本发明主要解决针对目前变电集控运行监视对接入的主设备监控等系统的海量运行监视信息文本数据进行智能阅读、统计和分析挖掘,需要大规模快速匹配到多个事先准备好的关键字及其所在位置的问题。进一步地,本发明的目的是揭示一种用于集控运行监视智能分析的多关键字快速匹配方法,它是采用以下技术方案实现的。

2、一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于所述方法包含有以下步骤:

3、第一步:将预先准备好的大量关键字进行trie树的构建的步骤;

4、第二步:对trie树进行初始化工作,计算trie树中字符串的相同前缀的步骤;

5、第三步:遍历海量的文本字符串,并在trie树上根据字符串的相同前缀进行匹配的步骤;

6、第四步:输出匹配到的所有关键字以及关键字在文本字符串中的位置的步骤。

7、本发明具有以下主要有益技术效果:实现起来更为简单,实现门槛更低,且对于算力、内存空间的要求更低;本方法只需要遍历一次文本即可,效率更高,能够满足千万条文本的秒级处理。

技术特征:

1.一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于所述方法包含有以下步骤:

2.根据权利要求1所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第一步的具体流程为:

3.根据权利要求2所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第二步的具体流程为:

4.根据权利要求3所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第三步的具体流程为:遍历海量的文本字符串,同时也根据一个一个字符在trie上进行匹配,若在trie树上匹配失败,则通过跳跃指针转移到另一个字符串继续进行匹配,能够减少匹配的冗余操作。

5.根据权利要求4所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第四步的具体流程为:若当匹配到trie树上的字符串时,即匹配的节点存在结束标记时,则记录下改字符串的值以及对应海量文本中的位置,最后统一进行输出;完成基于trie树的多关键字快速匹配方法。

技术总结本发明属于电力集控技术领域,公开了一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于所述方法包含有以下步骤:将预先准备好的大量关键字进行Trie树的构建的步骤;对Trie树进行初始化工作,计算Trie树中字符串的相同前缀的步骤;遍历海量的文本字符串,并在Trie树上根据字符串的相同前缀进行匹配的步骤;输出匹配到的所有关键字以及关键字在文本字符串中的位置的步骤。本发明具有以下主要有益技术效果:实现起来更为简单,实现门槛更低,且对于算力、内存空间的要求更低;本方法只需要遍历一次文本即可,效率更高,能够满足千万条文本的秒级处理。技术研发人员:王慧慧,蹇美蓉,夏敏,胡琪,路菲,杨雅媛,周晓宇,何爽,冷琼,罗雪受保护的技术使用者:国网湖北省电力有限公司十堰供电公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194581.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。