一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于文本挖掘的水电工程进度智能评估方法

2022-06-05 10:46:10 来源:中国专利 TAG:


1.本发明涉及水利工程、建筑工程等大型基础建设工程施工安全管理技术领域,具体地指一种基于文本挖掘的水电工程进度智能评估方法。


背景技术:

2.在工程项目施工过程中,施工方在不同阶段通过进度管理对项目的施工速度、施工质量以及施工费用进行协调,以达到规定工期完成任务目的。进度管理在工程建设中对资源的合理化配置以及起到重要作用,进度失控不仅会对资源造成较大浪费,施工质量也无法得到保障,影响工程项目其他控制目标的完成。对于水电工程,进度管理要考虑各种复杂工程信息,制定详尽施工计划,全局性的控制施工过程。水电工程施工由于具有施工周期较长、施工环境恶劣、组织难度较大等的自身性质,对施工进度管理有非常高的要求。水电工程施工过程会产生大量记录施工细节的文本资料,这些文本资料多以非结构化或半结构化的数据记录为主,读取分析难度大,在对文本做横道图、赢得值等分析时,往往需要人工翻阅大量文本,费时耗力。目前水电工程项目管理处于智能化管理新阶段,其中精细化管理往往要求将大量施工文本以高效、可视的信息反馈给管理者,因此亟需一种智能方法实现自动化提取分析进度数据。
3.在现在常用的工程进度管理方法主要有甘特图法、网络图法以及赢得值法。甘特图法起源较早,应用较为广泛,通过图形和表格等来显示活动,具有简单、醒目等优点,但存在一定的局限性,图中只能显示项目管理的三重约束(时间、成本和范围),对于其他约束缺乏直观的表达;在面对水电工程庞大复杂的施工环节,甘特图法难以反映出各工作之间的相互制约关系,读图也较为困难。网络图法是从整体的角度实现对工程进度的理解与判断,但当面对水电工程这种工序复杂的大型工程,网络图分析难度较大,且难以实现对工程进度发展趋势的评估。赢得值法弥补了网络图在进度评估中的劣势,能够检测项目时刻进度,实现对当前工程施工进度的评估。
4.现有的进度数据的多以非结构化或半结构化的数据记录为主,由于数据内容过多,读取分析难度大,往往需要人工翻阅大量文本。在进行赢得值法对进度文本分析时,多为人工从数据库中寻找相关信息,费时耗力,因此设计一种智能的方法实现自动化的数据提取分析是很有必要的。


技术实现要素:

5.本发明的目的在于克服上述不足,提供一种基于文本挖掘的水电工程进度智能评估方法,将水利工程进度管理和数据挖掘中的自然语言处理和电脑程序开发相结合,对文本中海量施工关键词进行提取、分类,提高施工管理效率和非结构化施工管理文本的利用率,实现施工文本的智能化管理,促使水电工程施工管理向智能化发展。
6.本发明为解决上述技术问题,所采用的技术方案是:一种基于文本挖掘的水电工程进度智能评估方法,它包括如下步骤:
7.s1:采集施工进度管理文本,提取施工数据中进度管理相关的文本内容,集中转存至数据文件中,以作为后续主题模型采样的文档集;
8.s2:对文档集数据进行预处理,将语句分为单词,并剔除文本中的停用词和非文本字符,供后续对文本采样使用;
9.s3:以btm(biterm topic model)主题模型为分析方法,对上述预处理后的文本进行处理,提取文本中相同主题的单词,经整理后形成该工程含有的主副工序;
10.s4:依照上述整理形成的主副工序,查找文本中与工序相关的进度评估指标量化值;
11.s5:基于上述提取的主副工序以及进度评估指标量化值,开发施工进度评估程序,并在程序内采用赢得值法智能分析工序施工进度。
12.进一步地,所述步骤s1具体包括如下步骤:
13.s11:获取施工单位记录施工进度的相关电子版文件,包括监理周报、监理月报和施工组织设计文件;
14.s12:提取文件中与施工进度相关的文字,由于施工文本多有统一模板,因此可采用正则表达式或查找的办法提取相关文本,并记录到数据文件中。
15.进一步地,所述步骤s2具体包括如下步骤:
16.s21:使用python中的jieba库对步骤s1中生成的文本进行分词处理,首先补充jieba库的分词词典,将文本中的工序特征词补充到词典中,以获得更高的分词准确率;
17.s22:文本清洗,去除文中的停用词和非文本,采用停用词表,并将监理周报中出现的一些非工序特征词汇补充到停用词表中,删除文本中停用词表内含有的词汇与字符。
18.进一步地,所述步骤s3具体包括如下步骤:
19.s31:为分词后生成的单词集中的每个单词赋予索引,生成词典,以自然段为单位划分文本,单词两两组合生成词对;
20.s32:确定采样模型的相关参数,主题分布和单词分布的超参数依据经验决定,默认选取超参数α值为50/k,选取超参数β为0.01;主题数目的确定选用困惑度(perplexity)为衡量指标,困惑度是主题分类过程中对于主题提取准确性的判断指标,用来估计文本中的最优主题数,对于语料d,计算公式如下:
[0021][0022]
其中,p(b)是每个词对在语料库中出现的频率,在模型中,p(b)=p(z|d)
×
p(wi|z)
×
p(wj|z);z为训练过的主题;d为和测试集的各篇文档;wi为文中第i个词;wj为文中第j个词;b为语料库中词对数量;
[0023]
s33:通过吉布斯采样对上面已经得到的模型参数、词对进行采样分析,采用吉布斯采样算法求解主题分布参数θ和单词分布参数参数θ和φ的估计值为:
[0024][0025][0026]
其中,θk为第k个主题的生成概率,b为语料库中词对数量,αk为第k个主题的α超参
数,nk为第k个主题中词对个数;为第k个主题的第n个词的生成概率,n
kn
为第k个主题第n个词对的个数,βn为第n个词对的β超参数;取一定数目的主题词显示,即得到相同主题的工序特征词;
[0027]
s34:为使得btm主题模型计算结果更为方便人们分析,采用一种对主题模型计算结果可视化的工具——ldavis。
[0028]
进一步地,所述步骤s4具体包括如下步骤:
[0029]
s41:对于部分存储在结构化的表格中的进度评估指标量化值,直接将其转入excel表格中;对于隐含在文本中的进度评估指标量化值,采用查找或采用互信息理论对文本中内容进行提取;
[0030]
s42:将上述信息整理归类,存入数据表格中。
[0031]
进一步地,所述步骤s5具体包括如下步骤:
[0032]
s51:开发水电工程进度智能评估系统,采用c#编程语言编写winform程序,将上述进度评估指标量化值打包装入系统,供施工管理人员查找使用;
[0033]
s52:在系统中加入施工数据分析功能,采用赢得值法分析施工数据,供施工管理人员及时发现施工中出现的进度问题,指导施工现场进度管理,提高工程管理效率。
[0034]
本发明的有益效果:
[0035]
1、本发明针对海量施工进度管理文本难以高效、有效利用的问题,提出一种智能化的施工进度智能评估方法,该方法立足于施工管理文本内容,结合自然语言处理中主题模型理论,实现文本内容的智能提取与分析,本发明为水电工程施工的智能化管理提供了新的思路,有较强的现实意义。
[0036]
2、本发明将水利工程进度管理和数据挖掘中的自然语言处理和电脑程序开发相结合,对文本中海量施工关键词进行提取、分类,提高了施工管理效率和非结构化施工管理文本的利用率,实现施工文本的智能化管理,促使水电工程施工管理向智能化发展。
[0037]
3、本发明采用btm(biterm topic model)主题模型计算文本中主题分布和单词分布,提取施工进度管理文本中的工序特征词,并查找与工序特征词相关的施工进度指标及量化值;其将文本挖掘技术融入水电工程进度管理,加快了智能化管理;
[0038]
4、本发明开发基于赢得值法的施工进度评估系统,在上述研究的基础上,结合所提取的施工工序词与量化值,开发了施工进度智能评估系统,有效避免了人工操作耗时费力的过程,提高了文本提取分析的效率。
附图说明
[0039]
图1为一种基于文本挖掘的水电工程进度智能评估方法的流程图;
[0040]
图2为btm主题模型结构图;
[0041]
图3为ldavis计算结果示意图;
[0042]
图4为赢得值费用-时间评价曲线图;
[0043]
图5为数据来源示意图;
[0044]
图6为施工进度评估程序主界面图;
[0045]
图7为施工进度评估程序周进度查询界面图。
具体实施方式
[0046]
下面结合附图和具体实施例对本发明作进一步的详细描述。
[0047]
如图1所示,一种基于文本挖掘的水电工程进度智能评估方法,它包括如下步骤:
[0048]
s1:采集施工进度管理文本,提取施工数据中进度管理相关的文本内容,集中转存至数据文件中,以作为后续主题模型采样的文档集;
[0049]
s11:获取施工单位记录施工进度的相关电子版文件,包括监理周报、监理月报和施工组织设计文件;
[0050]
s12:提取文件中与施工进度相关的文字,由于施工文本多有统一模板,因此可采用正则表达式或查找的办法提取相关文本,并记录到数据文件中。
[0051]
s2:对文档集数据进行预处理,将语句分为单词,并剔除文本中的停用词和非文本字符,供后续对文本采样使用;
[0052]
s21:使用python中的jieba库对步骤s1中生成的文本进行分词处理,首先补充jieba库的分词词典,将文本中的工序特征词补充到词典中,以获得更高的分词准确率;
[0053]
s22:文本清洗,去除文中的停用词和非文本,采用哈尔滨工业大学停用词表,并将监理周报中出现的一些非工序特征词汇如“本周”、“累计”等补充到停用词表中,删除文本中停用词表内含有的词汇与字符。
[0054]
s3:以btm(biterm topic model)主题模型为分析方法,对上述预处理后的文本进行处理,提取文本中相同主题的单词,经整理后形成该工程含有的主副工序;
[0055]
s31:为分词后生成的单词集中的每个单词赋予索引,生成词典,以自然段为单位划分文本,单词两两组合生成词对;
[0056]
s32:确定采样模型的相关参数。主题分布和单词分布的超参数依据经验决定,默认选取超参数α值为50/k,选取超参数β为0.01,超参数α和β不会对实验结果产生较大影响,主要起到平滑数据的作用。主题数目的确定通常选用困惑度(perplexity)为衡量指标,困惑度是主题分类过程中对于主题提取准确性的判断指标,用来估计文本中的最优主题数,对于语料d,计算公式如下:
[0057][0058]
其中,p(b)是每个词对在语料库中出现的频率,在模型中,p(b)=p(z|d)
×
p(wi|z)
×
p(wj|z);z为训练过的主题;d为和测试集的各篇文档;wi为文中第i个词;wj为文中第j个词;b为语料库中词对数量;
[0059]
s33:通过吉布斯采样对上面已经得到的模型参数、词对进行采样分析,采用吉布斯采样算法求解主题分布参数θ和单词分布参数参数θ和φ的估计值为:
[0060][0061][0062]
其中,θk为第k个主题的生成概率,b为语料库中词对数量,αk为第k个主题的α超参数,nk为第k个主题中词对个数;为第k个主题的第n个词的生成概率,n
kn
为第k个主题第n个词对的个数,βn为第n个词对的β超参数;取一定数目的主题词显示,即得到相同主题的工
序特征词;
[0063]
s34:为使得btm主题模型计算结果更为方便人们分析,可采用一种对主题模型计算结果可视化的工具——ldavis。ldavis是一种基于网页的可视化交互系统,借助其可以使得更清楚出的理解btm主题模型结果(如图3所示)。
[0064]
ldavis主要有两个功能。第一,通过选中主题序号,可以显示出和该主题相关的主题词,相比于传统模型结果的直接显示主题词,ldavis系统可以直观的显示主题词的词频。浅色条为该主题词出现于语料库的频率,深色条为该主题词出现于该主题的概率。页面左侧为主题的分布情况,主题气泡大小与占主题内容语料库内容多少相关,对于主题气泡重叠的主题内容会有重叠的部分。第二,ldavis可以通过将光标悬停在某个单词上来检测它在不同主题上的分布情况,通过气泡的大小来展示该单词在不同主题上的分布情况。
[0065]
s4:依照上述整理形成的主副工序,查找文本中与工序相关的进度评估指标量化值;
[0066]
s41:对于部分存储在结构化的表格中的进度评估指标量化值,直接将其转入excel表格中;对于隐含在文本中的进度评估指标量化值,采用查找或采用互信息理论对文本中内容进行提取;
[0067]
s42:将上述信息整理归类,存入数据表格中。
[0068]
s5:基于上述提取的主副工序以及进度评估指标量化值,开发施工进度评估程序,并在程序内采用赢得值法智能分析工序施工进度。
[0069]
s51:开发水电工程进度智能评估系统,采用c#编程语言编写winform程序,将上述进度评估指标量化值打包装入系统,供施工管理人员查找使用;
[0070]
s52:在系统中加入施工数据分析功能,采用赢得值法分析施工数据,供施工管理人员及时发现施工中出现的进度问题,指导施工现场进度管理,提高工程管理效率。
[0071]
赢得值法不以工程量为衡量工程进度的唯一标准,而通过观测资金转化为工程量的成果,将工程量和工程成本共同作为衡量工程进度指标。赢得值法基本参数有已完成工作预算费用(bcwp)、计划工作预算费用(bcws)、已完成工作实际费用(acwp),评价指标有费用偏差(cv)、进度偏差(sv)、进度绩效指标(spi)和费用绩效指标(cpi)。绘制bcwp、acwp、bcws曲线,可直观在图中看到cv、sv大小(如图4所示)。
[0072]
实施例
[0073]
本样例所采用的数据为某水电站施工监理报告数据。本样例采用python语言对施工文本进行采样。该工程施工周期为1603天,共产生221份监理周报,每份监理报告内容超过10000字,包含了对该水电站工程进度、质量、安全等管理要素的描述,详细记录了工程施工过程中各单位工程的完成情况,并以文本与表格结合的形式描述当期施工内容及工程量,提取监理周报等施工数据中进度管理相关的文本内容,集中转存至数据文件中,示例见图5。
[0074]
对进度管理文本预处理,主要步骤为进度管理相关文本分词、去停用词和非文本等处理。分词需采用特定的分词算法,这里采用jieba库全模式对文本进行分词。由于文本专业性较强,在分词之前需要添加自定义词典,将文本中可能出现的工序特征词添加至自定义词典中,以保证分词后可以达到预期效果。在文本内容清洗、筛选时,要丢弃一些影响计算效果的非工序词、空格、标点符号等,以保证主题提取的效果。在此处采用哈尔滨工业
大学停用词表,将监理周报中出现的一些非工序特征词汇如“本周”、“累计”等补充到停用词表中,去除文本中停用词表内含有的词汇。
[0075]
为分词后生成的单词集中的每个单词赋予索引,生成词典。以自然段为单位划分文本,单词量量组合生成词对,共组建167780个词对。在计算前确定主题分布超参数α取0.5,词对分布超参数β取0.05。在计算前需估计文本最佳主题数目。综合考虑文本中相同主题工序词的类别数的范围,本研究中计算了主题数为10-25的模型困惑度值。当主题数为12时,困惑度最低,初步选取计算所需主题数为12。
[0076]
根据上文已经生成词典、词对以及确定好主题数目训练模型。通过上文公式计算得到主题分布和词分布的参数θ和。迭代次数选择100次,迭代次数过大会出现过拟合的问题,过小会出现分类效果不达标的情况。取显示的主题词个数为10,依照主题词分析得出主题名称,采样结果如表1。
[0077]
表1采样结果
[0078][0079]
在提取出施工进度文本的主题信息后,依据关键词检索进度文本中的施工进度量化值,以接缝灌浆为例,展示信息检索结果以及程序所呈现的效果。表2为接缝灌浆的部分
周完成情况。
[0080]
表2接缝灌浆周完成情况(节选)
[0081][0082]
采用c#编程语言编写winform程序开发施工进度评估程序,程序界面如图6所示。将上述数据打包装入应用程序中,并在程序中基于赢得值法对数据进行分析计算。
[0083]
如图7为施工进度评估程序周进度查询界面,在“工序”处的下拉列表中可以选择想查询进度的工序,在“时间(年/周)”处的下拉列表中可选择想查询的时间。选中工序和时
间后,点击右侧“查询”按钮,可在下方输出结果,生成工程合同量、开工累计完成量、已完成占总量百分比、周完成计划量、周完成实际量以及周进度绩效指标。
[0084]
借助施工进度评估程序,在施工后工作人员可借助该平台对曾经周、年的进度情况进行查询。可供施工人员后续分析某周、某年施工情况进行分析,及时发现施工中出现的进度问题,指导施工现场进度管理,提高工程管理效率。
[0085]
上述的实施例仅为本发明的优选技术方案,而不应视为对于本发明的限制,本技术中的实施例及实施例中的特征在不冲突的情况下,可以相互任意组合。本发明的保护范围应以权利要求记载的技术方案,包括权利要求记载的技术方案中技术特征的等同替换方案为保护范围。即在此范围内的等同替换改进,也在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献