一种基于日志采样的流程实例下一事件预测方法与系统

2022-11-14 13:14:37 来源：中国专利 TAG：

技术特征：
1.一种基于日志采样的流程实例下一事件预测方法，其特征在于，包括以下步骤：1)获取真实原始事件日志并对其进行预处理，该真实原始事件日志中记录了业务流程所有信息，包含业务流程事件及事件属性，该预处理是针对业务流程下一事件预测需求，保留事件及时间属性，得到标准事件日志；2)根据步骤1)中获得的标准事件日志以轨迹为单位按照比例随机划分为训练集、验证集和测试集；3)利用步骤2)划分好的训练集，利用logrank 算法对事件日志按照特定采样率采样，得到采样后的训练集；4)将步骤3)获得的采样后训练集和步骤2)划分后未经过采样的验证集输入到深度学习网络模型中进行下一事件预测的训练和验证，得到训练和验证好的深度学习网络模型以及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比；5)将步骤2)划分后未经过采样的测试集输入到步骤4)训练和验证好的深度学习网络模型进行测试，得到下一事件预测任务的测试准确率；6)根据步骤5)得到的下一事件预测任务的测试准确率及步骤4)得到的采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比和步骤3)设定的采样率来调整训练和验证好的深度学习网络模型的参数，从而优化模型，得到最优的深度学习网络模型，后续将下一事件预测任务输入该最优的深度学习网络模型，即可得到准确的预测结果。2.根据权利要求1所述的一种基于日志采样的流程实例下一事件预测方法，其特征在于，在步骤1)中，获取初始数据，即原始事件日志，在获取原始事件日志之后进行预处理，将原始事件日志中不相关属性剔除，只保留与事件预测相关的事件及事件的时间属性，获得用于预测业务流程下一事件的标准事件日志；所述事件预测中的事件是事件日志中由全部事件构成的集合，称为事件集ε，每一个事件e的执行用e＝(a1,a2,...,a
m
)∈ε表示，其中a
m
表示为事件的第m个属性。3.根据权利要求2所述的一种基于日志采样的流程实例下一事件预测方法，其特征在于，在步骤2)中，根据步骤1)获得的预测流程实例下一事件的标准事件日志划分不同的训练集、验证集及测试集，其具体步骤如下：2.1)在预测流程实例下一事件的标准事件日志中，设定特定比例的训练集、验证集及测试集；2.2)按照步骤2.1)设定的比例，获取标准事件日志的轨迹长度及其数量，计算训练集、验证集及测试集包含的轨迹数量，并以轨迹为单位按轨迹数量进行随机划分；2.3)将步骤2.2)按比例划分好的训练集、验证集及测试集分别保存到三个文档中；所述轨迹是由n个事件所构成有序序列，包含了事件及其属性信息，代表一次业务流程的完整执行，也称为流程实例。4.根据权利要求3所述的一种基于日志采样的流程实例下一事件预测方法，其特征在于，在步骤3)中，将步骤2)获得的训练集按照特定采样率对事件日志进行采样操作，其具体步骤如下：3.1)根据步骤2)获得的训练集大小和期望提升的效率，提前设定采样率s，其中采样率越小得到的采样后数据集越小；
3.2)通过logrank 算法，计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性；通过计算事件日志中包含事件a的轨迹数量求得事件重要性，事件重要性的公式为：式中，a为事件，l为事件日志，|l|为事件日志包含轨迹数，sig(a)为事件a的重要性，σ
i
表示事件日志l中的第i条轨迹；通过计算包含直接跟随事件关系<a,b>的轨迹数量计算直接跟随事件关系的重要性，直接跟随事件关系的重要性公式为：式中，a、b为事件，<a,b>为直接跟随事件关系，sig(a,b)为直接跟随事件关系的重要性；3.3)根据步骤3.2)得到的各个事件的重要性及直接跟随事件关系的重要性，得到事件日志中每条轨迹的重要性，计算轨迹重要性的公式如下：式中，sig(σ)为轨迹重要性，sig(σ)的数值越大代表轨迹越重要；3.4)根据步骤3.3)计算所得的轨迹重要性，对训练集中所有轨迹按轨迹重要性从高到低排序，并按照步骤3.1)设定的采样率s选取训练集前s条轨迹，得到采样后的训练集。5.根据权利要求4所述的一种基于日志采样的流程实例下一事件预测方法，其特征在于，在步骤4)中，根据步骤3)获得的采样后训练集和步骤2)划分后的验证集输入到深度学习网络模型中进行训练，其具体步骤如下：4.1)将步骤3)获得的采样后训练集的事件日志进行轨迹前缀的提取和拷贝，并将轨迹前缀输入深度学习网络模型中特征提取阶段进行特征提取，得到轨迹的特征及事件信息；4.2)根据步骤4.1)获得的采样后训练集的事件日志的特征信息，对轨迹前缀进行下一事件预测，并计算准确率acc；其中，预测下一事件的结果有四种不同类型，分别为真阳性tp、假阳性fp、真阴性tn、假阴性fn，选定准确率acc作为衡量算法评价指标，其计算方式如下：通过计算轨迹前缀下一事件预测结果在验证集中的准确率acc，能够反映出预测结果的准确性，acc越大，说明下一事件预测结果越准确；4.3)计算深度学习网络模型的交叉熵损失和根据步骤4.2)获得的轨迹前缀下一事件预测的准确率，通过验证集进行交叉验证，提高预测准确率，得到训练和验证好的深度学习网络模型；其中，所述轨迹前缀是代表一条轨迹前k个有序事件序列，表示为σ(k)＝<e1,
e2,...,e
k
,...,e
n
>，k∈[1,n)，e
k
为轨迹中第k个事件；所述交叉熵是能够衡量下一事件预测概率分布与真实值概率分布的差异程度，能够表示预测效果，交叉熵的数值越小表示模型的效果越好；评价流程实例下一事件预测方法的优劣不仅需要评估其预测的准确性，还需要从时间花费角度进行分析；为评估预测效率，设定采样后的训练、验证时间和事件日志采样时间与采样前训练、验证时间之比r作为评估时间性能的指标；设原始数据集中未经采样训练和验证耗时为t
p
，采样阶段耗时为t
s
，在采样后的数据集中训练和验证耗时为t
′
p
，t
all
为每次训练、验证和采样的平均总耗时，为减少模型训练、验证和采样时带来的误差，取5次计算平均数，其计算方式为：式中，j为采样和训练、验证模型的次数；评估时间性能的指标r的计算方式为：其中，r越大代表事件日志采样后的预测效率越高。6.根据权利要求5所述的一种基于日志采样的流程实例下一事件预测方法，其特征在于，在步骤5)中，将步骤2)获得的划分后未经过采样的测试集输入到步骤4)训练和验证好的深度学习网络模型中，测试模型最终的效果，通过计算在测试集中的准确率acc，能够反映出预测结果的准确性，acc越大，说明预测越准确。7.根据权利要求6所述的一种基于日志采样的流程实例下一事件预测方法，其特征在于，在步骤6)中，根据步骤5)获得的测试集的预测准确率和步骤4)获得的训练、验证的预测准确率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进一步调整，通过调整batch_size和iteration参数减少深度学习网络模型训练时间、调整采样率控制训练集大小，得到最优的深度学习网络模型，后续将下一事件预测任务输入该最优的深度学习网络模型，即可得到准确的预测结果；其中，所述batch_size是在深度学习网络模型训练时每次训练的数据集批次大小，表示训练集每次取batch_size个训练样本进行训练；所述iteration是训练时迭代的次数。8.一种基于日志采样的流程实例下一事件预测系统，其特征在于，包括数据获取和预处理模块、数据划分模块、日志采样模块、深度学习模型训练模块、预测结果输出模块和调整优化模块；所述数据获取和预处理模块用于获取、分析和预处理事件日志；所述数据划分模块用于将预处理后事件日志按比例进行划分训练集、验证集和测试集；所述日志采样模块用于对划分后的训练集按采样率进行日志采样；所述深度学习模型训练模块用于训练深度学习网络模型作为下一事件预测模型，并采用验证集进行验证，得到训练和验证好的深度学习网络模型以及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比；所述预测结果输出模块用于测试下一事件预测模型结果，并记录其准确率；
所述调整优化模块用于根据测试结果、训练和验证结果、采样率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进行进一步调整。9.根据权利要求8所述的一种基于日志采样的流程实例下一事件预测系统，其特征在于：所述数据获取和预处理模块具体执行如下操作：获取初始数据，即原始事件日志，在获取原始事件日志之后进行预处理，将原始事件日志中不相关属性剔除，只保留与事件预测相关的事件及事件的时间属性，获得用于预测业务流程下一事件的标准事件日志；所述数据划分模块具体执行如下操作：在预测流程实例下一事件的标准事件日志中，设定特定比例的训练集、验证集及测试集，获取标准事件日志的轨迹长度及其数量，计算训练集、验证集及测试集包含的轨迹数量，并以轨迹为单位按轨迹数量进行随机划分，将比例划分好的训练集、验证集及测试集分别保存到三个文档中。10.根据权利要求8所述的一种基于日志采样的流程实例下一事件预测系统，其特征在于：所述日志采样模块具体执行如下操作：通过训练集大小和期望提升的效率，提前设定采样率s，其中采样率越小得到的采样后数据集越小；通过logrank 算法，计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性；通过计算事件日志中包含事件a的轨迹数量求得事件重要性，事件重要性的公式为：式中，a为事件，l为事件日志，|l|为事件日志包含轨迹数，sig(a)为事件a的重要性，σ
i
表示事件日志l中的第i条轨迹；通过计算包含直接跟随事件关系<a,b>的轨迹数量计算直接跟随事件关系的重要性，直接跟随事件关系的重要性公式为：式中，a、b为事件，<a,b>为直接跟随事件关系，sig(a,b)为直接跟随事件关系的重要性；根据得到的各个事件的重要性及直接跟随事件关系的重要性，得到事件日志中每条轨迹的重要性，计算轨迹重要性的公式如下：式中，sig(σ)为轨迹重要性，sig(σ)的数值越大代表轨迹越重要；对训练集中所有轨迹按轨迹重要性从高到低排序，按照设定的采样率s选取训练集前s条轨迹，得到采样后的训练集；所述深度学习模型训练模块具体执行如下操作：
将获得的采样后训练集的事件日志进行轨迹前缀的提取和拷贝，并将轨迹前缀输入深度学习网络模型中特征提取阶段进行特征提取，得到轨迹的特征及事件信息，对轨迹前缀进行下一事件预测，并计算准确率acc；其中，预测下一事件的结果有四种不同类型，分别为真阳性tp、假阳性fp、真阴性tn、假阴性fn，选定准确率acc作为衡量算法评价指标，其计算方式如下：通过计算轨迹前缀下一事件预测结果在验证集中的准确率acc，能够反映出预测结果的准确性，acc越大，说明下一事件预测结果越准确；计算深度学习网络模型的交叉熵损失和轨迹前缀下一事件预测的准确率，通过验证集进行交叉验证，提高预测准确率，得到训练和验证好的深度学习网络模型；评价流程实例下一事件预测方法的优劣不仅需要评估其预测的准确性，还需要从时间花费角度进行分析；为评估预测效率，设定采样后的训练、验证时间和事件日志采样时间与采样前训练、验证时间之比r作为评估时间性能的指标；设原始数据集中未经采样训练和验证耗时为t
p
，采样阶段耗时为t
s
，在采样后的数据集中训练和验证耗时为t
′
p
，t
all
为每次训练、验证和采样的平均总耗时，为减少模型训练、验证和采样时带来的误差，取5次计算平均数，其计算方式为：式中，j为采样和训练、验证模型的次数；评估时间性能的指标r的计算方式为：其中，r越大代表事件日志采样后的预测效率越高；所述预测结果输出模块具体执行如下操作：将未经过采样的测试集输入到训练和验证好的深度学习网络模型中，测试模型最终的效果，通过计算在测试集中的准确率acc，能够反映出预测结果的准确性，acc越大，说明预测越准确；所述调整优化模块具体执行如下操作：根据获得的测试集的预测准确率和训练、验证预测准确率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进一步调整，通过调整batch_size和iteration参数减少深度学习网络模型训练时间、调整采样率控制训练集大小，得到最优的深度学习网络模型，后续将下一事件预测任务输入该最优的深度学习网络模型，即可得到准确的预测结果。

技术总结
本发明公开了一种基于日志采样的流程实例下一事件预测方法与系统，包括：获取数据并预处理以获取标准事件日志；将标准事件日志根据任务需求按照比例划分为训练集、验证集和测试集；将训练集按照轨迹重要性将轨迹进行排序并采样；将采样后的训练集和验证集输入至深度学习网络模型中进行训练与验证；将未经过采样的测试集输入到训练和验证好的模型进行测试，得到下一事件预测任务测试结果；对深度学习网络模型进行参数调整，优化模型。本发明可实现高效的流程实例下一事件预测，规避流程操作中存在的违规风险，突破当前没有合适的事件日志完成下一事件预测任务的局限性，相较于单纯只利用深度学习模型进行预测，减少了训练量，提高决策效率。高决策效率。高决策效率。

技术研发人员：刘聪董乐乐陆婷李会玲郭娜任崇广
受保护的技术使用者：山东理工大学
技术研发日：2022.07.29
技术公布日：2022/11/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：工程车辆盲区数据补传方法、装置、设备及存储介质与流程

一种基于日志采样的流程实例下一事件预测方法与系统

相关文献

最热文献