技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于频率信道转换和自监督的气井积液分类和预测方法 > 正文

基于频率信道转换和自监督的气井积液分类和预测方法

国知局
2024-07-31 22:35:35

本发明属于气井积液分类和预测，尤其涉及一种基于频率信道转换和自监督的气井积液分类和预测方法。

背景技术：

1、气井积液是导致气井产量下降的主要问题之一。随着气藏开发的进行，气藏压力逐渐降低，导致气井内的气体流速下降。当流速降至临界值以下时，气体无法将全部液体排出井口，导致部分液体回落并在井筒内积聚产生积液。随着气藏能量的持续降低和井筒内积液量的增加，当井筒内的液体完全压死气井时，将导致气井因水淹而停产。

2、目前判断气井积液的主要方式有三种，一类是用气井井筒内气体的流速是否低于气体的临界携液流速来判断井筒是否积液，如果井筒内气体流速低于临界携液流速则表示井筒存在积液。这类方式的局限性在于仅通过临界携液流量判断井筒积液，对井筒气液两相流流动规律不清晰，气井何时积液、何时停喷规律不明确。一类是基于统计学的方法，如基于生产数据分析的积液预测方法，利用动态生产数据，分析井底气液状态，判断是否积液。这类方法存在的问题时在积液不同阶段，气井在动态生产数据的表现规律不清晰，与积液表现相关性较高的特征分析认识不足，传统的基于统计特征的方法适用性不足，无法刻画复杂的积液规律。另一类是基于机器学习的积液判断方法，利用生产数据构建多维特征向量，使用聚类、随机森林等机器学习算法来预测积液，这类方法的缺点在于存在对大量标注数据的依赖，无法利用未标注数据，同时容易受到训练数据中存在的偏差的影响，导致模型泛化能力不足。

技术实现思路

1、针对现有技术中的上述不足，本发明提供的一种基于频率信道转换和自监督的气井积液分类和预测方法，有效地解决了气井积液分类和预测中标签数据有限的问题，提高模型准确性和效率。

2、为了达到以上目的，本发明采用的技术方案为：一种基于频率信道转换和自监督的气井积液分类和预测方法，包括以下步骤：

3、s1、获取气井天级生产数据，并对获取的气井天级生产数据进行分析特征选择和预处理，并分别构建有标签数据集以及无标签数据集；

4、s2、对无标签数据集的子序列数据进行频率信道转换和掩码处理，并利用时频一致性、近邻加权聚合恢复掩码时间点，构建预训练模型，利用无标签数据集对预训练模型进行训练；

5、s3、利用经训练后的预训练模型，在下游积液任务中构建微调模型，并利用有标签数据集对微调模型的参数进行调整；

6、s4、利用进行参数调整后的微调模型输出分类结果和预测结果。

7、本发明的有益效果是：本发明通过频率信道转换技术和近邻加权聚合掩码重建自监督学习，能够利用时序数据的频率信息和时间信息对未标注的数据进行训练，减少了对昂贵和耗时的标注数据的依赖，降低了数据准备的成本和时间；与传统机器学习方式对比，本发明能够从未标注数据中学习到通用的特征表示，从而提高模型在不同井数据上的泛化能力。本发明具有较强的适应性，气井数据通常是多序列、多变量的复杂数据；由于自监督学习依赖于数据本身的结构，本发明可以适应不同气井的动态变化，具有很强的适应性和灵活性。

8、进一步地，所述s1包括以下步骤：

9、s101、获取气井天级生产数据中的平均油压、平均套压、日产气量、日产水量以及生产时间动态数据；

10、s102、通过平均油压和平均套压构建套油压差特征，以及通过日产气量和日产水量构建水气比特征；

11、s103、将s101获取的数据以及s102构建的特征，作为分析特征；

12、s104、利用循环分段探测，剔除存在缺失值的分析特征数据；

13、s105、利用k近邻缺失值填充法，对剔除缺失值后的分析特征数据进行填充；

14、s106、利用局部箱线图法对分析特征数据中的异常值进行处理；

15、s107、针对每个分析特征数据，分别进行归一化处理；

16、s108、将气井的静态特征拼接至s105-s107处理后的数据中，完成对气井天级生产数据的预处理；

17、s109、在经预处理后的气井天级生产数据中，利用人工标注有标签数据，将除有标签数据外的数据记为无标签数据，其中，有标签数据包括分类数据和预测数据，分类数据中标注有积液时间段和非积液时间段，预测数据中将远离积液时间点的标签设置为第一阈值，将靠近积液时间点的标签设置为第二阈值；

18、s1010、对有标签数据和无标签数据分别进行滑动窗口处理，抽取若干个子序列，并根据子序列组合，分别构建有标签数据集和无标签数据集。

19、上述进一步方案的有益效果是：本发明利用循环分段探测剔除缺失值，考虑到数据缺失过多时，填补后容易对模型的效果产生不良影响，通过这一方式能够保留缺失数据较少的数据部分，剔除缺失严重的数据，从而优化数据处理的效果。k近邻缺失值填充法是众多处理缺失数据方法中的一种复杂技术，该技术通过考察包含缺失值的样本周边多个邻近样本的信息，以此作为基础来对缺失的数据进行补全。局部箱线图法不依赖于全局的数据分布，而是根据局部数据特性来确定异常值，这使得它能够适应数据的变化趋势。分析特征数据分别进行归一化，将每个分析特征数据均被缩放到了具有零均值和单位标准差的分布，使得每个分析特征数据的缩放是基于其自身的分布特性进行的，而不是基于所有特征的统一分布，有助于保持不同特征之间的差异性。时间序列数据中的顺序包含了与时间相关的潜在信息，通过使用sliding window滑动窗口技术，可以保留这些时间相关特征，而不是仅仅分析单个时间点的数据。

20、再进一步地，所述利用k近邻缺失值填充法，对剔除缺失值后的分析特征数据的缺失值进行填充，其具体为：

21、通过距离测量识别分析特征数据中空间相似的k个样本，并利用k个样本对缺失值进行估计并填充缺失值，其中，每个样本的缺失值，利用分析特征数据获取的k邻域的平均值进行插补：；；其中，表示缺失值，表示第条气井天级数据的权重，表示周边第条气井天级数据的值，表示缺失值附近气井天级数据的总数，表示第条气井天级数据与缺失值的欧几里得距离。

22、再进一步地，所述s2包括以下步骤：

23、s201、利用数据增强层aug，对无标签数据集的子序列数据进行频率信道转换处理；

24、s202、利用数据增强层aug，对无标签数据集的子序列数据进行掩码处理，生成表示原始时间序列不同视觉信号的多个掩码时间序列：；其中，表示掩码时间序列，表示原始时间序列， j表示第 j个掩码时间序列， m表示生成的掩码时间序列个数，表示掩码操作，表示掩码矩阵， r表示掩码比例；

25、s203、根据频率信道转换处理结果和生成的多个掩码时间序列，利用时频一致性、近邻加权聚合恢复掩码时间点重建原始时间序列，完成对预训练模型的构建；

26、s204、利用无标签数据集，对预训练模型进行迭代训练，保存最后得到的预训练模型的编码器参数和投影层参数，完成对预训练模型的训练。

27、上述进一步方案的有益效果是：频率信道转换技术能够突出时序信号中的有效频率成分，同时抑制噪声和干扰。利用时频一致性和近邻加权聚合掩码机制能够有效重建原始时间序列，指导自监督预训练模型的训练。通过构建数据增强层、编码器、映射层和解码器，预训练模型能够在多个层次上学习和表达时间序列数据的特征，有助于捕捉更复杂的数据模式和关系。通过在无标签数据上进行预训练，并将得到的参数保存用于后续的模型微调，可以提高预训练模型在新任务上的适应性和性能。

28、再进一步地，所述s201包括以下步骤：

29、s2011、利用数据增强层aug，利用下式，将分析特征数据沿通道维度划分为c个单独的通道变量：；；；；其中，和均表示通道变量，表示分析特征数据的批量大小，表示通道的数量，表示输入分析特征数据的时间长度，表示通道变量的下标索引，表示大小的三维实数张量，表示分析特征数据，表示划分操作，表示大小的三维实数张量；

30、s2012、利用下式，将每个通道变量与从低频到高频排序的所有离散余弦变换dct分量逐元素相乘，将每个通道变量从时序信息转化为频域信息：；其中，表示从时序信息转化为频域信息的通道变量，表示离散余弦变换，表示从低频到高频排序的离散余弦变换dct分量索引；

31、s2013、将转换的频域信息，利用堆叠的方式变换为原始形状，并利用kan深度学习网络学习频率通道注意力，其中，原始形状为与原始时间序列相同的形状：；；其中，表示基于科尔莫戈洛夫-阿诺尔德表示定理kolmogorov-arnold的深度学习网络，表示堆叠操作，表示从时序信息转化为频域信息的第个通道变量，表示从时序信息转化为频域信息的第0个通道变量，表示从时序信息转化为频域信息的第1个通道变量；

32、s2014、将输入的分析特征数据与频率通道注意力张量逐元素相乘得到加权表示，并利用全连接层对得到的加权表示进行投影，得到频率信道转换后的序列，完成对分析特征数据的频率信道转换处理：；其中，表示全连接层操作。

33、上述进一步方案的有益效果是：本发明利用上述分裂操作能够避免在从整个序列中提取频域信息时，来自每个信道的频率信息可能被来自其他信道的信息干扰失真；将输入与频率通道注意力张量逐元素相乘得到加权表示，使网络层的输出能够适应输入数据的频域特性，避免逆变换带来的计算开销。

34、再进一步地，所述s203包括以下步骤：

35、s2031、将原始时间序列、频率信道转换后的序列及掩码时间序列拼接的集合输入至预训练模型中，并分别经预训练模型中的特征提取骨干网络encoder和点到序列的映射层projector，获取点级表征集合和序列级表征集合：；；；其中，、、分别表示原始时间序列、频率信道转换后的序列及掩码时间序列的点级表征集合，、、分别表示原始时间序列、频率信道转换后的序列及掩码时间序列的序列级表征集合， j表示第 j个掩码时间序列， m表示生成的掩码时间序列个数，表示特征提取骨干网络，表示点到序列的映射网络，表示原始时间序列、频率信道转换后的序列及掩码时间序列拼接后的集合；

36、s2032、利用余弦相似度cosine计算，通过计算原始时间序列、频率信道转换后的序列及掩码时间序列的序列级表征相似度，得到不同序列的序列级相似度矩阵：；；；其中，表示相似度计算，表示大小的二维实数张量，表示序列级表征之间相似度，均表示序列级表征，表示转置运算，表示原始时间序列、频率信道转换后的序列及掩码时间序列拼接后的集合的批量大小， m表示生成的掩码时间序列个数，表示分析特征数据的批量大小；

37、s2033、基于序列级相似度矩阵，利用下式，对点级表征集合进行信息聚合，得到：；；其中，表示基于序列级表征的相似度对点级表征进行信息聚合后的结果，表示重构后的点级表征，表示一个批次中对应时间序列的索引，表示之间的相似度，表示之间的相似度，表示对应时间序列的序列表示，和均表示非时间序列的对应的序列表示，表示对应的点级表征；

38、s2034、将输入至解码器decoder进行处理，并利用下式，重建原始时间序列，完成对预训练模型的构建：；其中，表示解码操作。

39、上述进一步方案的有益效果是：本发明通过结合时频一致性和对原始时间序列进行随机多次的遮挡操作，生成了多个能够代表原始时间序列不同视觉特性的时间序列。这一方法利用时间序列的频域信息与多个掩码序列之间的协同作用，实现了对原始时间序列的高效重建，显著减轻了因关键时间序列变化信息受损而导致的重建难题，从而确保了时间序列数据的完整性和准确性。该方法对掩码的比例显示出较低的敏感性，并且在重建过程中展现出更高的稳定性和适应性，更加符合时间序列分析领域的实际需求。

40、再进一步地，所述预训练模型的损失函数的表达式如下：；；；其中，表示预训练模型的损失函数，表示取小值，表示重建损失函数，表示约束损失函数，表示约束任务的损失权重， s表示序列级表征，表示正样本，表示正样本的集合，表示序列级表征集合中除序列级表征外的每一个状态，表示温度参数，和分别表示第个样本的真实值和预测的第个样本的重建值，表示l2范数。

41、再进一步地，所述序列级表征集合的结构通过定义正样本对和负样本对调整，其中，正样本对和负样本对的结构表达式分别如下：正样本对：；负样本对：)；其中，和分别表示距离近和远的元素，的元素包括时间序列对应的频率信道转换后序列级表征集合和掩码后序列级表征集合的交集，的元素包括非时间序列对应的序列级表征集合、频率信道转换后序列级表征集合和掩码后序列级表征集合的交集，表示一个批次中对应时间序列的索引，表示一个批次中对应时间序列非的索引。

42、上述进一步方案的有益效果是：重构过程直接依赖于序列的相似性，在序列表征空间中，若缺乏明确的限制条件，模型很难准确捕捉相似性；为了预防结果呈现出平凡聚集现象，通过定义正样本对和负样本对来调整序列级表征集合的结构，能够预防结果呈现出平凡聚集现象，帮助预训练模型更准确的捕捉相似性；通过约束损失函数可以优化学习到的序列表示；通过对比式的调整正、负例间的序列级表征距离，并基于原始时间序列与自身掩码序列和频率信道转换后的序列的相似度，控制多个掩码序列间的聚合权重，实现可学习的近邻权重聚合过程。

43、再进一步地，所述s3包括以下步骤：

44、s301、将训练好之后的预训练模型的编码器和投影层作为微调模型的一个初始化特征提取器，其中，预训练模型的编码器为预训练模型中的特征提取骨干网络encoder；

45、s302、通过构建包括一个输入层、两个均采用修正线性单元作为激活函数且包括丢弃层的隐藏层以及用于输出分类结果和预测结果的输出层的多层感知机，并结合s301中的特征提取器，构建用于下游积液任务的分类和预测的微调模型，其中，分类器的损失函数的表达式如下：；其中，表示分类器的损失函数，表示样本数量，表示样本的索引号，表示类别数量，表示符号函数，如果样本的真实类别为，则取1，否则，取0，表示预测样本属于类别的预测概率；

46、预测器的损失函数的表达式如下：；其中，表示预测器的损失函数，表示样本的真实值，表示样本的预测值；

47、s303、利用有标签数据集对微调模型进行训练，其中，先保持特征提取器的权重不变，仅训练包括输入层、隐藏层以及输出层的多层感知机，再解冻特征提取器中解码器的层次，完成对微调模型参数的调整。

48、上述进一步方案的有益效果是：通过将预训练模型的编码器和投影层作为微调模型的一个初始化特征提取器，可以充分利用预训练模型在大量数据上学习到的丰富特征。通过冻结特征提取器的权重，使其在初始训练阶段不变，可以减少模型训练初期的计算量，缩短训练时间，同时保留预训练模型已经学习到的知识。根据任务的不同，设计了不同的输出层，使得模型可以灵活地应用于分类和预测任务。同时分别定义了分类器和预测器的损失函数，这使得模型可以针对性地优化不同类型的任务。分类器的损失函数考虑了类别数量和样本数量，以及样本的真实类别和预测概率；预测器的损失函数则关注于真实值和预测值之间的差异。逐步微调的策略有助于模型更好地适应新任务，同时避免了突然改变特征提取器权重可能导致的不稳定性。

49、再进一步地，所述s4具体为：

50、利用进行参数调整后的微调模型输出分类结果和预测结果，其中，分类结果包括气井积液和气井不积液，预测结果包括距离积液的天数。

51、上述进一步方案的有益效果是：本发明通过进行参数调整后的微调模型在处理气井积液数据时，展现出了卓越的技术效果。这微调模型不仅显著提升了分类的精确度和预测的可靠性，有效降低了因积液问题而产生的维护成本，显著提高了生产效率。