电信用户离网预测方法、装置、电子设备及存储介质与流程

2022-05-27 00:50:42 来源：中国专利 TAG：

1.本技术涉及电信技术领域，尤其涉及一种电信用户离网预测方法、装置、电子设备及存储介质。

背景技术：

2.无论是传统行业还是互联网行业，都面临着用户流失问题。用户的生命周期按照自然的演化过程一般分为新增用户、培养提升期间用户、成熟稳定期用户、衰退期用户和退网用户。即使企业在一周内失去100个用户的同时又得到100个新用户，其利润也会大大降低。从表面上看来业绩没有受到影响，但是争取新用户需要大量的宣传和促销成本，如果没有用户离网的精准预测，用以达到挽留存在流失倾向的用户资源，将给企业造成大量损失。

技术实现要素：

3.有鉴于此，本技术的目的在于提出一种电信用户离网预测方法、装置、电子设备及存储介质，用以解决上述技术问题。
4.基于上述目的，本技术的第一方面提供了一种电信用户离网预测方法，包括：
5.获取电信运营数据中当前月份的多个在网用户的电信数据作为第一电信数据集；
6.对所述第一电信数据集进行预处理，得到第一可用电信数据集；
7.基于全部所述在网用户的用户名，通过时间滑动窗口对所述第一可用电信数据集进行整合匹配，得到第一匹配数据集；
8.从所述第一匹配数据集中筛选出与预设特征集关联的数据作为预测用数据集；
9.将所述预测用数据集输入经过预训练的预测模型，经由所述预测模型输出预测得分，基于所述预测得分确定第一用户离网预估名单。
10.本技术的第二方面提供了一种电信用户离网预测装置，包括：
11.获取模块，被配置为获取电信运营数据中当前月份的多个在网用户的电信数据作为第一电信数据集；
12.预处理模块，被配置为对所述第一电信数据集进行预处理，得到第一可用电信数据集；
13.整合匹配模块，被配置为基于全部所述在网用户的用户名，通过时间滑动窗口对所述第一可用电信数据集进行整合匹配，得到第一匹配数据集；
14.筛选模块，被配置为从所述第一匹配数据集中筛选出与预设特征集关联的数据作为预测用数据集；
15.离网预估模块，被配置为将所述预测用数据集输入经过预训练的预测模型，经由所述预测模型输出预测得分，基于所述预测得分确定第一用户离网预估名单。
16.本技术的第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。
17.本技术的第四方面提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述方法。
18.从上面所述可以看出，本技术提供的电信用户离网预测方法、装置、电子设备及存储介质，通过对从电信运营数据中获取的多个在网用户的第一电信数据集进行预处理，通过预处理筛选出错误、异常、不合适、以及需要进行格式转换的数据，并对它们进行纠正、转换及删除等操作，再通过时间滑动窗口对第一可用电信数据集进行整合匹配，将第一可用电信数据集通过在网用户的用户名将多个表格中的数据匹配到一张表上，得到第一匹配数据集，便于进行数据分析。通过对第一匹配数据集进行筛选，以对特征进行精确选取。最后通过预测模型得到预测得分，基于预测得分确定第一用户离网预估名单，测出流失用户，以便针对客户流失问题制定相应的对策。通过本技术提供的电信用户离网预测方法既能识别出更多的离网用户，又能提供精确度较高的离网用户名单。
附图说明
19.为了更清楚地说明本技术或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1为本技术实施例的电信用户离网预测方法的流程图；
21.图2为本技术实施例的第一模型训练方法的流程图；
22.图3为本技术实施例的第二模型训练方法的流程图；
23.图4为本技术实施例的电信用户离网预测装置的结构示意图；
24.图5为本技术实施例的电子设备的示意图。
具体实施方式
25.为使本技术的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本技术进一步详细说明。
26.需要说明的是，除非另外定义，本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。
27.相关技术中面临着用户流失问题时，即使在一周内失去多个用户的同时又得到相同数量的新用户，其利润也会大大降低。从表面上来看业绩没有受到影响，但是争取新用户需要大量的宣传和促销成本。
28.本技术的实施例提供一种电信用户离网预测方法，通过经过预训练的预测模型输出预测得分，基于预测得分确定第一用户离网预估名单，以便为了减少客户流失来制定相
应的对策。
29.如图1所示，本实施例的方法包括：
30.步骤101，获取电信运营数据中当前月份的多个在网用户的电信数据作为第一电信数据集。
31.在该步骤中，通过从电信运营数据中获取多个在网用户的第一电信数据集，其中第一电信数据集为每个在网用户的当年电信数据中截止至统计月份全部月份的电信数据。
32.其中，在电信数据中，将数据类型分为客户基本属性和客户行为数据两大类。客户基本属性：主要是客户的身份信息，包括办卡的用户id、账户id、办卡地点、入网时长等等。客户行为数据：主要是客户的产品订购、通信行为、财务行为等方面的数据，比如：订购的套餐类型、通话时长、流量、缴费金额、欠费金额、停开机纪录等。
33.步骤102，对所述第一电信数据集进行预处理，得到第一可用电信数据集。
34.在该步骤中，对第一电信数据集进行预处理，从第一电信数据集中筛选出错误、异常、不合适、以及需要进行格式转换的数据，并将它们进行纠正、转换及删除等操作。
35.其中，格式转换指数据类型方面，对于不同的数据类型，做对应的转换处理，使其能够使用，防止有效信息的丢失。比如状态表中，时间格式的不统一，导致不能计算停机时长，我们则是先对第一电信数据集中的数据进行格式转换，时间统一后再计算时长。
36.错误、异常、不合适的数据指数据质量方面，存在异常、错误、丢失、重复数据，还有的数据量太大或太小。
37.预处理中的删除操作指对第一电信数据集中出现的不可能的取值进行了删除处理。比如在每月账单表的出账金额、缴费表的缴费金额等类似正数金额数值出现负值情况时，说明该数据不可用，对该数据进行了剔除。基于数据业务含义对空值进行处理，比如说有些用户没有缴费单的数据时，把该用户的缴费金额和缴费次数指标就补全为0，而当每月必出的账单表数据缺失时，所涉及的缺失特征项比较多，则对该项数据进行删除操作，弃用该项数据。
38.例如，经过预处理得到的第一可用电信数据集如表1所示。
39.表1电信数据类型
40.[0041][0042]
步骤103，基于全部所述在网用户的用户名，通过时间滑动窗口对所述第一可用电信数据集进行整合匹配，得到第一匹配数据集。
[0043]
在该步骤中，针对同一用户的多个表格数据，对每个表格数据的特征进行分析，选取有用的特征后通过在网用户的用户名将多个表格数据中的数据匹配到一张表上，得到第一匹配数据集，表格数据至少包括用户的信息表、账单表、缴费表、欠费表和状态表。
[0044]
由于离网行为的发生是跟着用户的通信等行为随着时间变化的，所以选择用滑动窗口做数据整合。对同一个用户的第一可用电信数据集进行匹配时，不需要所有月份的数据，通过选取时间窗口内包含的月份数量对应的数据进行整合即可。
[0045]
步骤104，从所述第一匹配数据集中筛选出与预设特征集关联的数据作为预测用数据集。
[0046]
在该步骤中，对第一匹配数据集进行筛选，选取对在网和离网的标签预测更加有效的精确特征对应的数据作为预测用数据集。
[0047]
步骤105，将所述预测用数据集输入经过预训练的预测模型，经由所述预测模型输出预测得分，基于所述预测得分确定第一用户离网预估名单。
[0048]
在该步骤中，通过预测模型输出每个用户的预测得分，输出的预测得分为0，表示该用户的预测结果为离网状态，若输出的预测得分为1，表示该用户的预测结果为在网状态，基于预测得分确定第一用户离网预估名单，使得识别出更多的离网用户，同时还能提供
精确度较高的离网用户名单。
[0049]
在上述方案中，通过对从电信运营数据中获取的多个在网用户的第一电信数据集进行预处理，通过预处理筛选出错误、异常、不合适、以及需要进行格式转换的数据，并对它们进行纠正、转换及删除等操作，再通过时间滑动窗口对第一可用电信数据集进行整合匹配，基于用户名将多个表格中的数据匹配到一张表上，便于进行数据分析，得到第一匹配数据集。通过对第一匹配数据集进行筛选，以对特征进行精确选取。最后通过预测模型的预测得到得到第一用户离网预估名单，使得识别出更多的离网用户，同时还能提供精确度较高的离网用户名单。
[0050]
在一些实施例中，所述预测模型为第一模型或第二模型。
[0051]
在该步骤中，预测模型可以为第一模型或第二模型两种，选择这两种模型中的任意一种，均能得到较好的预测结果。
[0052]
其中第一模型为极限梯度提升算法xgboost单模型(extreme gradient boosting)，第二模型为极限梯度提升算法xgboost双模型(extreme gradient boosting)。
[0053]
xgboost算法可以突破自身的计算极限，实现快速运算，从而快速地实现用户离网的预测。
[0054]
在一些实施例中，如图2所示，所述第一模型通过以下方法进行预训练：
[0055]
步骤201，获取电信运营数据中第一历史月份的多个在网用户的电信数据作为第一训练集。
[0056]
步骤202，对所述第一训练集进行预处理，得到第一可用训练集。
[0057]
步骤203，基于全部所述在网用户的用户名，通过时间滑动窗口对所述第一可用训练集进行整合匹配，得到第一匹配训练集。
[0058]
步骤204，从所述第一匹训练集中筛选出与所述预设特征集关联的数据作为第一预测用训练集。
[0059]
步骤205，基于所述第一预测用训练集和历史真实离网用户名单，采用极限梯度提升算法对预先构建的第一预训练模型进行训练，得到所述第一模型。
[0060]
在上述方案中，为了有效利用现有的数据，持续观察第一模型的稳定性和测试性能，对多个月份分别进行离网预估名单的输出并验证。
[0061]
例如，将需要预测的月份作为预测月，预测月的前一个月作为测试月，选取测试月的前三个月(具体可以根据实际情况具体设定，这里不作具体限定)在网用户与预设特征集关联的数据训练xgboost模型(第一预训练模型)，将测试月在网用户与预设特征集关联的数据输入第一模型，得到预测得分，基于预测得分确定这些在网用户在预测月的离网预测结果(得分为0-离网、得分为1-在网)，基于此输出离网预估名单。以输出8、9、10三个月(具体可以根据实际情况具体设定，这里不作具体限定)离网预估名单为例，表2所示为具体的第一模型训练与测试过程，如表3所示，为第一模型的测试结果，通过离网预估名单和历史真实离网用户名单计算离网打准率，通过离网打准率验证测试结果，离网打准率越高代表第一模型训练的较好。
[0062]
表2第一模型训练与测试过程
[0063][0064]
表3第一模型的测试结果
[0065][0066]
在一些实施例中，所述特征集通过以下方法获取：
[0067]
获取电信运营数据中第一历史月份的全部在网和离网的用户的电信数据作为第二电信数据集；
[0068]
对所述第二电信数据集进行所述预处理，得到第二可用电信数据集；
[0069]
基于全部所述在网用户和所述离网用户的用户名，通过时间滑动窗口对所述第二可用电信数据集进行整合匹配，得到第二匹配数据集；
[0070]
通过预定规则对所述第二匹配数据集对应的全部特征进行筛选，得到筛选特征集；
[0071]
将所述筛选特征集中的全部特征在所述第二匹配数据集中对应的数据作为筛选
关联数据集；
[0072]
将所述筛选关联数据集和预设标签输入计算模型，经由所述计算模型输出所述筛选特征集中每个特征对应的特征权值系数，所述预测标签包括在网和离网；
[0073]
按照数值从大到小的顺序对全部所述特征权值系数进行排序，将前k个所述特征权值系数对应的特征作为所述特征集。
[0074]
在该步骤中，从电信运营数据种获取第一历史月份全部在网用户的第二电信数据集，对第二电信数据集进行预处理，筛选出错误、异常、不合适、以及需要进行格式转换的数据，并将它们进行纠正、转换及删除等操作，得到第二可用电信数据集，再通过时间滑动窗口根据全部用户的用户名通对第二可用电信数据集进行整合匹配，得到第二匹配数据集，便于分析处理，对第二匹配数据集进行筛选，得到筛选特征集，通过包装法将筛选关联数据集打包为特征矩和预设标签输入计算模型，经由计算模型输出筛选特征集中每个特征对应的特征权值系数，按照数值从大到小的顺序对全部特征权值系数进行排序，将前k个特征权值系数对应的特征作为特征集，获取更精确的特征集，进而初步保障预测效果。
[0075]
其中，计算模型为机器学习模型，这里不作具体限定。此外，通过计算模型进行特征权值系数的计算，得到最终的排列结果，选取前k个特征权值系数对应的特征作为特征集，获取更精确的特征集。
[0076]
最终选取的特征集例如表4所示(这里不作具体限定)。
[0077]
表4特征集
[0078][0079]
在一些实施例中，所述通过预定规则对所述第二匹配数据集对应的全部特征进行筛选，得到筛选特征集，包括：
[0080]
通过分析法对所述第二匹配数据集对应的全部特征进行筛选，得到初始特征集；
[0081]
将所述初始特征集在所述第二匹配数据集中对应的数据作为初始数据集；
[0082]
根据所述在网用户和所述离网用户对所述初始数据集进行划分，得到在网用户数
据集和离网用户数据集；
[0083]
根据所述初始特征集中的每一个特征分别对所述在网用户数据集和离网用户数据集进行分类，得到每一个所述特征对应的在网用户子数据集和离网用户子数据集；
[0084]
响应于确定所述在网用户的数量与其中一个所述特征对应的所述在网用户子数据集中包含的所述在网用户的数量不同，且所述离网用户的数量与该特征对应的所述离网用户子数据集中包含的所述离网用户的数量不同，将该特征作为所述特征集中的元素，以得到所述筛选特征集。
[0085]
在该步骤中，先使用分析法对第二匹配数据集对应的全部特征进行逐一分析，粗略的筛选出对预测标签可能有用的特征以及基于指标合成的可能有用的特征，得到初始特征集。再使用统计法过滤掉初始特征集中对预测标签毫无贡献的特征，得到筛选特征集，例如，离网用户的数量为75(具体可以根据实际情况具体设定，这里不作具体限定)，初始特征集中的一个特征为年龄特征，若大于60岁的用户数量为74，年龄小于30岁的用户数量为1，分别与离网用户的的数量75不同，说明该年龄特征对于标签在网或离网的预测起到了作用，将该年龄特征作为特征集中的元素。
[0086]
在一些实施例中，如图3所示，所述第二模型包括第一子模型和第二子模型，所述第二模型通过以下方法进行预训练：
[0087]
步骤301，通过预先构建的第二预测用训练集和所述历史真实离网用户名单，采用所述极限梯度提升算法对预先构建的第二预训练模型进行训练，得到所述第一子模型。
[0088]
步骤302，将预先构建的第三预测用训练集输入所述第一子模型，经由所述第一子模型输出第二用户离网预估名单。
[0089]
步骤303，从所述第三预测用训练集中筛选出与所述第二用户离网预估名单对应的数据作为第四预测用训练集。
[0090]
步骤304，通过所述第四预测用训练集和所述历史真实离网用户名单，采用极限梯度提升算法对预先构建的第三预训练模型进行训练，得到所述第二子模型。
[0091]
在上述方案中，第二模型训练需要训练两个xgboost模型。例如，将需要预测的月份作为预测月，预测月的前一个月作为测试月，所用训练数据为预测月的前两个月(具体可以根据实际情况具体设定，这里不作具体限定)用户数据，记测试月的前前一个月(具体可以根据实际情况具体设定，这里不作具体限定)在网用户与预设特征集关联的数据为数据集1(第二训练集)，测试月的前一个月(具体可以根据实际情况具体设定，这里不作具体限定)在网用户与预设特征集关联的数据为数据集2(第三训练集)。先用数据集1训练模型一(第二预训练模型)，得到第一子模型，将数据集2输入第一子模型得到数据集2的离网预估名单(第二用户离网预估名单)，然后从第三预测用训练集中筛选出与第二用户离网预估名单对应的数据作为第四预测用训练集训练模型二(第三预训练模型)，得到第二子模型。训练完毕后保存。对预测月(具体可以根据实际情况具体设定，这里不作具体限定)离网预估名单输出时，先将测试月在网用户与预设特征集关联的数据输入模型一(第二预训练模型)得到下个月离网预估名单，再将这份离网名单用户输入模型二(第三预训练模型)得到最终的下个月离网预估名单。以输出8月(具体可以根据实际情况具体设定，这里不作具体限定)离网预估名单为例，如表5所示，是第二模型训练和测试数据具体说明，如表6所示，为第二模型的测试结果，通过离网预估名单和历史真实离网用户名单计算离网打准率，通过离网
打准率验证测试结果，离网打准率越高代表第二模型训练的较好。
[0092]
测试月：7月在网用户(具体可以根据实际情况具体设定，这里不作具体限定)；数据集1：5月在网用户(具体可以根据实际情况具体设定，这里不作具体限定)；
[0093]
数据集2：6月在网用户(具体可以根据实际情况具体设定，这里不作具体限定)。
[0094]
表5第二模型训练和测试过程
[0095][0096]
表6第二模型的测试结果
[0097][0098]
在一些实施例中，所述第二预测用训练集通过以下方法获取：
[0099]
获取电信运营数据中第二历史月份的多个在网用户的电信数据作为第二训练集；
[0100]
对所述第二训练集进行预处理，得到第二可用训练集；
[0101]
基于全部所述在网用户的用户名，通过时间滑动窗口对所述第二可用训练集进行
整合匹配，得到第二匹配训练集；
[0102]
从所述第二匹训练集中筛选出与所述预设特征集关联的数据作为第二预测用训练集；
[0103]
所述第三预测用训练集通过以下方法获取：
[0104]
获取电信运营数据中第三历史月份的多个在网用户的电信数据作为第三训练集；
[0105]
对所述第一训练集进行预处理，得到第三可用训练集；
[0106]
基于全部所述在网用户的用户名，通过时间滑动窗口对所述第三可用训练集进行整合匹配，得到第三匹配训练集；
[0107]
从所述第三匹训练集中筛选出与所述预设特征集关联的数据作为第三预测用训练集。
[0108]
在该步骤中，从电信运营数据中第二历史月份的多个在网用户的电信数据作为第二训练集，对第二训练集进行预处理，其中，预处理指从第二训练集中筛选出错误、异常、不合适、以及需要进行格式转换的数据，并将它们进行纠正、转换及删除等操作，得到第二可用训练集，针对同一用户的多个表格数据，对每个表格数据的特征进行分析，选取有用的特征后通过在网用户的用户名将多个表格数据中的数据匹配到一张表上，得到第二匹配训练集，表格数据至少包括用户的信息表、账单表、缴费表、欠费表和状态表。对第二匹配训练集进行筛选，选取对在网和离网的标签预测更加有效的精确特征对应的数据作为第二预测用训练集。
[0109]
从电信运营数据中第三历史月份的多个在网用户的电信数据作为第三训练集，对第三训练集进行预处理，其中，预处理指从第三训练集中筛选出错误、异常、不合适、以及需要进行格式转换的数据，并将它们进行纠正、转换及删除等操作，得到第三可用训练集，针对同一用户的多个表格数据，对每个表格数据的特征进行分析，选取有用的特征后通过在网用户的用户名将多个表格数据中的数据匹配到一张表上，得到第三匹配训练集，表格数据至少包括用户的信息表、账单表、缴费表、欠费表和状态表。对第三匹配训练集进行筛选，选取对在网和离网的标签预测更加有效的精确特征对应的数据作为第三预测用训练集。
[0110]
其中，月份相隔的数量以及选取月份的数量均会影响训练及测试结果，这里不对第二历史月份和第三历史月份作具体限定。
[0111]
需要说明的是，本技术实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
[0112]
需要说明的是，上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0113]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种电信用户离网预测装置。
[0114]
参考图4，所述电信用户离网预测装置，包括：
[0115]
获取模块401，被配置为获取电信运营数据中当前月份的多个在网用户的电信数据作为第一电信数据集；
[0116]
预处理模块402，被配置为对所述第一电信数据集进行预处理，得到第一可用电信数据集；
[0117]
整合匹配模块403，被配置为基于全部所述在网用户的用户名，通过时间滑动窗口对所述第一可用电信数据集进行整合匹配，得到第一匹配数据集；
[0118]
筛选模块404，被配置为从所述第一匹配数据集中筛选出与预设特征集关联的数据作为预测用数据集；
[0119]
离网预估模块405，被配置为将所述预测用数据集输入经过预训练的预测模型，经由所述预测模型输出预测得分，基于所述预测得分确定第一用户离网预估名单。
[0120]
在一些实施例中，所述预测模型为第一模型或第二模型。
[0121]
在一些实施例中，所述第一模型通过以下方法进行预训练：
[0122]
获取电信运营数据中第一历史月份的多个在网用户的电信数据作为第一训练集；
[0123]
对所述第一训练集进行预处理，得到第一可用训练集；
[0124]
基于全部所述在网用户的用户名，通过时间滑动窗口对所述第一可用训练集进行整合匹配，得到第一匹配训练集；
[0125]
从所述第一匹训练集中筛选出与所述预设特征集关联的数据作为第一预测用训练集；
[0126]
基于所述第一预测用训练集和历史真实离网用户名单，采用极限梯度提升算法对预先构建的第一预训练模型进行训练，得到所述第一模型。
[0127]
在一些实例中，所述特征集通过以下方法获取：
[0128]
获取电信运营数据中第一历史月份的全部在网和离网的用户的电信数据作为第二电信数据集；
[0129]
对所述第二电信数据集进行所述预处理，得到第二可用电信数据集；
[0130]
基于全部所述在网用户和所述离网用户的用户名，通过时间滑动窗口对所述第二可用电信数据集进行整合匹配，得到第二匹配数据集；
[0131]
通过预定规则对所述第二匹配数据集对应的全部特征进行筛选，得到筛选特征集；
[0132]
将所述筛选特征集中的全部特征在所述第二匹配数据集中对应的数据作为筛选关联数据集；
[0133]
将所述筛选关联数据集和预设标签输入计算模型，经由所述计算模型输出所述筛选特征集中每个特征对应的特征权值系数，所述预测标签包括在网和离网；
[0134]
按照数值从大到小的顺序对全部所述特征权值系数进行排序，将前k个所述特征权值系数对应的特征作为所述特征集。
[0135]
在一些实施例中，所述通过预定规则对所述第二匹配数据集对应的全部特征进行筛选，得到筛选特征集，包括：
[0136]
通过分析法对所述第二匹配数据集对应的全部特征进行筛选，得到初始特征集；
[0137]
将所述初始特征集在所述第二匹配数据集中对应的数据作为初始数据集；
[0138]
根据所述在网用户和所述离网用户对所述初始数据集进行划分，得到在网用户数
据集和离网用户数据集；
[0139]
根据所述初始特征集中的每一个特征分别对所述在网用户数据集和离网用户数据集进行分类，得到每一个所述特征对应的在网用户子数据集和离网用户子数据集；
[0140]
响应于确定所述在网用户的数量与其中一个所述特征对应的所述在网用户子数据集中包含的所述在网用户的数量不同，且所述离网用户的数量与该特征对应的所述离网用户子数据集中包含的所述离网用户的数量不同，将该特征作为所述特征集中的元素，以得到所述筛选特征集。
[0141]
在一些实施例中，筛选模块404具体被配置为：
[0142]
通过分析法对所述第二匹配数据集对应的全部特征进行筛选，得到初始特征集；
[0143]
将所述初始特征集在所述第二匹配数据集中对应的数据作为初始数据集；
[0144]
根据所述在网用户和所述离网用户对所述初始数据集进行划分，得到在网用户数据集和离网用户数据集；
[0145]
根据所述初始特征集中的每一个特征分别对所述在网用户数据集和离网用户数据集进行分类，得到每一个所述特征对应的在网用户子数据集和离网用户子数据集；
[0146]
响应于确定所述在网用户的数量与其中一个所述特征对应的所述在网用户子数据集中包含的所述在网用户的数量不同，且所述离网用户的数量与该特征对应的所述离网用户子数据集中包含的所述离网用户的数量不同，将该特征作为所述特征集中的元素，以得到所述筛选特征集。
[0147]
在一些实施例中，所述第二模型包括第一子模型和第二子模型，所述第二模型通过以下方法进行预训练：
[0148]
通过预先构建的第二预测用训练集和所述历史真实离网用户名单，采用所述极限梯度提升算法对预先构建的第二预训练模型进行训练，得到所述第一子模型；
[0149]
将预先构建的第三预测用训练集输入所述第一子模型，经由所述第一子模型输出第二用户离网预估名单；
[0150]
从所述第三预测用训练集中筛选出与所述第二用户离网预估名单对应的数据作为第四预测用训练集；
[0151]
通过所述第四预测用训练集和所述历史真实离网用户名单，采用极限梯度提升算法对预先构建的第三预训练模型进行训练，得到所述第二子模型。
[0152]
在一些实施例中，所述第二预测用训练集通过以下方法获取：
[0153]
获取电信运营数据中第二历史月份的多个在网用户的电信数据作为第二训练集；
[0154]
对所述第二训练集进行预处理，得到第二可用训练集；
[0155]
基于全部所述在网用户的用户名，通过时间滑动窗口对所述第二可用训练集进行整合匹配，得到第二匹配训练集；
[0156]
从所述第二匹训练集中筛选出与所述预设特征集关联的数据作为第二预测用训练集；
[0157]
所述第三预测用训练集通过以下方法获取：
[0158]
获取电信运营数据中第三历史月份的多个在网用户的电信数据作为第三训练集；
[0159]
对所述第一训练集进行预处理，得到第三可用训练集；
[0160]
基于全部所述在网用户的用户名，通过时间滑动窗口对所述第三可用训练集进行
整合匹配，得到第三匹配训练集；
[0161]
从所述第三匹训练集中筛选出与所述预设特征集关联的数据作为第三预测用训练集。
[0162]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0163]
上述实施例的装置用于实现前述任一实施例中相应的电信用户离网预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0164]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的电信用户离网预测方法。
[0165]
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0166]
处理器1010可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
[0167]
存储器1020可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
[0168]
输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0169]
通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0170]
总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0171]
需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0172]
上述实施例的电子设备用于实现前述任一实施例中相应的电信用户离网预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0173]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指
令用于使所述计算机执行如上任一实施例所述的电信用户离网预测方法。
[0174]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0175]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的电信用户离网预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0176]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本技术的范围(包括权利要求)被限于这些例子；在本技术的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本技术实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0177]
另外，为简化说明和讨论，并且为了不会使本技术实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本技术实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本技术的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此，这些描述应被认为是说明性的而不是限制性的。
[0178]
尽管已经结合了本技术的具体实施例对本技术进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0179]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本技术实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度神经网络的样本增量学习方法

电信用户离网预测方法、装置、电子设备及存储介质与流程

相关文献

最热文献