一种融合画像和情感分析的客户流失预测方法及系统与流程
- 国知局
- 2024-10-21 14:39:17
本发明涉及人工智能及大数据分析,具体地说是一种融合画像和情感分析的客户流失预测方法及系统。
背景技术:
1、随着技术的快速发展和需求的不断扩大,大量同业公司进入云计算市场,产品服务同质化现象日趋严重,导致行业竞争加剧、客户流动性不断增加。调查显示,在成熟市场吸引新客户的成本是防止老客户停购服务的数倍,因此提升客户留存对于提高企业盈利能力和竞争力具有重要意义。客户流失预测模型可以帮助企业定位和挽留有潜在流失风险的客户,进而降低获客成本、提高运营效率、提升用户体验、增强品牌声誉。
2、客户流失预测方法旨在通过对历史数据的分析,寻找变量之间的潜在规律和模式,从而对未来的趋势进行预测。然而,建立一个可靠的客户流失预测系统是非常具有挑战性的,因为客户的历史信息存在隐蔽性、复杂性以及存在噪声等特点。现有方法多基于客户的属性和行为进行分析,忽略了可以反映客户需求和揭示客户满意度的沟通记录中所包含的大量信息,对特征的挖掘不足导致模型的准确度不高、可解释性不强。
技术实现思路
1、本发明的技术任务是针对以上不足之处,提供一种融合画像和情感分析的客户流失预测方法及系统,能够提高客户流失预测的准确性和可解释性,帮助企业识别并挽留存在流失风险的客户,提高运营效率,提升用户体验,进而提高盈利能力和竞争力。
2、本发明解决其技术问题所采用的技术方案是:
3、一种融合画像和情感分析的客户流失预测方法,包含数据采集、特征筛选、数据预处理、画像特征提取、情感特征提取、特征拼接和客户流失预测,该方法的具体实现包括如下步骤:
4、步骤1、采集与客户流失相关的数据,包括属性、沟通记录;
5、步骤2、删除方差较小的属性特征来提高预测准确度并降低计算量;
6、步骤3、对属性数据进行空缺值填补/归一化,对非结构化数据进行文本预处理操作;
7、步骤4、构建建逻辑回归模型,通过假设检验筛选显著属性形成画像特征;
8、步骤5、构建bert模型进行文本向量化,通过分类器得到沟通的情感特征;
9、步骤6、将客户的画像特征和情感特征在通道维度上进行堆叠得到最终特征;
10、步骤7、构建随机森林模型输出客户的流失概率。
11、进一步的,所述数据采集,确定与客户流失相关的变量,为客户打上是否流失的类别标签,并收集公司内部的客户历史数据形成多特征二分类的数据集d={(xi,yi)|i=1,…n},其中自变量yi=1代表客户流失,yi=0代表客户未流失;
12、与客户流失相关的变量包括客户属性和沟通记录,其中客户属性为结构化数据,沟通记录为非结构化的文本数据;对于企业用户,客户属性包括企业所属行业、企业是否国企、企业规模等、消费金额等;对于个人客户,客户属性包括年龄、性别、收入、消费金额等。
13、进一步的,所述特征筛选,删除方差较小的属性特征,其中,方差的计算公式如下:
14、
15、其中为第j个特征的样本均值。
16、进一步的,所述数据预处理,对于结构化数据,数据预处理模块使用特征的平均填补缺失值,再进行z-score归一化处理;z-score的公式如下:
17、
18、因为沟通记录中包含大量无关内容,所以文本向量化的前提为清理脏数据,数据预处理的操作包括:
19、将文本数据中的无关内容去除,包括标点符号、表情符号、url、html标签、电话号码等,这些内容与情感信息无关,并且影响训练效率,对准确率也会产生影响;
20、统一文本中数字和字母的格式,将数字和字母的大小写统一;
21、将文本统一转换为简体字;将全角数字字母转换为半角字符。
22、进一步的,所述画像特征提取,首先构建逻辑回归模型:
23、
24、其中x限定为客户属性变量,w和b为模型参数;使用数据集d训练逻辑回归模型,目标是最小化损失函数(等价于最大化似然函数):
25、
26、通过多轮迭代训练得到最优的参数组合(w*,b*);计算参数显著性检验(f检验/t检验)的p值,选择系数显著(即p值小于等于阈值α,一般设置α=0.05)的属性作为画像特征
27、所述情感特征提取,首先通过bert模型将文本信息向量化,然后通过mlp模型得到情感分类的结果,最终计算客户沟通记录中负向情感句数量占比作为情感特征
28、所述特征拼接,将客户的画像特征和情感特征在通道维度上进行堆叠得到最终的特征该特征同时融合了客户画像和沟通过程中中反映的情感。
29、进一步的,所述bert模型是基于transformer的双向编码器模型,其从大规模的无标注文本中学习语言的表示,捕捉词汇、句法和语义等多层次的信息,以该模型作为文本的特征提取器,将输入的文本转换为高维的向量表示,作为后续层的输入,其作用的具体步骤为:
30、1)将文本中的每个词切分为一个或多个子词单元,然后为每个子词单元查询一个固定维度的字向量;
31、2)为每个输入的字向量添加两个额外的向量,即文本向量和位置向量;
32、3)将加和后的字向量输入到多层的transformer网络中,通过自注意力机制和全连接层,将每个字向量融合上下文的语义信息,得到最终的词向量;
33、将bert模型输出的词向量输入mlp层,对文本序列进行情感分类,情感特征进一步定义为沟通记录中负向句数/沟通记录总句数。
34、进一步的,所述客户流失预测,基于融合了客户画像和情感的特征,使用随机森林算法对客户的流失概率进行预测,具体实施包括:
35、1)读取数据集中的数据,并进行自变量和因变量的区分,自变量为客户的画像和情感特征,因变量为客户流失结果;
36、2)然后在随机森林中对所述自变量和因变量进行数据分割,此时选择的参数test_size=0.2,random_state=0;
37、3)调用打分机制评估自变量对因变量的拟合程度,通过改变参数,包括树的数量、树的深度参数使随机森林模型的精度达到最高,读取需要预测的数据并且将其写入文档即可获得最终的预测参数,最终得到精度最高的预测模型。
38、本发明还要求保护一种融合画像和情感分析的客户流失预测系统,包括:
39、数据采集模块,用于确定与客户流失相关的变量,包括客户属性和沟通记录,并收集公司内部的客户历史数据形成多特征二分类的数据集;
40、特征筛选模块,用于删除方差较小的属性特征,提高预测准确度并降低计算量;
41、数据预处理模块,使用特征的平均填补缺失值,再进行z-score归一化处理;
42、画像特征提取模块,用于构建逻辑回归模型,仅使用客户属性对是否流失进行预测,选择系数显著的属性作为画像特征;
43、情感特征提取模块,用于使用bert模型将沟通记录文本中转化为向量,并将其输入到mlp模型中得到每句话的情感分类结果,选择负向句数量占比作为情感特征;
44、特征拼接模块,用于将客户的画像特征和情感特征在通道维度上进行堆叠;
45、客户流失预测模块,使用随机森林算法对客户的流失概率进行预测。
46、本发明还要求保护一种融合画像和情感分析的客户流失预测装置,包括:至少一个存储器和至少一个处理器;
47、所述至少一个存储器,用于存储机器可读程序;
48、所述至少一个处理器,用于调用所述机器可读程序,实现上述的方法。
49、本发明还要求保护计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的方法。
50、本发明的一种融合画像和情感分析的客户流失预测方法及系统与现有技术相比,具有以下有益效果:
51、本发明构建了融合画像和情感分析的客户流失预测模型,其中画像特征提取采用逻辑回归模型和假设检验方法筛选出显著特征,一方面避免维度灾难、提高训练速度、降低运算开销,另一方面减少干扰噪声、降低过拟合风险、提升模型效果;情感特征提取引入先进的大语言模型对客户海量沟通记录中潜在的情感特点进行提取。该方案解决了现有模型识别的依据不够全面,得到的结果稳定性差、准确率低的问题。结合算法运营人员可以精确识别需要重点关注的、有潜在流失风险的客户,根据客户的需求和对企业的贡献制定不同的挽留策略,降低客户流失率,提高运营效率,提升用户满意度和忠诚度,降低获客成本,增加企业盈利和竞争力。
本文地址:https://www.jishuxx.com/zhuanli/20241021/318858.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表