一种基于决策树的戒毒人员戒治效果评估方法与流程

2021-11-17 11:56:00 来源：中国专利 TAG：

本发明属于机器学习技术领域，具体涉及一种基于决策树的戒毒人员戒治效果评估方法。

背景技术

虽然目前已经提出很多强制戒毒人员戒治效果的评估方法，但是在实际操作过程中，普遍存在操作难度较大、评估信度效度较低的问题。另外，现有的评估方法的设计均基于经验，无法快速灵活改变参数，难以适应新技术发展、信息系统和相关制度变化带来的环境变化。

现有戒毒信息系统中已经有大量的数据和戒治效果直接相关，例如计分考核数据、考试成绩、医疗检验结果和康复训练数据等；但这些数据缺乏统一标准，各地域之间差别巨大，每次制度变化和技术进步，都会导致这些数据发生巨大变化，直接从这些数据中靠人工分析方式评价戒治效果很困难，不直观，评估结果精确度严重依赖于评估人员的经验。

技术实现要素：

针对以上问题，本发明提供一种基于决策树的戒毒人员戒治效果评估方法，通过目标函数选择、特征选择、训练过程和评估过程，得到的戒毒人员戒治效果评估模型可以对戒毒人员进行定期的戒治效果评估，评估只需要从信息系统数据库中提取数据，评估过程简单成本低，无需加入额外的人为主观判断，准确率高，输出指标易于理解和把握，灵活性高，可以适应各地域不同的制度、不同的技术设备带来的巨大差异，适应性强，当制度变化，技术进步导致数据发生巨大变化之后，可以通过重新训练模型的方式快速适应变化。

本发明通过以下技术方案实现：

一种基于决策树的戒毒人员戒治效果评估方法，包括以下步骤：

S1：目标函数选择：从戒毒人员多维数据中选择一个维度YD作为目标函数；

S2：特征选择：从戒毒人员多维数据选择一组特征FD；

S3：训练过程：根据目标函数YD和特征FD建立训练数据集TrainSet，训练决策树回归模型DTM，计算模型DTM中每个叶子节点的参数LNSTD和LNMEAN，保存决策树回归模型DTM、全体均值GMEAN、全体标准差GSTD、样本标准差LNSTD和样本均值LNMEAN，训练过程完成；

S4：评估过程；加载训练过程保存的决策树回归模型DTM、全体均值GMEAN、全体标准差GSTD、样本标准差LNSTD和样本均值LNMEAN，用决策树回归算法根据模型DTM预测被评估人员的目标函数YD值，获得命中的决策树回归模型DTM叶子节点计算LSS，根据被评估人员的目标函数YD值、全体均值GMEAN、全体标准差GSTD计算GSS，作为评估结果输出LSS和GSS。

进一步地，步骤S3中，所述训练决策树回归模型DTM为从数据集TrainSet中，提取month等于mi的样本，放入子集ModelTrainSet用于训练决策树回归模型DTM，即提取第mi月的数据训练决策树回归模型DTM，mi取month的中间值或取mi＝12。

进一步地，步骤S3中，所述子集ModelTrainSet训练决策树回归模型DTM过程中，控制叶子节点的最小样本数>MNS，其中10≤MNS<子集ModelTrainSet样本总数或叶子节点总数。

进一步地，步骤S3中，所述计算决策树回归模型DTM中每个叶子节点的参数LNSTD和LNMEAN为将得到的决策树回归模型DTM中所有叶子节点放到统一的叶子节点数组lnodes中，叶子节点数为lnsize，lnsize等于lnodes的长度，计算命中叶子节点的所有数据集TrainSet样本的标准差LNSTD数组和均值LNMEAN数组，样本标准差LNSTD和样本均值LNMEAN均为二维数组，第一维表示月份，长度为36，第二维表示节点，长度为lnsize，LNSTD[m][i]的值为命中第i个叶子节点的第m个月样本的label的标准差，LNMEAN[m][i]的值为命中第i个叶子节点的第m个月样本的label的平均值。

进一步地，步骤S3中，所述样本标准差LNSTD和样本均值LNMEAN的具体计算方法为：

S301：建立集合数组TSS，集合数组TSS为一个二维数组，第一维表示月份，长度为36，第二维表示节点，长度为叶子节点数lnsize，集合数组TSS的所有元素初始化为空集；

S302：列举数据集TrainSet集合中每一个样本x，用决策树回归算法预测x.features的预测值py，忽略预测值py，取预测过程中命中的决策树叶子节点在叶子节点数组lnodes中的下标lni，将样本x加入子集TSS[x.month][lni]；

S303：列举集合数组TSS的每个元素TSS[m][j]，TSS[m][j]为一个样本的子集，计算这个子集的元素label的均值和标准差，保存到LNSTD[m][i]和LNMEAN[m][i]中；

S304：建立一维集合数组GTSS，长度为36，所有元素初始化为空集，列举数据集TrainSet集合中每一个样本x，将x加入子集GTSS[x.month]；

S305：列举一维集合数组GTSS的每个元素GTSS[m]，GTSS[m]为一个样本的子集，计算这个子集所有样本的label的均值和标准差，保存到数组GMEAN[m]和GSTD[m]，GMEAN和GSTD为一维数组，表示全体的均值和标准差，下标m表示月份。

进一步地，步骤S3中，所述数据集TrainSet为样本集合，每个样本对应多维度戒毒数据中一个人员的数据，每个样本有三个列：month、label和features，使用目标函数YD的值作为label，从多维度戒毒数据中提取选中特征FD的数据构造特征向量features，从多维度戒毒数据中提取戒毒时间作为mouth，以月为单位。

进一步地，步骤S4中，所述具体评估过程为：

S401：从存储介质加载训练过程得到的决策树回归模型DTM、全体均值GMEAN、全体标准差GSTD、样本标准差LNSTD和样本均值LNMEAN；

S402：使用与数据集TrainSet样本features列相同的方法，提取被评估人员的特征向量features，用决策树回归算法根据决策树回归模型DTM预测features的目标函数YD属性值，忽略预测值，取得features命中决策树回归模型DTM中的叶子节点的下标lni，计算被评估人员的戒毒时间month，计算参数LSS＝(YD-LNMEAN[m][lni])/LNSTD[m][lni]；

S403：计算GSS＝(YD-GMEAN[m])/GSTD[m]；

S404：输出评估结果LSS和GSS，以及LSS和GSS指标随时间变化的趋势，作为被评估人员戒治效果指标YD的直观说明；

GSS＞0表示被评价人员的戒治效果优于整体平均水平，GSS＜0表示被评价人员的戒治效果比整体平均水平差；

当LSS＞0，表示被评估人员当前的戒治效果优于类似戒毒人员平均值，

-1＜LSS＜1，表示被评估人员戒治效果和类似戒毒人员的平均值偏差在1个标准差之内，标注其戒治效果为“正常”，

LSS＜-1表示戒毒人员戒治效果低于类似戒毒人员平均值超过1个标准差，标注其戒治效果为“差”，

LSS＞1表示戒毒人员戒治效果高于类似戒毒人员平均值超过1个标准差，标注其戒治效果为“优”；

当LSS和GSS的评估结果不同时，以LSS的评估结果为标准。

进一步地，步骤S1中，所述目标函数YD为累计奖罚分、月度奖罚分、考试成绩、医疗检验结果和康复训练成绩中的任一种。

进一步地，步骤S2中，所述特征FD为性别、年龄、吸食毒品种类和文化程度中的任一种。

与现有技术相比，本发明的优点及有益效果为：

1、本发明方法克服现有强制戒毒人员戒治效果的评估方法存在的不足，利用戒毒信息系统中和戒治效果直接相关的数据，从数据库中自动提取数据构造训练集，使用决策树回归算法训练一个基于戒毒历史数据的强制戒毒人员戒治效果评估模型，得到的模型可以对戒毒人员进行定期的戒治效果评估，评估只需要从信息系统数据库中提取数据，无需加入额外的人为主观判断，简单易于操作，准确率高，输出指标易于理解和把握。

2、本发明方法建立完全基于数据的戒治效果评估模型，排除人为主观因素，以实现通过构造数据集重新训练方式随时更新模型，能够快速灵活适应环境的变化，同时也能适应不同地域的技术、制度环境巨大的差别。

3、本发明方法评估过程简单成本低，易于操作，评估结果易于理解；不一刀切，LSS指标以类似戒毒人员的平均值和标准差作为比较基准，考虑被评估人员的性别、文化程度等差异，评估结果更为合理；灵活性高，可以适应各地域不同的制度、不同的技术设备带来的巨大差异，尽管原始数据差别巨大，但评估结果LSS和GSS的取值范围一致，数值含义也类似，易于推广；适应性强，当制度变化，技术进步导致数据发生巨大变化之后，可以通过重新训练模型的方式快速适应变化。

附图说明

图1为本发明实施例1中训练过程流程图。

图2为本发明实施例1中评估过程流程图。

具体实施方式

下面通过实施例对本发明做进一步地详细说明，这些实施例仅用来说明本发明，并不限制本发明的保护范围。

实施例1

一种基于决策树的戒毒人员戒治效果评估方法，包括以下步骤：

S1：目标函数选择：从戒毒人员多维数据中选择一个维度YD作为目标函数，YD是连续实数类型，是和戒治效果直接相关的量化指标，选择累计奖罚分、月度奖罚分、考试成绩、医疗检验结果和康复训练成绩中的任一种；

S2：特征选择：从戒毒人员多维数据选择一组特征FD，选择戒毒人员静止属性作为特征，即这些属性值在整个戒毒过程内不会变化，选择性别、年龄、吸食毒品种类和文化程度中的任一种；

S3：训练过程：根据目标函数YD和特征FD建立训练数据集TrainSet，训练决策树回归模型DTM，计算模型DTM中每个叶子节点的参数LNSTD和LNMEAN，保存决策树回归模型DTM、全体均值GMEAN、全体标准差GSTD、样本标准差LNSTD和样本均值LNMEAN，训练过程流程图如图1所示，训练过程完成；

数据集TrainSet为样本集合，每个样本对应多维度戒毒数据中一个人员的数据，每个样本有三个列：month、label和features，使用目标函数YD的值作为label，从多维度戒毒数据中提取选中特征FD的数据构造特征向量features，从多维度戒毒数据中提取戒毒时间作为mouth，以月为单位；

训练决策树回归模型DTM为从数据集TrainSet中，提取month等于mi的样本，放入子集ModelTrainSet用于训练决策树回归模型DTM，即提取第mi月的数据训练决策树回归模型DTM，mi取month的中间值或取mi＝12；子集ModelTrainSet训练决策树回归模型DTM过程中，控制叶子节点的最小样本数>MNS，其中10≤MNS<子集ModelTrainSet样本总数或叶子节点总数；

计算决策树回归模型DTM中每个叶子节点的参数LNSTD和LNMEAN为将得到的决策树回归模型DTM中所有叶子节点放到统一的叶子节点数组lnodes中，叶子节点数为lnsize，lnsize等于lnodes的长度，计算命中叶子节点的所有数据集TrainSet样本的标准差LNSTD数组和均值LNMEAN数组，样本标准差LNSTD和样本均值LNMEAN均为二维数组，第一维表示月份，长度为36，第二维表示节点，长度为lnsize，LNSTD[m][i]的值为命中第i个叶子节点的第m个月样本的label的标准差，LNMEAN[m][i]的值为命中第i个叶子节点的第m个月样本的label的平均值；

样本标准差LNSTD和样本均值LNMEAN的具体计算方法为：

S301：建立集合数组TSS，集合数组TSS为一个二维数组，第一维表示月份，长度为36，第二维表示节点，长度为叶子节点数lnsize，集合数组TSS的所有元素初始化为空集；

S302：列举数据集TrainSet集合中每一个样本x，用决策树回归算法预测x.features的预测值py，忽略预测值py，取预测过程中命中的决策树叶子节点在叶子节点数组lnodes中的下标lni，将样本x加入子集TSS[x.month][lni]；

S303：列举集合数组TSS的每个元素TSS[m][j]，TSS[m][j]为一个样本的子集，计算这个子集的元素label的均值和标准差，保存到LNSTD[m][i]和LNMEAN[m][i]中；

S304：建立一维集合数组GTSS，长度为36，所有元素初始化为空集，列举数据集TrainSet集合中每一个样本x，将x加入子集GTSS[x.month]；

S305：列举一维集合数组GTSS的每个元素GTSS[m]，GTSS[m]为一个样本的子集，计算这个子集所有样本的label的均值和标准差，保存到数组GMEAN[m]和GSTD[m]，GMEAN和GSTD为一维数组，表示全体的均值和标准差，下标m表示月份；

S4：评估过程；加载训练过程保存的决策树回归模型DTM、全体均值GMEAN、全体标准差GSTD、样本标准差LNSTD和样本均值LNMEAN，用决策树回归算法根据模型DTM预测被评估人员的目标函数YD值，获得命中的决策树回归模型DTM叶子节点计算LSS，根据被评估人员的目标函数YD值、全体均值GMEAN、全体标准差GSTD计算GSS，作为评估结果输出LSS和GSS，评估过程流程图如图2所示；

具体评估过程为：

S401：从存储介质加载训练过程得到的决策树回归模型DTM、全体均值GMEAN、全体标准差GSTD、样本标准差LNSTD和样本均值LNMEAN；

S402：使用与数据集TrainSet样本features列相同的方法，提取被评估人员的特征向量features，用决策树回归算法根据决策树回归模型DTM预测features的目标函数YD属性值，忽略预测值，取得features命中决策树回归模型DTM中的叶子节点的下标lni，计算被评估人员的戒毒时间month，计算参数LSS＝(YD-LNMEAN[m][lni])/LNSTD[m][lni]；

S403：计算GSS＝(YD-GMEAN[m])/GSTD[m]；

S404：输出评估结果LSS和GSS，以及LSS和GSS指标随时间变化的趋势，作为被评估人员戒治效果指标YD的直观说明；

GSS＞0表示被评价人员的戒治效果优于整体平均水平，GSS＜0表示被评价人员的戒治效果比整体平均水平差；

当LSS＞0，表示被评估人员当前的戒治效果优于类似戒毒人员平均值，

-1＜LSS＜1，表示被评估人员戒治效果和类似戒毒人员的平均值偏差在1个标准差之内，标注其戒治效果为“正常”，

LSS＜-1表示戒毒人员戒治效果低于类似戒毒人员平均值超过1个标准差，标注其戒治效果为“差”，

LSS＞1表示戒毒人员戒治效果高于类似戒毒人员平均值超过1个标准差，标注其戒治效果为“优”；

当LSS和GSS的评估结果不同时，以LSS的评估结果为标准。

实施例2

按照本发明实施例1方法在某戒毒局进行测试，提取戒毒执法平台数据库中2016-09-01以来已经离所的13126名戒毒人员的基本信息、SCL90量表测试结果和计分考核等762个维度数据，经过数据清洗、删除错误和质量太低数据后，构造训练数据集TrainSet，选择累计奖罚分作为YD，mi取12，训练戒治效果评估模型，然后对6971名在册戒毒人员的戒治效果进行评估。

得到64836条评估结果(每个戒毒人员每个月计算得到一个评估结果)，其中，92.7％的结果显示LSS和GSS评估情况一致。

其中有7.3％的结果(涉及528人)得分低于全局平均值，但是LSS>1，即戒治效果为“优”；为了验证该7.3％的结果准确性，从中随机抽取20个结果，经专家人工评估，其中18个为优，2个为正常，即该区间中数据的LSS评估准确率为90％。

因此，本发明将LSS和GSS的结合考虑分析，综合进行评估，不仅提高了评估效率，确认了大部分数据的准确性，且精确度更高，使得约470名得分表面上不突出但事实上表现良好的戒毒人员获得更公平的评价。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于决策树的戒毒人员戒治效果评估方法与流程

相关文献

最热文献