一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于分级体系和混合数据类型的业务记录分类方法与流程

2022-05-06 07:51:50 来源:中国专利 TAG:

技术特征:
1.一种用于分级体系和混合数据类型的业务记录分类方法,其特征在于:面向的是将由混合类型构成的业务记录数据按照公司的分级业务体系进行自动层次化打标签的应用场景;数据是来自电信公司真实业务活动的由人工填写和标注的对客户投诉事件的业务记录,对于每一条数据样本,输入数据为中描述该次客户投诉事件的混合数据类型的各个字段,输入数据字段包括非结构化数据类型字段和结构化数据类型字段,输出数据为该次客户投诉事件对应于公司分级业务体系中的多层级投诉原因类别标签,表现为多级逐级细分的结构;使用包括编码器模块和解码器模块的端到端框架进行训练和预测,所述编码器模块使用嵌入层将输入数据中的原始字段转化成向量表示后,使用卷积神经网络和循环神经网络分别对不同数据类型字段的向量表示进行特征抽取并使用前馈神经网络进行特征融合,所述解码器模块是由多个多层感知机分类器组成的多级分类器链结构,接收编码器模块的融合结果并预测输出数据中的各层级类别标签。2.根据权利要求1所述的的业务记录分类方法,其特征在于:具体步骤如下:步骤一、对上述数据进行清洗和预处理后,随机选择80%和10%的数据分别作为训练神经网络模型的训练集和验证集,选择剩余10%的数据作为用于评估模型性能的测试集;步骤二:利用编码器模块对数据进行特征抽取,以获取多个向量形式的嵌入表示;1)对非结构化数据类型字段即文本字段使用分词工具分词后,经过词嵌入层获取词语的嵌入表示,使用卷积神经网络捕捉长段文本中的局部特征,获取文本字段的编码表示;2)将结构化数据类型字段视作离散的标签并转换成数字编码,并使用类似词嵌入层的数字编码嵌入层,将数字编码映射为连续向量的嵌入表示;使用循环神经网络捕捉结构化数据类型字段的特征,获取包含所有结构化数据类型字段信息的编码表示;3)对步骤1)中由卷积神经网络和步骤2)中由循环神经网络分别获取的不同输入字段的编码表示使用向量串联的方式连接后输入到前馈神经网络中加以融合得到编码器模块的输出结果;步骤三:将步骤二中编码器模块的输出结果放入解码器模块中逐级生成多级投诉原因类别标签;将所有层级的类别标签连接即得到解码器模块对投诉类别标签的预测结果。3.根据权利要求2所述的业务记录分类方法,其特征在于,步骤一中,首先使用统计分析方法对原始数据形态进行评估,包括各结构化数据字段的标签类别样本分布特点,并基于统计分析结果对数据进行样本重采样、数据清洗、数据增强的预处理过程。4.根据权利要求2所述的业务记录分类方法,其特征在于,步骤二中,所述步骤1)的过程是:文本字段的分词和词向量化:使用结巴(jieba)分词工具对文本字段进行分词,将分词后的词映射为低维空间中稠密连续向量的嵌入表示,所获取到的词向量通过相似度计算表征两词之间的语义相关性,选取网络上开源的词向量资源初始化嵌入层参数,其中,选取腾讯人工智能实验室发布的中文词向量,对于文本型输入序列中的词i,经过嵌入层可以得到其k维的低维词嵌入将文本形式的输入数据字段看作由单词构成的序列,则一个包含n个单词的序列表示为:
式(1)中,x
i
表示序列中的第i个单词对应的词向量,表示向量串联操作;文本字段的特征抽取:所述的卷积神经网络为文本卷积神经网络textcnn,输入数据字段包括投诉描述和投诉处理意见;分别使用两个独立的文本卷积神经网络textcnn对投诉描述和投诉处理意见这两个文本形式的输入数据字段的嵌入表示进行特征抽取,得到这两个输入数据字段的特征编码表示;在文本卷积神经网络textcnn中,使用窗口尺寸为h的卷积核对输入序列进行滑动窗口卷积操作获取窗口内的局部特征,其中第i维特征表示为c
i
:c
i
=f(w
·
x
i:i h-1
b)
ꢀꢀꢀꢀ
(2)式(2)中,f为非线性激活函数,b为偏移参数;进而整个输入序列卷积操作完成后得到特征图c:c=[c1,c2,...,c
n-h 1
]
ꢀꢀꢀꢀ
(3)将c进行池化计算后送入全连接层就可以得到cnn输出的编码表示;使用多尺寸卷积核的cnn,同时使用窗口尺寸分别为3,4,5的三个卷积核进行上述卷积操作,并最终将结果串联得到c
cnn
;所述步骤2)的过程是:结构化数据字段的编码和向量化:结构化数据形式的输入数据字段包括投诉处理地、二级责任单位、客户群类型和五级投诉现象,共8个字段,将所述8个字段看作离散的类别标签;将每个标签映射为一个数字编码,并使用能够获取类似词向量的数字编码嵌入层,将编码映射为连续的嵌入表示;结构化数据字段的特征抽取:每个样本的8个标签经过上述嵌入表示后,送入所述的循环神经网络,所述的循环神经网络为双向rnn的变体结构双向长短期记忆网络(lstm),得到包含所有选取的结构化数据字段的标签信息的编码表示;在双向rnn的变体结构双向长短期记忆网络结构中,第t个时间步的隐藏状态组件的计算方式为:式(4)中,w
f
,w
i
,w
o
,w
c
为可训练权重矩阵,b
f
,b
i
,b
o
,b
c
为对应的偏移参数,h
t
和x
t
分别表示第t个时间步时lstm的隐藏状态和输入向量,σ为sigmoid函数:获取第t个时间步的前向隐藏状态和后向隐藏状态并将其连接后得到最终的隐层上下文状态
所述步骤3)的过程是:特征信息融合:将上述步骤1)中得到投诉描述和投诉处理意见这两个输入数据字段的特征编码表示和步骤2)得到的包含所有选取的结构化数据字段的标签信息的编码表示串联为编码器最终的输出向量h:式(6)中,ffn表示包含relu激活函数的前馈神经网络,和分别为步骤1)中的文本卷积神经网络textcnn对投诉描述和投诉处理意见字段的文本嵌入表示进行特征抽取的结果,h
bi-lstm
为步骤2)中所述的双向rnn的变体结构双向长短期记忆网络(lstm)对结构化数据字段的标签嵌入的编码结果。5.根据权利要求4所述的业务记录分类方法,其特征在于,在步骤三中,由解码器模块接收步骤二的输出结果,解码器模块中的每级分类器同时接收编码器的输出结果和上一级分类器的预测结果,输出当前层级的投诉原因类别标签的概率分布以预测当前级的结果;具体过程如下:将经过步骤二特征信息融合得到的输出向量h放入解码器模块中进行标签预测,所述的解码器模块中的每个分类器的神经网络结构中,通过softmax函数:得到一个与当前层类别标签数量等同的输出向量,其中e
i
表示向量中第i个维度的值;对于第一层分类器的预测结果y
(1)
是:y
(1)
=softmax(mlp(h))
ꢀꢀꢀꢀ
(7)式(7)中,mlp为多层感知机结构;使用交叉熵作为当前层分类器训练过程的损失函数loss
(1)
:式(8)中,t
ic
为符号函数,如果样本i的真实类别为c则取1,否则取0;从第二层分类器开始,将上一层分类器的预测输出并入下一层分类器的输入中:式(9)中,i∈{2,3,4},y
(i)
为第i层分类器的预测结果;模型最终损失函数loss为四层分类器的交叉熵损失之和:

技术总结
本发明公开了一种用于分级体系和混合数据类型的业务记录分类方法,面向的是将由混合类型构成的业务记录数据按照公司的分级业务体系进行自动层次化打标签的应用场景;数据是来自电信公司真实业务活动的对客户投诉事件的业务记录,数据清洗和预处理后,使用包括编码器模块和解码器模块的端到端框架进行训练和预测,编码器模块使用嵌入层将输入数据中的原始字段转化成向量表示后,使用卷积神经网络和循环神经网络分别对不同数据类型字段的向量表示进行特征抽取并使用前馈神经网络进行特征融合,解码器模块是由多个多层感知机分类器组成的多级分类器链结构,接收编码器模块的融合结果并预测输出数据中的各层级类别标签。融合结果并预测输出数据中的各层级类别标签。融合结果并预测输出数据中的各层级类别标签。


技术研发人员:屠昊韡 蒋沁学 陈根华 马国荣 王炜 陈薇洁
受保护的技术使用者:屠昊韡
技术研发日:2021.12.24
技术公布日:2022/5/5
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献