技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多模态融合的电信反欺诈方法和系统 > 正文

一种基于多模态融合的电信反欺诈方法和系统

国知局
2024-06-21 11:57:49

本发明属于多模态融合深度学习领域，涉及一种基于多模态融合深度神经网络模型电信反欺诈方法及系统。

背景技术：

1、随着社会经济快速发展，通讯互联网行业逐渐深入到我国社会每个角落。

2、在欺诈过程中，一般会有较清晰的行为逻辑，整个过程通常持续时间较长，信息渠道会包含多个维度，例如日常的电话，网络聊天，图片文字等多模态信息。传统的基于电话号码举报黑名单的方式，已经是在风险泄露之后才能采取的措施。如何利用多模态信息，将多模态信息在时间维度上完成信息抽取与融合，尽早的准确识别和防范风险是欺诈风险识别的难点。

3、多模态信息的联合训练，可以提高同时拥有图像，文本，语音等多模态信息任务的性能。如何将文本、图像、语音有效融合，提升识别模型识别准确率，同时保持模型的轻量化是多模态领域的目标。由于图像与文本信息特征的不同，大多数实际应用中基于检测的视觉嵌入时间消耗大，难以与文本采用统一网络结构。基于多模态融合的电信欺诈识别需要统一文本与图像的模型结构，平衡模型尺寸和运行时间，并用融合的时序模型抽取深层逻辑特征，提高识别的准确率和时效性。

4、由于目前语音识别准确率率已经达到98.2％，许多多模态任务将语音转化为文本，然后针对文本和图像进行训练。本专利也主要考虑图像与文本两类模态的融合。

技术实现思路

1、为解决上述问题，本发明提供一种基于多模态融合电信反欺诈方法及系统。

2、本发明的技术方案是：

3、一种基于多模态融合深度神经网络模型电信反欺诈方法，包括如下步骤：

4、步骤1.将信息中的语音模态转换为文字模态；转译好的语音信息与原对话中的文本信息直接按时间戳信息进行混编；

5、步骤2.将信息中的图像进行切片并转换为图像数字向量；通过缩放将图像转换为固定大小，然后将输入图像切成小块并展平为向量，线性映射归一化等线性操作之后，添加标签向量位，并叠加位置向量；

6、步骤3.将信息中的文本转换为数字向量；利用事先建立的文字词表将文本信息转换为数字向量，然后进一步转换为索引向量和数字特征矩阵，并添加标签向量位，并叠加位置向量；

7、步骤4.文本图像信息融合向量生成；将文本及图像向量进行拼接，并增加类别标签位，和模态标志位等信息后，作为深度学习模型的输入端，融合图像和文本信息进行模型识别；

8、步骤5.多层联合向量的深度学习网络迭代训练；建立深度学习模型框架，利用多头注意力层和多层感知机层，对输入样本信息进行学习；经过多轮迭代之后，学习样本中的特征表达，以及分类器模型参数；

9、步骤6.欺诈识别预测；待预测是否为欺诈的样本输入到已经训练好的分类器模型中，利用最后一层迭代后的输出向量，经过双曲正切函数进行映射，完成欺诈预测时的是否违规的判断。

10、优选地，步骤2包括：将输入图像i切成小块并展平为向量v，通过线性映射v与位置嵌入向量vpos，将v转换为嵌入特征这里vclass是类别标签向量；

11、

12、首先，图片预处理，将图片划分成等长等宽的面片，在具体实现中，是直接通过一个卷积层来实现；以16像素面片，224×224大小的图片为例，使用一个卷积核大小为16×16，步距为16的卷积层，通过卷积将224×224大小rgb颜色3通道的图像就可以转换为14×14×768大小的3维矩阵；然后把高以及宽两个维度展平即可得到196×768的二维矩阵；对应于上式子中的n是面片的个数196，v1…vn是维度为1×768的向量；线性映射v是768×768的矩阵，代表的是归一化等线性操作；然后，需要嵌入类别标签向量vclass；类别标签向量vclass的维度是[1,768]，然后将其与上一步得到的矩阵进行拼接，即1×768的向量与196×768的矩阵进行拼接，得到197×768的矩阵；接着，添加位置嵌入向量vpos，vpos的维度是197×768，直接与上一步得到的197×768的矩阵相加即可。

13、优选地，步骤3包括：通过词嵌入矩阵t与位置嵌入矩阵tpos，将输入文本t换为嵌入特征tclass为类别标签向量；

14、

15、首先，新建文字词表，直接收集所有中文常用字，建立一张索引表；这张索引表的规模可以设置为3600；然后，将文本逐字转化为索引向量，每一维是1～3600中的一个数字；每一维是该字在字典中的序号，在结束符位置添加-1，其余空缺维度填0.再然后，构建词嵌入层，假设每个字用768维的向量表示，则词嵌入层的权重为维度3600×768的矩阵t，矩阵的每个元素为浮点型小数；将索引向量进行词嵌入转换，将每个字对应的矩阵中的向量抽出并按语句顺序拼接[t1t；…；tlt]；接着，和图像类似，需要嵌入类别标签向量tclass；最后，添加位置嵌入向量tpos。

16、优选地，步骤4具体包括：将上一步得到文本和图像嵌入特征和与其对应的模态类型嵌入向量ttype、vtype求和，然后拼接形成张量z0；

17、

18、这里的ttype、vtype代表的是模态的标签向量，如文本模态为0，视觉模态为1，经过嵌入转换之后为1×768维的向量，与矩阵和分别相加；这里得到的以及的维度仍旧是197×768维，再经过拼接得到张量z0，维度是394×768维；

19、优选地，步骤5具体包括：融合向量z0通过d层的深度学习网络层迭代更新，直到最终的上下文序列zd；

20、

21、

22、这里单层网络由一层多头自注意力层(msa)和一层多层感知机(mlp)层的堆叠组成；ln(·)代表linear normalization线性归一化，即取数据中的最大值和最小值，将原数据值缩放到[0,1]区间，利用(原数据-极小值)/(极大值-极小值)，即将zd-1的每一维都缩放到[0,1]区间；

23、msa(·)代表了多头自注意力层；单个自注意力头的计算如下：

24、q＝qhz

25、k＝khz

26、v＝vhz

27、

28、

29、

30、首先，经过线性归一化后的向量简写为z，z作为自注意力层的输入，通过三个矩阵的变换转换为q，k，v三个表征；这里，qh，kh，vh是当前自注意力层h对应的query，key，value三个矩阵；z为394×768维的矩阵；qh，kh，vh的维度都是768×64，而q，k，v的维度为394×64；然后，将q，k进行矩阵相乘，得到相关性表征，并进行归一化得到表征a；因为q与kt内积后的结果为394×394，利用参数进行归一化，这里归一化参数为394，得到的a维度为394×394；接着，利用softmax网络层，对表征进行增强得到表征对于矩阵的每一个元素，计算指数函数值并求和，然后对整个矩阵中元素进行归一化；维度还是394×394；最后，通过与表征v进行乘积，得到单个自注意力层的注意力分数输出s；向量v的维度为394×64，所以矩阵相乘之后的结果s的维度为394×64；

31、单个自注意力层的注意力分数表达在表达特征的能力上维度不够，采用多头注意力进行具体计算；这里注意力头的数目为12，即h＝12；所以就有12组(qh，kh，vh)进行并行计算，同时得到12个并行的注意力分数sh，将12个注意力分数拼接在一起，这样，就得到多头注意力分数s；这里s的维度为394×(64×12)＝394×768；

32、因为s＝msa(ln(zd-1))的维度与输入zd-1的维度一致，所以可以相加得到新的

33、mlp(·)代表multi-layer perceptron多层感知机，是两个简单单层感知机的叠加；单层感知机的计算公式为mlpw,b(x)＝f(wx+b)；第一层的感知机大小为394×3072，第二层的感知机大小为394×768；这里第一层感知机的输入为经过变换后的一维向量x，输入向量x的维度为394×768＝302592，输出向量mlpw,b(x)的维度为394×768×4＝394×3072＝1210368，即w是维度为1210368×302592的矩阵，b是维度为1210368的向量；然后第二层感知机的输入为第一层感知机的输出向量即1210368维，输出为302592维；

34、经过了两层感知机之后，与的维度相同，经过相加之后就可以得到新一轮迭代的zd。

35、优选地，步骤6中因为在嵌入序列z的第一维预先添加了一个可学习的类别标记嵌入特征，所以在最后一层深度学习网络的输出端的状态用作类别标记；计算表达如下：

36、

37、是最后一层输出向量zd的第一维；ln(·)代表linear normalization线性归一化；tanh(·)是双曲正切函数，即y在训练时表达的是输入样本是否为电信欺诈，在模型预测时表达的是测试样例是否为电信欺诈。

38、进一步，步骤6中的已经训练好的分类器模型，具体迭代训练包括：样本收集，样本标注，模型训练三个步骤：

39、(61)样本收集；

40、样本收集过程中首先需要保障文本是具有时间戳的，即文本是有先后顺序的；单个样本中的文字数目不能超过最大支持字符数；如果文字段超过了最大字符数，需要进行分割为多样本；为了增加有效字符的数目，可以去掉“了”“么”等语气词，以及标点符号，然后按照步骤3进行处理；对于图片的输入，主要为聊天过程中的图像，如果不是224×224大小，则需要先进行缩放，将图片转换为统一的224×224大小，然后按照步骤2进行处理，为作为模型训练过程的输入做准备；

41、(62)样本标注；

42、样本标注主要是针对每一个样本是否为欺诈进行标注；在整体样本中，问题样本与正常样本的比例需要控制比例为1:4左右，不能被正常样本淹没；

43、(63)模型训练；

44、模型启动训练时所有模型参数都是随机初始化，包括在模型中的视觉和文本的class token，即vclass和tclass，也是可以在训练中自动更新，利用随机的方法进行初始化即可；

45、模型的整体训练采用反向传播算法进行训练；对于输入样本，按照步骤1、2、3、4、5、6，计算得到分类标签y时，由于该样本有一个人工标注的分类标签ylabel，两者可能会不一样，计算两者差距的损失函数采用较为常见的l2范数距离，即各样本误差的平方和，在模型迭代的过程中，损失函数会持续不断的降低；

46、

47、设所有模型的参数为θ＝{w1,…,b1,…}，模型迭代的计算过程如下，对于第k轮的迭代，

48、

49、这里η是迭代步长，取值为小于1的数值，并可以在迭代过程中逐渐减小；

50、迭代过程具体如下：a)随机初始化参数θ；b)根据步骤1、2、3、4、5、6计算得到分类结果yi，并根据标注样本标签ylabel,i，计算损失函数l；c)计算并根据上式得到更新后的θk+1；d)利用新的参数θk+1，更新模型参数，然后再进入步骤b)，一直迭代，直到最后损失函数的更新变化小于一定阈值，迭代停止；此时模型参数θ就是模型训练的结果；对于其中计算较为复杂的梯度部分，采取链式法则进行拆解之后，得到下式，即梯度计算可以由单样本计算然后求和得到；

51、

52、并且梯度的计算可以拆分为的前向计算过程与的反向计算过程；这里σ是神经网络中的激活函数sigmod函数的输出；在迭代过程中先进行一次前向计算过程，再进行一次反向计算过程，即可得到从而可以进行持续迭代；迭代停止时就是得到的θ就是风险判定模型参数。

53、本发明的第二个方面涉及基于多模态融合的电信反欺诈系统，包括：

54、语音模态转换为文字模块，用于将信息中的语音模态转换为文字模态，转译好的语音信息与原对话中的文本信息直接按时间戳信息进行混编；

55、图像的词嵌入转换模块，用于将信息中的图像进行切片并转换为图像数字向量，通过缩放将图像转换为固定大小，然后将输入图像切成小块并展平为向量，线性映射归一化等线性操作之后，添加标签向量位，并叠加位置向量；

56、文本信息的嵌入模块，用于将信息中的文本转换为数字向量，利用事先建立的文字词表将文本信息转换为数字向量，然后进一步转换为索引向量和数字特征矩阵，并添加标签向量位，并叠加位置向量；

57、文本图像信息融合向量生成模块，用于文本图像信息融合向量生成，将文本及图像向量进行拼接，并增加类别标签位，和模态标志位等信息后，作为深度学习模型的输入端，融合图像和文本信息进行模型识别；

58、多层联合向量的深度学习网络迭代模块，用于多层联合向量的深度学习网络迭代训练，建立深度学习模型框架，利用多头注意力层和多层感知机层，对输入样本信息进行学习，经过多轮迭代之后，学习样本中的特征表达，以及分类器模型参数；

59、欺诈识别预测模块，用于欺诈识别预测，待预测是否为欺诈的样本输入到已经训练好的分类器模型中，利用最后一层迭代后的输出向量，经过双曲正切函数进行映射，完成欺诈预测时的是否违规的判断。

60、电信欺诈经常出现在微信、电话、短信等多种渠道。如果能对文本、图像、语音进行综合利用，与仅利用单一模态信息相比，能有效增加识别率。本发明的快速轻量级多模态时序信息抽取与融合，使用统一的文本和图像处理模型，提高识别能力的同时，加快识别速度，并利用深度学习时序处理框架在图像和文本领域的优势，将这两模态充分融合，并同时保有时序信息处理的优越性。具体内容分为：

61、1、语音转文字处理

62、将对话中的语音信息，利用已知的模型或服务，转换为文字信息，从而能够将语音信息融入电信反欺诈识别算法中。

63、2、文本与图像融合的深度学习网络算法框架(如附图1所示)

64、(1)图像的词嵌入转换

65、将欺诈对话中的图像信息转换为基于面片的词向量，从而将图像中的颜色信息进行向量编码，为识别模型的输入做准备。

66、(2)文本信息的嵌入转换

67、将欺诈对话中的文本信息(包括语音转文字之后生成的文本，以及原对话中的文字信息)转换为数字向量，为输入识别模型进行准备

68、(3)文本图像信息融合向量生成

69、将文本及图像向量进行拼接，并增加类别标签位，和模态标志位等信息后，作为深度学习模型的输入端，融合图像和文本信息进行模型识别

70、(4)多层联合向量的深度学习网络迭代

71、建立深度学习模型框架，利用多头注意力层和多层感知机层，对输入样本信息进行学习。经过多轮迭代之后，学习样本中的特征表达，以及分类器参数。

72、(5)欺诈识别预测

73、利用最后一层迭代后的输出向量，经过双曲正切函数进行映射，完成欺诈预测时的是否违规的判断。

74、本发明的优点是：

75、将电信欺诈中的图片文本语音等信息融合，使用统一的深度学习模型框架，改进了传统的基于目标检测的区域特征和网格特征不能与文本特征直接融合训练的问题，将图像和文本输入拼接后由统一的网络层一起处理，大大减小模型规模以及计算量，输出特征序列进行融合计算，提高了计算的信息利用率和，提高了识别速度，为实际场景中的应用提供了可行性方案。