一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向智能对话系统的意图识别及槽位填充联合优化方法

2022-12-20 02:00:59 来源:中国专利 TAG:


1.本发明涉及深度学习、自然语言处理的技术领域,尤其涉及面向智能对话系统的意图识别及槽位填充联合优化方法。


背景技术:

2.建立起一个能够理解人类的语言、分析相应的指令意图并给出流畅、正确的反应的智能对话系统一直是人工智能领域的一个重要的研究课题。一个典型的对话系统通常由以下三个模块组成:自然语言理解、对话管理(对话状态追踪、对话策略)、自然语言生成。其中,自然语言理解是对话系统中和的核心部分。自然语言理解旨在从输入的句子指令中提取出句子的意图信息和相应的语义槽位信息,形成语义框架。
3.自然语言理解包含意图识别和语义槽位填充两项任务。其中,意图识别就是识别一段文字的主要意图,类似于找中心思想,槽位填充的目标是提取输入语句中对于意图重要的语句信息,也就是其中重要的槽位信息。通过完成自然语言理解模块中的意图识别和语义槽位填充两项任务系统可以识别出用户想要系统完成的任务类型以及完成这些任务的重要语义参数,进而形成结构化的语义框架表示。
4.最早期的做法是将这两个任务分开处理,按流水线的方式依次完成。基于规则的方法最初被应用于这两项任务,基于规则的方法优点是稳定性高、快捷,可以很好的提取出所需要的意图和槽位信息,但是由于规则依赖于专家手工提取,所以这种方式不仅耗费时间,也耗费人力资源。此外,由于不同场景的不同,制定出来的规则不具有通用性,导致系统无法从一个场景迁移到另一个场景。
5.之后,机器学习和深度学习的方法被应用在意图识别和槽位填充这两项任务之中。意图识别常用的方法有支持向量机、朴素贝叶斯等机器学习的方法,也有长短时记忆网络等深度学习的方法。槽位填充通常被当做序列标注问题,常用的序列标注格式有bio和bios,常用的机器学习方法有隐马尔科夫模型、条件随机场模型等模型,随着深度学习的兴起,循环神经网络模型来实现序列标注任务,发现使用rnn能够取得更好的效果;随后长短时记忆网络也被用来实现序列标注。
6.再后来,有学者指出意图识别和语义槽位填充这两个任务相互影响、相互制约。为充分利用这两个任务之间的相关性,对意图识别和语义槽位填充的联合识别模型被提出。联合建模的方法大多使用深度学习的方法,不需要人工定义特征,只需要词向量和字向量就能达到标准水平,同时,这类方法注重利用两个任务之间的相互影响和交互,以提高整体性能。但是现有的联合建模识别方法存在没有充分抽取出编码信息、没有考虑到意图识别和槽位填充之间的交互、整体准确率不足的问题。


技术实现要素:

7.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部
分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
8.鉴于上述现有存在的问题,提出了本发明。
9.因此,本发明解决的技术问题是:现有技术中没有充分抽取出编码信息、没有考虑到意图识别和槽位填充之间的交互、整体准确率不足的问题。
10.为解决上述技术问题,本发明提供如下技术方案:对每条指令语句进行分词,得到一个单词序列,并在每条序列前面添加句子开始占位符[cls],得到序列ω,ω=(ω0,ω1,

,ωn),其中,ω0表示占位符[cls],ω1、

、ωn表示序列;将序列ω作为输入传给bert预训练层进行编码,得到词向量特征 (c0,c1,
…cn
);将c=(c1,c2,
…cn
)分别通过两个双向长短时记忆网络结构提取意图上下文向量信息h
id
和槽位上下文向量信息h
sf
;将特征向量c0分别与意图上下文向量信息h
id
各个时刻的向量进行拼接,得到单词级别意图分类概率单词的意图分类标签和句子级别的意图分类结果o
id
;将意图-槽位融合矩阵e和特征向量ci进行拼接,得到槽位向量将每个向量传递到分类器计算出概率值最大的索引号。
[0011]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:所述双向长短时记忆网络结构的运算包括,
[0012]
对矩阵c=(c1,c2,
…cn
)分别进行正向时序计算和反向时序计算得到的向量的拼接,所述正向时序计算包括按照(c1,c2,
…cn
)进行时序运算,所述反向时序计算包括按照矩阵c=(c1,c2,
…cn
)反向排列的顺序(cn,c
n-1
,

c1)进行时序运算。
[0013]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:所述正向时序运算的矩阵的获取包括,
[0014]
每一列向量按照从左到右的方式进行时序计算包括,
[0015][0016][0017][0018][0019]ct
=f
t
·ct-1
g
t
·it
[0020][0021]
其中,c
t
表示矩阵c
bert
第t列的列向量,c
t
、表示在每次计算完成后得到记录信息的两个向量,i
t
、f
t
、o
t
、g
t
表示c
t
、参与下一次的运算得到的四个中间向量,ei、ef、eo、eg表示生成中间向量i
t
、f
t
、o
t
、g
t
时对输入向量k
《t》
的权重转移矩阵,ui、uf、uo、ug表示生成中间向量i
t
、f
t
、o
t
、g
t
时对前一次运算得到的向量c
t-1
的权重转移矩阵,bi、bf、bo、bg表示计算中间向量i
t
、f
t
、o
t
、 g
t
时添加的偏置向量,σ、ta表示激活函数,exp表示指数函数,
·
表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量的运算,将每次计算所得到的依次排序,将得到正向时序运算的矩阵;同样的,按照词运算可以得到反向时序运
算的矩阵。
[0022]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:所述单词级别意图分类概率单词的意图分类标签和句子级别的意图分类结果o
id
的获取包括,
[0023]
将所述占位符[cls]对应的特征向量c0分别与意图上下文向量信息h
id
各个时刻的向量进行拼接,得到单词级别的意图信息向量i
id

[0024]
将所得到的单词级别的意图信息向量i
id
输入分类器得到单词级别意图分类概率和单词的意图分类标签进而得到句子级别的意图分类结果o
id

[0025]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:i时刻得到单词级别的意图信息向量的计算包括,
[0026][0027]
其中,concat表示水平拼接的操作,c0表示占位符[cls]对应的特征向量,表示i时刻对应的意图上下文向量信息。
[0028]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:利用softmax函数计算所述单词级别意图分类概率利用argmax函数计算单词的意图分类标签的步骤包括,
[0029]
将所得到的每个时刻的意图信息向量输入到一个前馈神经网络中得到 si,
[0030][0031]
其中,w
id
表示前馈神经网络的权重矩阵,b
id
是表示前馈神经网络的偏置;
[0032]
利用softmax层进行单词级别的意图分类,得到单词级别意图分类概率
[0033][0034]
利用argmax函数计算单词的意图分类标签
[0035][0036]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:所述句子级别的意图分类结果o
id
的计算包括,
[0037][0038]
其中,n表示句子的长度,ni表示意图标签的数量,表示指示函数,αj表示0-1向量argmax表示返回α中最大值的索引的操作。
[0039]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:所述意图-槽位融合矩阵e的获取包括,
[0040]
将所有的意图分类标签和槽位上下文向量信息h
sf
输入意图-槽位信息融合
层,得到意图-槽位融合矩阵e。
[0041]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:所述意图-槽位融合矩阵e的计算包括,
[0042]
接收槽位上下文向量和来自单词级别意图识别层的意图向量,通过乘以各自对应的权重矩阵统一槽位上下文向量和单词级别意图识别向量的维度大小,得到对应的权重矩阵w、v,利用cosine_similarity函数计算出一个一致性权重;
[0043][0044]
其中,βi表示第i个时间步的意图信息和语义槽位信息的余弦相似度结果。
[0045]
作为本发明所述的面向智能对话系统的意图识别及槽位填充联合优化方法的一种优选方案,其中:所述意图-槽位融合矩阵e的计算还包括,
[0046]
将槽位上下文向量和意图上下文向量分别乘以计算得到的权重,并将结果ei拼接得到意图-槽位融合向量e;
[0047][0048]
本发明的有益效果:本发明充分提取了对话系统中用户前后输入的句子中的信息,可以在公开数据上都取得优异的效果,在对准确率要求较高的对话系统中具有良好的实用性。
附图说明
[0049]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0050]
图1为本发明一个实施例提供的面向智能对话系统的意图识别及槽位填充联合优化方法的模型结构图。
具体实施方式
[0051]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0052]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0053]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0054]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件
结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0055]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0056]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0057]
实施例1
[0058]
参照图1,为本发明的一个实施例,提供了面向智能对话系统的意图识别及槽位填充联合优化方法,包括:
[0059]
s1:对每条指令语句进行分词,得到一个单词序列,并在每条序列前面添加句子开始占位符[cls],将单词序列形式的句子转化为机器可以理解的数据形式,得到序列ω,ω=(ω0,ω1,

,ωn),其中,ω0表示占位符[cls],ω1、

、ωn表示序列。需要说明的是:
[0060]
以问答系统中的对话数据:ω1=“showmetheflightsfromnewarknewjerseytoontariointernationalnextsaturday”、ω2=“iwanttoflyfromdallasfortworthtophiladelphia”、ω3=“showmeflightsbetweennewyorkcityandlasvegas”为例,此时的目标是对ω2进行意图识别和槽位填充,将s2化为机器可以理解的数据形式,得到的样本向量表示如下:
[0061]
[101,1045,2215,2000,4875,2013,5759,3481,4276,2000,4407]
[0062]
s2:将序列ω作为输入传给bert预训练层进行编码,得到词向量特征(c0,c1,
…cn
)。需要说明的是:
[0063]
序列ω作为输入传给bert预训练模型,经过词嵌入、位置嵌入、权重计算操作,得到词汇向量特征(c0,c1,
…cn
):
[0064]
[[-1.0734,1.1094,-0.6790,...,0.9181,0.8761,1.0471],[0.5465,-0.8109,1.4241,...,0.2909,0.5554,-0.4626],[0.5661,-0.7816,1.4323,...,0.2798,0.5079,-0.4703],...,[-0.0836,-1.0954,0.1999,...,0.2449,-0.1727,-0.5366],[-0.0992,-1.1117,0.1995,...,0.2207,-0.1731,-0.5347],[-0.0720,-1.1041,0.1930,...,0.2355,-0.1868,-0.5535]]
[0065]
s3:将c=(c1,c2,
…cn
)分别通过两个双向长短时记忆网络结构提取意图上下文向量信息h
id
和槽位上下文向量信息h
sf
。需要说明的是:
[0066]
双向长短时记忆网络结构的运算包括,
[0067]
对矩阵c=(c1,c2,
…cn
)分别进行正向时序计算和反向时序计算得到的向量的拼接,正向时序计算包括按照(c1,c2,
…cn
)进行时序运算,反向时序计算包括按照矩阵c=(c1,c2,
…cn
)反向排列的顺序(cn,c
n-1
,

c1)进行时序运算,其中正向时序运算就是按照(c1,c2,
…cn
)进行时序运算,反向时序运算就是按照其反向排列的顺序(cn,c
n-1
,

c1)进行
时序运算。
[0068]
正向时序运算的矩阵的获取包括,
[0069]
每一列向量按照从左到右的方式进行时序计算包括,
[0070][0071][0072][0073][0074]ct
=f
t
·ct-1
g
t
·it
[0075][0076]
其中,c
t
表示矩阵c
bert
第t列的列向量,c
t
、表示在每次计算完成后得到记录信息的两个向量,i
t
、f
t
、o
t
、g
t
表示c
t
、参与下一次的运算得到的四个中间向量,ei、ef、eo、eg表示生成中间向量i
t
、f
t
、o
t
、g
t
时对输入向量k
《t》
的权重转移矩阵,ui、uf、uo、ug表示生成中间向量i
t
、f
t
、o
t
、g
t
时对前一次运算得到的向量c
t-1
的权重转移矩阵,bi、bf、bo、bg表示计算中间向量i
t
、f
t
、o
t
、 g
t
时添加的偏置向量,σ、ta表示激活函数,exp表示指数函数,
·
表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量的运算,将每次计算所得到的依次排序,将所有的h
t
按对应c
t
在c
bert
中的顺序排列,将得到正向时序运算的矩阵,得到该步骤的运算结果矩阵h
id
和h
sf

[0077]hid
:[[0.0845,-0.2196,0.0126,...,-0.0636,-0.1342,0.1236], [0.2198,-0.1339,0.0966,...,-0.0980,-0.1443,0.0887], [0.2308,-0.0848,0.1221,...,-0.0985,-0.1468,0.0879], ..., [0.0158,0.2329,-0.3308,...,0.1665,-0.1511,-0.1702], [0.0136,0.2338,-0.3314,...,0.1459,-0.1224,-0.1456], [0.0152,0.2342,-0.3334,...,0.1005,-0.0744,-0.1067]]
[0078]hsf
:[[-1.0472,1.1794,-0.6424,...,0.9164,0.8805,1.0638], [0.6591,-0.7856,1.4764,...,0.2808,0.5005,-0.4260], [0.6495,-0.7781,1.4520,...,0.2957,0.5221,-0.4284], ..., [-0.1030,-1.1081,0.3080,...,0.2751,-0.2023,-0.5291], [-0.0984,-1.1128,0.3174,...,0.2677,-0.1998,-0.5341], [-0.1030,-1.1216,0.2995,...,0.2788,-0.1926,-0.5398]]
[0079]
同样的,按照词运算可以得到反向时序运算的矩阵。
[0080]
s4:将特征向量c0分别与意图上下文向量信息h
id
各个时刻的向量进行拼接,得到单词级别意图分类概率单词的意图分类标签和句子级别的意图分类结果o
id
。需要说明的是:
[0081]
单词级别意图分类概率单词的意图分类标签和句子级别的意图分类结果o
id
的获取包括,
0.1544,0.1067,0.2990]],
[0101]
意图-槽位融合矩阵e的计算包括,
[0102]
接收槽位上下文向量和来自单词级别意图识别层的意图向量,通过乘以各自对应的权重矩阵统一槽位上下文向量和单词级别意图识别向量的维度大小,得到对应的权重矩阵w、v,利用cosine_similarity函数计算出一个一致性权重;
[0103][0104]
其中,βi表示第i个时间步的意图信息和语义槽位信息的余弦相似度结果。
[0105]
意图-槽位融合矩阵e的计算还包括,
[0106]
将槽位上下文向量和意图上下文向量分别乘以计算得到的权重,并将结果ei拼接得到意图-槽位融合向量e;
[0107][0108]
βi可以看作是和之间的一致性程度,βi越大,越说明意图信息和语义槽位信息关注的是输入序列的同一个部分,也说明意图和槽位之间的相关性更强,上下文向量对预测结果的共享更可靠。
[0109]
本发明为每条指令语句以进行分词处理并在句首添加占位符[cls],将普通的单词形式的数据转化为机器能够理解的数据形式;通过bert预训练模型进行编码,生成包含丰富信息的单词特征向量。
[0110]
本发明使用了基于单词级别的意图识别模块。一方面单词级别的意图识别最终通过投票来决定最终的意图可以提高意图识别的效果,另一方面,基于单词级别的意图识别可以为槽位填充保留更多有用的意图信息。如果句子中的某些单词的意图被预测错误,其他正确的单词对相应的槽位预测仍然有帮助作用。
[0111]
本发明提出了意图-槽位信息融合层。本文重点研究了意图信息和槽位信息的交互,针对如何将意图信息作用于槽位填充的问题,我们提出了融合层建模两个任务之间的关系,该层输出意图-槽位融合信息,利用相似度将单词级别的意图信息和槽位信息进行融合,用以实现槽位填充模块的执行。
[0112]
本发明充分提取了对话系统中用户前后输入的句子中的信息,可以在公开数据上都取得优异的效果,在对准确率要求较高的对话系统中具有良好的实用性。
[0113]
实施例2
[0114]
参照表1为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了面向智能对话系统的意图识别及槽位填充联合优化方法的验证测试,为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
[0115]
将本发明所提出的模型与基线模型进行性能数据对比,其实验结果及比较如表1所示。
[0116]
表1:模型的实验结果及比较(以%为单位)。
[0117][0118][0119]
如表1所示,本发明所提出的模型在atis数据集上的表现超过了所有的基线模型,与之前不使用bert预训练模型作为底层编码层的最先进模型 stack-prop相比,本发明所提出的模型在atis数据集上的intent acc、slotf1 和sentence acc分别提高了1.1%、0.2%和1.9%;且本发明所提出的提出的模型优于joint bert模型,如表1所示,与jointbert模型相比,本发明所提出的模型在atis上的intent acc和sentence acc分别提高了0.5%和0.2%。在另一个数据集snips上,本发明所提出的模型同样表现出了先进的性能;如表 1所示,与atis数据集类似,本发明所提出的模型在snips数据集上的表现与 stack-prop模型相比在三个指标上分别提高了0.6%、2.5%和6%,同使用了bert 的模型相比本发明所提出的模型sentence acc提高了0.1%。
[0120]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献