技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于冷启动的语句相似度的度量方法、设备及存储介质 > 正文

基于冷启动的语句相似度的度量方法、设备及存储介质

国知局
2024-07-31 23:20:11

本发明涉及自然语言处理领域，尤其涉及基于冷启动的语句相似度的度量方法、设备及存储介质。

背景技术：

1、语句相似度的度量方法在自然语言处理和信息检索等领域有广泛的应用。在搜索引擎中，度量两个查询之间的语句相似度是一项关键任务。通过了解用户的查询意图和与文档的相似度，搜索引擎可以更准确地返回相关的结果。在问答系统中，通过度量用户提出的问题与预定答案之间的相似度，可以更精准地匹配正确的答案。在对话系统中，度量用户输入与系统预期响应之间的相似度有助于判断系统对用户意图的理解程度。

2、语句相似度的度量方法在应用中面临问题包括：数据稀疏性，当训练语料库中缺乏某些特定领域或主题的数据时，模型可能无法很好地捕捉到这些领域或主题的语义相似性。标注困难，获取大规模的语义相似性标注数据是一项昂贵而困难的任务，缺乏足够标注数据将直接响模型的性能。特别是在智能问答与对话系统中，当系统刚刚发布运行时，获取的样本数据是十分有限，不足以进行有监督的训练，这是一个冷启动问题。

技术实现思路

1、本发明的目的在于：为了解决相似度判别的冷启动问题，本发明提供了基于冷启动的语句相似度的度量方法、设备及存储介质。方法主要包括以下步骤：

2、s1、输入待度量语句与目标语句集；

3、s2、基于冷启动的相似度度量方法处理待度量语句，获取度量结果；

4、s3、基于度量结果采集标签数据集；

5、s4、利用标签数据集训练有监督相似度度量方法模型；

6、s5、输入待度量语句，根据度量结果选择处理对策，获取预测结果；

7、进一步地，处理对策包括:获取最佳匹配对作为结果、增加标签数据集并输入度量语句至有监督相似度度量方法模型获取预测结果。

8、进一步地，步骤s2具体为：

9、s21、输入语句a和语句集b＝{b1,b2,…,bn}；语句a为待度量语句，语句集b为目标语句集，作为冷启动的相似度度量方法的对比集；

10、s22、查找语句中的停用词并用空格符号代替停用词，重复操作，直到至所有停用词都被空格符号替代，得到预处理后的语句a,和语句集b,；

11、s23、选择预训练模型，去除语句a,和语句集b,中不在预训练的词嵌入模型中的词汇，得到语句a″和语句集b″；

12、s24、使用分词工具对语句a″和语句集b″中的语句进行分词，将分词输入预训练模型，获取分词的嵌入表示；

13、s25、针对每个语句，将语句包含的所有分词的嵌入表示相加，得到语句的高维度向量表示；ea和eb＝{eb1,eb2,…,ebn}分别为语句a和语句集b的向量表示；

14、s26、计算ea与eb中所有ebi的相似度，将相似度作为度量结果，将度量结果前五的保存在冷启动相似度度量方法的r列表中。

15、进一步地，相似度计算步骤为：

16、计算ea与ebi的点积和范数的乘积，将ea与ebi的点积除以范数的乘积的结果作为得到语句a与语句bi的相似度。

17、进一步地，步骤s3具体为：

18、设定一个标准值，当r列表中与语句a相似度度量结果不小于标准值时，将对应bi取出，生成匹配数据对<a，bi>,添加到标签数据集s中；

19、当r列表中与语句a相似度度量结果均小于标准值时，选择r列表中最高相似度的bi生成匹配数据对<a，bi>，添加到标签数据集s中。

20、进一步地，当采集标签数据集中数据达到n时，进行有监督相似度度量方法模型训练，保存有监督相似度度量方法模型，且每当标签数据集增加n/10时，重新训练并保存新模型作为更新的有监督相似度度量方法模型。

21、进一步地，步骤s4具体为：

22、步骤s4具体为：

23、s41、将标签数据集均匀地划分成k个子集，循环迭代k次，对于每一次迭代，选择其中的一个子集为验证集，其他k-1个子集为训练集；

24、s42、将匹配数据对的两个句子，分别表示为单词集合：

25、

26、其中，wa、wb为匹配数据对的两个句子，la分别表示句子wa的单词与单词数量；lb分别表示句子wb的单词与单词数量；

27、使用双向长短时记忆网络，学习句子中单词的表示；

28、

29、其中，ai、bj分别表示由bilstm获取的句子wa第i个单词与句子wb的第j个单词的表示，bilstm为双向长短时记忆网络；

30、s43、计算wa、wb句子中单词间的自注意力，得到对应自注意力矩阵sa和sb，矩阵大小对应分别为la*la和lb*lb；

31、进而计算单词的自注意力值：

32、

33、其中，分别表示句子wa的第i个单词的自注意力值以及自注意力归一值；分别表是句子wb的第j个单词的自注意力值以及自注意力归一值；

34、自注意力归一值的具体计算公式如下：

35、

36、其中，为自注意力矩阵sa的第i列向量；为自注意力矩阵sb的第j列向量；

37、将单词的自注意力和bilstm的结果连接起来，作为局部推理的输入：

38、

39、其中，为句子wa的局部推理的输入；为句子wb的局部推理的输入；

40、s44、对自注意力和bilstm的连接结果进行局部推理建模，计算局部推理值，具体公式如下：

41、

42、表示句子wa与句子wb的局部推理值，eij为注意力权重，计算公式具体为：

43、

44、对元组和差异和逐元素乘积的计算，得到句子wa、wb的增强局部推理信息ma和mb；

45、s45、使用一个聚合层来结合句子的增强局部推理信息，使用双向长短时记忆网络执行聚合操作：

46、

47、其中，表示句子wa的聚合增强局部推理信息；表示句子wb的聚合增强局部推理信息；

48、s46、采用一个多层感知机分类器获取两个句子的表示，将预测结果形式化为概率分布：

49、p(y|wa,wb)＝softmax(tanh(w1v+b1))

50、其中，tanh为双曲正切函数；p(y|wa,wb)为概率分布形式值，概率输出是0-1之间数字，代表两个语句相似度大小；v为两个句子的表示，由拼接得到；w1和b1是可学习的参数。

51、进一步地，在每次训练过程中，模型的性能由验证集的表现来评估，最后，将k次验证的性能指标取平均值，作为模型的最终性能评估；性能指标包括准确率、查准率、回召率、f1分数。

52、进一步地，步骤s5具体为：

53、输入待度量语句，基于冷启动的相似度度量方法获取语句相似度度量结果，当度量结果不小于标准值时，选择相似度最高的匹配数据对作为匹配结果；否则将待度量语句输入有监督模型进行预测获取预测结果。

54、一种存储介质，所述存储介质存储指令及数据用于实现基于冷启动的语句相似度的度量方法。

55、一种计算机设备，包括：处理器及所述存储介质；所述处理器加载并执行所述存储介质中的指令及数据用于实现基于冷启动的语句相似度的度量方法。

56、本发明提供的技术方案带来的有益效果是：本发明通过使用冷启动的相似度度量方法处理待度量语句，获取度量结果，解决语句相似性判别过程中冷启动问题；基于度量结果采集标签数据集、利用标签数据集训练有监督相似度度量方法模型、输入待度量语句，根据度量结果选择处理对策，获取预测结果，解决了判别模型训练样本数据量少的问题。