确定文本处理任务相似度的方法、装置、设备和介质与流程
- 国知局
- 2024-09-05 14:28:23
本公开涉及人工智能,尤其涉及自然语言处理和深度学习等,具体涉及一种确定文本处理任务相似度的方法、确定文本处理任务相似度的装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、神经网络模型的训练、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括自然语言处理技术、计算机视觉技术、语音识别技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
1、本公开提供了一种确定文本处理任务相似度的方法、确定文本处理任务相似度的装置、电子设备、计算机可读存储介质和计算机程序产品。
2、根据本公开的一方面,提供了一种确定文本处理任务相似度的方法,包括:确定第一任务、第二任务和待训练神经网络,待训练神经网络包括多个网络模块和与多个网络模块对应的多个重要性系数,多个重要性系数分别用于缩放对应的网络模块的输出值;分别将第一任务和第二任务作为目标任务执行目标操作,以得到第一任务和第二任务各自的嵌入特征,目标操作包括:利用目标任务对应的文本样本训练待训练神经网络,并获取训练后的多个重要性系数;以及基于训练后的多个重要性系数,确定目标任务的嵌入特征;以及基于第一任务和第二任务各自的嵌入特征,确定第一任务和第二任务的任务相似度。
3、根据本公开的另一方面,提供了一种确定文本处理任务相似度的装置,包括:第一确定单元,被配置为确定第一任务、第二任务和待训练神经网络,待训练神经网络包括多个网络模块和与多个网络模块对应的多个重要性系数,多个重要性系数分别用于缩放对应的网络模块的输出值;嵌入特征获取单元,被配置为分别将第一任务和第二任务作为目标任务执行目标操作,以得到第一任务和第二任务各自的嵌入特征,嵌入特征获取单元包括:训练子单元,被配置为利用目标任务对应的文本样本训练待训练神经网络,并获取训练后的多个重要性系数;以及第一确定子单元,被配置为基于训练后的多个重要性系数,确定目标任务的嵌入特征;以及第二确定单元,被配置为基于第一任务和第二任务各自的嵌入特征,确定第一任务和第二任务的任务相似度。
4、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
5、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
6、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
7、根据本公开的一个或多个实施例,本公开通过在神经网络中设置用于缩放多个网络模块的输出的多个重要性系数,并利用文本处理任务的文本样本训练神经网络,进而基于训练后的重要性系数确定文本处理任务的嵌入特征,实现了以较低的计算成本和存储开销获取不同文本处理任务的嵌入特征。此外,通过利用不同文本处理任务的文本样本训练同一结构的神经网络以获取任务的嵌入特征,使得能够得到更准确的任务相似度。
8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
技术特征:1.一种确定文本处理任务相似度的方法,包括:
2.根据权利要求1所述的方法,其中,利用所述目标任务对应的文本样本训练所述待训练神经网络,并获取训练后的多个重要性系数包括:
3.根据权利要求2所述的方法,其中,利用所述目标任务对应的文本样本训练所述待训练神经网络,并获取训练后的多个重要性系数包括:
4.根据权利要求3所述的方法,其中,所述多个指示值均为布尔变量,所述预设规则包括在连续多个所述预设迭代次数的调参后,多个指示值中的发生变化的指示值的数量不超过预设参数。
5.根据权利要求3所述的方法,其中,基于所述训练后的多个重要性系数,确定所述目标任务的嵌入特征包括:
6.根据权利要求5所述的方法,其中,基于所述第一任务和所述第二任务各自的嵌入特征,确定所述第一任务和所述第二任务的任务相似度包括:
7.根据权利要求1-6中任一项所述的方法,其中,所述待训练神经网络为transformer架构,所述多个网络模块包括多个自注意力模块和多个前馈神经网络模块。
8.根据权利要求7所述的方法,其中,所述待训练神经网络为大语言模型。
9.根据权利要求1-6中任一项所述的方法,其中,所述多个重要性系数的初始值是随机初始化得到的。
10.根据权利要求1-6中任一项所述的方法,还包括:
11.根据权利要求10所述的方法,其中,所述任务迁移包括以下多项中的至少一项:
12.一种确定文本处理任务相似度的装置,包括:
13.根据权利要求12所述的装置,其中,所述训练子单元包括:
14.根据权利要求13所述的装置,其中,所述训练子单元包括:
15.根据权利要求14所述的装置,其中,所述多个指示值均为布尔变量,所述预设规则包括在连续多个所述预设迭代次数的调参后,多个指示值中的发生变化的指示值的数量不超过预设参数。
16.根据权利要求14所述的装置,其中,所述第一确定子单元包括:
17.根据权利要求16所述的装置,其中,所述第二确定单元包括:
18.根据权利要求12-17中任一项所述的装置,其中,所述待训练神经网络为transformer架构,所述多个网络模块包括多个自注意力模块和多个前馈神经网络模块。
19.根据权利要求18所述的装置,其中,所述待训练神经网络为大语言模型。
20.根据权利要求12-17中任一项所述的装置,其中,所述多个重要性系数的初始值是随机初始化得到的。
21.根据权利要求12-17中任一项所述的装置,还包括:
22.根据权利要求21所述的装置,其中,所述任务迁移包括以下多项中的至少一项:
23.一种电子设备,其特征在于,所述电子设备包括:
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-11中任一项所述的方法。
技术总结本公开提供了一种确定文本处理任务相似度的方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及自然语言处理和深度学习等技术领域。该包括:确定第一任务、第二任务和待训练神经网络,待训练神经网络包括多个网络模块和与多个网络模块对应的多个重要性系数,多个重要性系数分别用于缩放对应的网络模块的输出值;分别将第一任务和第二任务作为目标任务执行目标操作,以得到第一任务和第二任务各自的嵌入特征,目标操作包括:利用目标任务对应的文本样本训练待训练神经网络,并获取训练后的多个重要性系数;基于训练后的多个重要性系数,确定目标任务的嵌入特征;基于第一任务和第二任务各自的嵌入特征,确定第一任务和第二任务的任务相似度。技术研发人员:彭敏龙,孙明明,史亚冰受保护的技术使用者:北京百度网讯科技有限公司技术研发日:技术公布日:2024/9/2本文地址:https://www.jishuxx.com/zhuanli/20240905/286602.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表