产品名称识别方法、装置、电子设备和介质与流程
- 国知局
- 2024-09-11 14:46:00
本发明涉及大数据和人工智能,更具体地涉及一种产品名称识别方法、装置、电子设备和介质。
背景技术:
1、在金融服务领域,尤其是投资管理和分析领域,基金产品名称的准确识别在客户记录、投资顾问对话、路演演讲及其他相关文本中极为关键。这些场景常常涉及大量的基金产品名称提及,而这些名称的识别和提取由于存在的概念性和迷惑性、造词现象和简称的随意性等,比其他类型的名称识别更具挑战性。
2、进一步地,针对基金产品名称的识别,现有技术主要包括以下几种方法,但每种都有其局限性:其一是词向量相似度匹配方法,虽然这种方法在语义表示上表现丰富,计算效率高且可扩展性强,但它在处理上下文信息方面表现有限,对于生僻词或特定领域词汇的语义表达不充分,因此难以精准处理基金产品名称的特殊性;其二是nlp模型训练识别方法,该方法通过训练能够理解上下文,识别命名实体,但其效果高度依赖于大量的标注数据。鉴于基金产品名称的数据量相对较小且不断更新,这种方法很难收敛到一个较好的效果;其三是大模型实体提取,尽管大模型在实体提取方面表现出一定的能力,但由于缺乏足够的专业度,难以有效处理基金产品名称的迷惑性,导致识别准确率不高。
3、因此,目前缺乏一种成本低、泛化能力强且准确性高的解决方案,以适用于从复杂的金融文本中精确提取和识别基金产品名称。
技术实现思路
1、鉴于上述问题,根据本发明的第一方面,提供了一种产品名称识别方法,所述方法包括:获取包括基金产品简称的金融业务文本;将所述金融业务文本作为输入,利用预先构建的信息提取模型进行基金产品简称的初步提取,获得候选基金简称和对应的匹配可能性;基于所述候选基金简称和对应的匹配可能性进行可能性筛选,获得初选基金简称;获取包括全量基金产品全称的基金产品全称列表;利用名称匹配模型,将所述初选基金简称和所述基金产品全称列表进行相似度匹配,获得每个初选基金简称对应的匹配结果和相似度得分;以及基于所述匹配结果和相似度得分,获得所述金融业务文本中包含的基金产品全称。
2、根据一些示例性实施例,基于改进的最小编辑距离算法构建所述名称匹配模型,其中,具体包括:定义目标字符、候选字符和陌生字符,其中,目标字符表示为基金产品全称中所包含的全部字符集合,候选字符表示为待匹配的基金产品简称中的全部字符集合,陌生字符表示为在候选字符集合中出现而在目标字符集合中不出现的字符;基于所述目标字符、所述候选字符和所述陌生字符定义编辑成本,其中包括:将对于既存在于目标字符又存在于候选字符的字符编辑成本设定为1,将陌生字符的编辑成本设定为m,将顺序颠倒的字符的编辑成本设定为n,m、n均为经验设定值;以及基于所述编辑成本改进最小编辑距离算法,以构建所述名称匹配模型。
3、根据一些示例性实施例,基于自然语言处理的大语言模型构建所述信息提取模型,所述将所述金融业务文本作为输入,利用预先构建的信息提取模型进行基金产品简称的初步提取,获得候选基金简称和对应的匹配可能性,具体包括:基于所述金融业务文本设计提示工程,包括角色设定、任务描述和输出格式指导;以及基于所述提示工程与所述信息提取模型进行交互,获得所述信息提取模型返回的候选基金简称和对应的匹配可能性。
4、根据一些示例性实施例,所述方法还包括:基于金融业务文本和相应的实体和概念对大语言模型进行微调,以构建所述信息提取模型,其中,将提高实体识别的准确率和优化对特定金融术语的理解作为微调目标。
5、根据一些示例性实施例,利用聊天标注语言的start_with策略对所述信息提取模型进行输出格式指导,以指定所述信息提取模型的输出以表格的标题行开始。
6、根据一些示例性实施例,所述基于所述匹配结果和相似度得分,获得所述金融业务文本中包含的基金产品全称,具体包括:筛选所述相似度得分超过第一阈值的匹配结果,获得目标匹配结果;响应于所述目标匹配结果存在多个,对所述目标匹配结果按照相似度得分从高到低的顺序进行排序;以及响应于排序在第一位的目标匹配结果与排序在第二位的目标匹配结果的相似度得分差值超过第二阈值,将排序在第一位的目标匹配结果作为所述金融业务文本中包含的基金产品全称。
7、根据一些示例性实施例,所述基于所述提示工程与所述信息提取模型进行交互,获得所述信息提取模型返回的候选基金简称和对应的匹配可能性,具体包括:将所述提示工程输入所述信息提取模型,利用所述信息提取模型对金融业务文本中的上下文信息进行分析,获得候选基金简称和相关性分析结果;以及将所述相关性分析结果和预设的相关性阈值进行比较,获得所述匹配可能性。
8、根据本发明的第二方面,提出了一种产品名称识别装置,所述装置包括:金融业务文本获取模块,用于:获取包括基金产品简称的金融业务文本;简称提取模块,用于:将所述金融业务文本作为输入,利用预先构建的信息提取模型进行基金产品简称的初步提取,获得候选基金简称和对应的匹配可能性;初选基金简称筛选模块,用于:基于所述候选基金简称和对应的匹配可能性进行可能性筛选,获得初选基金简称;全称列表获取模块,用于:获取包括全量基金产品全称的基金产品全称列表;相似度匹配模块,用于:利用名称匹配模型,将所述初选基金简称和所述基金产品全称列表进行相似度匹配,获得每个初选基金简称对应的匹配结果和相似度得分;以及基金产品全称获取模块,用于:基于所述匹配结果和相似度得分,获得所述金融业务文本中包含的基金产品全称。
9、根据一些示例性实施例,所述简称提取模块可以包括提示工程设计单元和交互单元。
10、根据一些示例性实施例,所述提示工程设计单元可以用于基于所述金融业务文本设计提示工程,包括角色设定、任务描述和输出格式指导。
11、根据一些示例性实施例,所述交互单元可以用于基于所述提示工程与所述信息提取模型进行交互,获得所述信息提取模型返回的候选基金简称和对应的匹配可能性。
12、根据一些示例性实施例,所述简称提取模块还可以包括上下文分析单元和可能性匹配单元。
13、根据一些示例性实施例,所述上下文分析单元可以用于将所述提示工程输入所述信息提取模型,利用所述信息提取模型对金融业务文本中的上下文信息进行分析,获得候选基金简称和相关性分析结果。
14、根据一些示例性实施例,所述可能性匹配单元可以用于将所述相关性分析结果和预设的相关性阈值进行比较,获得所述匹配可能性。
15、根据一些示例性实施例,所述相似度匹配模块可以包括字符定义单元、编辑成本定义单元和模型改进单元。
16、根据一些示例性实施例,所述字符定义单元可以用于定义目标字符、候选字符和陌生字符,其中,目标字符表示为基金产品全称中所包含的全部字符集合,候选字符表示为待匹配的基金产品简称中的全部字符集合,陌生字符表示为在候选字符集合中出现而在目标字符集合中不出现的字符。
17、根据一些示例性实施例,所述编辑成本定义单元可以用于基于所述目标字符、所述候选字符和所述陌生字符定义编辑成本,其中包括:将对于既存在于目标字符又存在于候选字符的字符编辑成本设定为1,将陌生字符的编辑成本设定为m,将顺序颠倒的字符的编辑成本设定为n,m、n均为经验设定值。
18、根据一些示例性实施例,所述模型改进单元可以用于基于所述编辑成本改进最小编辑距离算法,以构建所述名称匹配模型。
19、根据一些示例性实施例,所述相似度匹配模块可以包括目标匹配结果获取单元、排序单元和比较单元。
20、根据一些示例性实施例,所述目标匹配结果获取单元可以用于筛选所述相似度得分超过第一阈值的匹配结果,获得目标匹配结果。
21、根据一些示例性实施例,所述排序单元可以用于响应于所述目标匹配结果存在多个,对所述目标匹配结果按照相似度得分从高到低的顺序进行排序。
22、根据一些示例性实施例,所述比较单元可以用于响应于排序在第一位的目标匹配结果与排序在第二位的目标匹配结果的相似度得分差值超过第二阈值,将排序在第一位的目标匹配结果作为所述金融业务文本中包含的基金产品全称。
23、根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的方法。
24、根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
25、根据本发明的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
26、上述一个或多个实施例具有如下优点或有益效果:根据本发明提供的产品名称识别方法,通过将整个识别过程分为初步提取、可能性筛选和相似度匹配几个阶段,有效地缩减了每个阶段需要处理的数据量。这种分阶段处理可以减少不必要的计算,特别是在后期的相似度匹配阶段,只处理经过筛选的有限数据集,从而提高整体计算效率;使从获取金融业务文本到识别和验证基金产品全称的整个流程实现了自动化,从而减少了人工操作的需求,显著提高了处理速度和准确性;使用户能够快速获得从金融业务文本中提取的基金产品全称,从而实现及时反馈,意味着用户可以在更短的时间内获得需要的信息,增强了决策支持的效率,改善了用户体验。
本文地址:https://www.jishuxx.com/zhuanli/20240911/292079.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表