一种基于FuzzyWuzzy算法的通用数据模糊搜索匹配方法与流程
- 国知局
- 2024-10-15 09:51:11
本申请属于搜索匹配,具体涉及一种基于fuzzywuzzy算法的通用数据模糊搜索匹配方法。
背景技术:
1、随着信息技术的飞速发展,企业数字化转型已成为不可逆转的趋势,企业级云平台作为支撑各类业务应用的核心设施,其功能性和易用性直接影响着企业的运营效率。gscloud企业数字化云平台作为一款服务于企业用户的综合管理工具,提供了一系列涵盖数据管理、流程控制及报表生成等功能的服务。为了进一步优化用户体验,平台特别集成了强大的搜索功能,使用户能够通过模糊搜索迅速定位所需信息。然而,随着云计算技术的进步与大数据分析能力的增强,企业对于搜索功能的要求也水涨船高。传统的精确匹配方式已不足以应对日益增长的需求,模糊搜索因其能更好地理解并满足用户的实际意图而显得尤为重要,它不仅要求系统处理标准查询,还需应对诸如拼写错误、同义词及缩略词等非标准输入。
2、当前,gscloud平台上的模糊搜索功能主要通过sql查询语言实现,特别是利用like操作符来完成模糊匹配任务。但是,当查询条件包含通配符时,like操作符往往会导致全表扫描,而非通过索引加速查询,这在处理大规模数据集和复杂查询时会显著增加响应时间。另一方面,在某些高级应用场景下,平台采用应用程序级别的数据直接比较方法,虽然这种方法在某些场景下可以加快响应速度,但它同样伴随着高内存消耗和维护成本的问题。此外,若未能恰当地配置搜索权重或匹配算法,则可能导致搜索结果不够精准,尤其在处理用户多样化的输入形式时,搜索的质量可能会有所下滑。
技术实现思路
1、本申请提供了一种基于fuzzywuzzy算法的通用数据模糊搜索匹配方法,以解决处理大规模数据查询响应速度慢、内存消耗高和搜索不精准的问题。
2、本申请所采用的技术方案为:
3、本申请实施例提供一种基于fuzzywuzzy算法的通用数据模糊搜索匹配方法,包括:
4、接收用户输入的关键词和维度参数,分析所述维度参数,确定优先级;
5、按照所述优先级,将所述关键词与数据库进行匹配,以生成候选结果集,根据所述维度参数,对所述候选结果集进行重新排序,得到最终结果集;
6、对所述最终结果集进行维度检查,若通过,则返回数据,若不通过,则重新执行匹配过程或者报错。
7、本申请提供的一种基于fuzzywuzzy算法的通用数据模糊搜索匹配方法还包括下述附加技术特征:所述接收用户输入的关键词和维度参数,分析所述维度参数,确定优先级,具体为:
8、接受用户输入的搜索字符集、维度信息和维度顺序,根据所述维度信息确定每个维度的重要性以及每个所述维度在匹配过程中的角色,根据所述维度顺序,将所述维度按照优先级排序。
9、根据本申请的一个实施例,所述按照所述优先级,将所述关键词与数据库进行匹配,以生成候选结果集,根据所述维度参数,对所述候选结果集进行重新排序,得到最终结果集,具体为:
10、将用户输入的所述搜索字符集拆分成多个部分,对于每个拆分后的部分,使用fuzzywuzzy算法与目标字符集进行匹配,生成一系列结果集;将所有结果集合并,并去除重复项,形成一个初步的候选结果集;根据之前确定的所述维度信息,对候选结果集进行重新排序,得到最终结果集。
11、根据本申请的一个实施例,所述对所述最终结果集进行维度检查,若通过,则返回数据,若不通过,则重新执行匹配过程或者报错,具体为:根据传入的所述维度参数,检查匹配结果的正确性和相关性;如果结果正确,则准备返回数据;如果结果不正确、相似度不够高或与搜索内容无关,则需要重新执行匹配过程或返回错误信息。
12、根据本申请的一个实施例,所述返回数据,具体为:将经过排序的最终结果集返回给用户。
13、根据本申请的一个实施例,所述返回错误信息,具体为:如果在搜索过程中发现任何问题,则返回相应的错误信息,提示用户存在的问题或建议重新输入搜索条件。
14、根据本申请的一个实施例,所述fuzzywuzzy算法用于评估两个字符串之间的相似性,所述fuzzywuzzy算法包括编辑距离算法和jaccard相似度。
15、一种包含指令的计算机程序产品,当其在设备上运行时,使得设备执行实现基于fuzzywuzzy算法的通用数据模糊搜索匹配方法中的步骤。
16、一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现基于fuzzywuzzy算法的通用数据模糊搜索匹配方法中的步骤。
17、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现基于fuzzywuzzy算法的通用数据模糊搜索匹配方法中的步骤。
18、由于采用了上述技术方案,本申请所取得的有益效果为:
19、1.通过引入fuzzywuzzy算法,能够基于多种相似性度量方法(如编辑距离算法、jaccard相似度等)评估两个字符串之间的相似度,从而在海量数据中更精确地识别出与用户输入相匹配的内容。这种方法相比传统的精确匹配方式,能够更好地理解并满足用户的实际意图,即使用户输入存在拼写错误或使用了同义词、缩略词等情况,也能获得较为准确的搜索结果。
20、2.该技术方案允许用户自定义维度参数和维度顺序,从而能够灵活地根据具体需求调整搜索策略。这种灵活性使得系统能够适应多样化、复杂化的输入形式,为用户提供个性化的搜索体验,增强了用户满意度。
21、3.fuzzywuzzy算法在处理大量数据时依然能够保持较快的匹配速度,有效解决了传统sql like操作符导致的全表扫描问题。通过优先级排序,系统可以在短时间内筛选出高质量的结果集,减少了不必要的计算资源消耗,大大缩短了响应时间,提升了系统的整体效率。
22、4.通过对最终结果集进行维度检查,确保了返回数据的正确性和相关性。如果发现任何问题,系统会自动重新执行匹配过程或报错,避免了因数据质量问题导致的误判。这种机制提高了系统的稳定性和可靠性。
23、5.该方法不仅改善了搜索功能,还间接促进了企业数据管理的现代化进程。通过优化搜索功能,系统能够更高效地处理数据,帮助企业更好地利用信息资源,支持决策制定,提升运营效率。
技术特征:1.一种基于fuzzywuzzy算法的通用数据模糊搜索匹配方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的关键词和维度参数,分析所述维度参数,确定优先级,具体为:
3.根据权利要求2所述的方法,其特征在于,所述按照所述优先级,将所述关键词与数据库进行匹配,以生成候选结果集,根据所述维度参数,对所述候选结果集进行重新排序,得到最终结果集,具体为:
4.根据权利要求3所述的方法,其特征在于,所述对所述最终结果集进行维度检查,若通过,则返回数据,若不通过,则重新执行匹配过程或者报错,具体为:根据传入的所述维度参数,检查匹配结果的正确性和相关性;如果结果正确,则准备返回数据;如果结果不正确、相似度不够高或与搜索内容无关,则需要重新执行匹配过程或返回错误信息。
5.根据权利要求4所述的方法,其特征在于,所述返回数据,具体为:将经过排序的最终结果集返回给用户。
6.根据权利要求5所述的方法,其特征在于,所述返回错误信息,具体为:如果在搜索过程中发现任何问题,则返回相应的错误信息,提示用户存在的问题或建议重新输入搜索条件。
7.根据权利要求3所述的方法,其特征在于,所述fuzzywuzzy算法用于评估两个字符串之间的相似性,所述fuzzywuzzy算法包括编辑距离算法和jaccard相似度。
8.一种包含指令的计算机程序产品,当其在设备上运行时,其特征在于,使得设备执行实现如权利要求1-7任一项所述的基于fuzzywuzzy算法的通用数据模糊搜索匹配方法中的步骤。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于fuzzywuzzy算法的通用数据模糊搜索匹配方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于fuzzywuzzy算法的通用数据模糊搜索匹配方法中的步骤。
技术总结本申请提供了一种基于FuzzyWuzzy算法的通用数据模糊搜索匹配方法,涉及搜索匹配领域,包括:接收用户输入的关键词和维度参数,分析所述维度参数,确定优先级;按照所述优先级,将所述关键词与数据库进行匹配,以生成候选结果集,根据所述维度参数,对所述候选结果集进行重新排序,得到最终结果集;对所述最终结果集进行维度检查,若通过,则返回数据,若不通过,则重新执行匹配过程或者报错。技术研发人员:赵子毓,潘鲁川,訾强,戴学升受保护的技术使用者:浪潮通用软件有限公司技术研发日:技术公布日:2024/10/10本文地址:https://www.jishuxx.com/zhuanli/20241015/315607.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。