一种多维度的跨境商品匹配方法及系统与流程
- 国知局
- 2024-08-22 14:35:09
本技术涉及电子商务领域,具体涉及一种多维度的跨境商品匹配方法及系统。
背景技术:
1、随着全球化进程的加速和互联网技术的发展,跨境电子商务正在迅速崛起。然而,由于不同国家和地区的商品信息存在语言、计量单位、商品属性等方面的差异,准确匹配相似商品成为跨境电商平台面临的一大挑战。
2、现有的商品匹配技术主要存在以下问题:
3、数据处理效率低:传统方法在处理大规模跨境商品数据时,往往需要耗费大量的计算资源和时间。
4、匹配精度不高:现有技术难以全面考虑商品的多维度特征,如商品属性、价格、描述文本等,导致匹配结果的准确性不足。
5、存储空间占用大:对于海量的跨境商品数据,现有技术在存储方面往往需要占用大量的空间。
技术实现思路
1、鉴于此,本技术提供一种多维度的跨境商品匹配方法及系统,解决了现有技术中跨境商品匹配效率低、精度不高、存储空间占用大、实时性不足以及难以适应动态变化的问题。
2、本技术实施例提供了一种多维度的跨境商品匹配方法,包括:
3、从多个跨境电商平台采集多个商品数据,对所述商品数据进行预处理;
4、基于预处理后的所述商品数据构建超稀疏随机图,其中每个商品作为所述超稀疏随机图中的一个节点,节点之间的边基于商品相似度定义;
5、利用双射字符串压缩bwt,对所述商品数据进行压缩,并在压缩后进行存储;
6、在接收到用户搜索商品的请求后,基于双指针线性搜索算法,在所述超稀疏随机图中定位与所述搜索的商品相匹配的相似商品;
7、构建并训练多维度匹配模型,将所述相似商品与所述搜索的商品进行相似度评估;
8、基于相似度评估结论,输出相似商品的匹配结果。
9、其中,基于预处理后的所述商品数据构建超稀疏随机图,包括:
10、定义图结构,并将每一商品表示为图中的一个节点;
11、基于商品相似度定义边的连接规则;
12、设计边的权重计算方法,用于反映商品间的相似程度;
13、使用局部敏感哈希lsh算法筛选潜在的相似商品对;
14、使用随机采样技术控制图的稀疏度;
15、并行化图的构建过程;
16、利用图压缩算法减少图结构的存储空间;
17、设计图遍历策略;
18、设计图结构的更新机制。
19、其中,使用局部敏感哈希lsh算法筛选潜在的相似商品对,包括:
20、构建lsh哈希函数族,所述lsh哈希函数族包括minhash和simhash;
21、构建多个独立的哈希表,每个哈希表使用不同的哈希函数组合;
22、设计支持增量更新的lsh结构,以适应商品数据的动态变化;
23、利用lsh结构进行近似最近邻ann查询,找到每个商品的潜在相似商品对。
24、其中,利用双射bwt对所述商品数据进行压缩,并在压缩后进行存储,包括:
25、将商品的多维特征序列转换为字符串;
26、将所述字符串进行bwt变换,生成压缩后的所述字符串;
27、基于压缩后的所述字符串,构建fm-index索引;
28、设计位图数据结构,用于存储压缩后的所述字符串和所述fm-index索引;
29、利用游程编码对所述位图进行进一步压缩;
30、建立所述位图和所述商品数据的映射关系。
31、其中,将所述字符串进行bwt变换,生成压缩后的所述字符串,包括:
32、基于所述字符串,生成所有可能的循环移位;
33、对所述移位进行字典序排序;
34、提取排序后每个所述移位的最后一个字符,形成bwt字符串;
35、使用后缀数组算法优化bwt计算,并在bwt计算过程中保留原始字符串的结束位置信息;
36、若商品特征字符串长度大于预设字符长度,则进行分块bwt计算。
37、其中,基于双指针线性搜索算法,在所述超稀疏随机图中定位与所述搜索的商品相匹配的相似商品,包括:
38、为所述搜索的商品确定初始搜索位置,定义所述搜索的商品为目标商品;
39、设置双指针,分别指向潜在匹配区间的起始和结束位置;
40、同时移动所述双指针,扫描潜在匹配的相似商品;
41、计算当前指针位置商品与所述目标商品的相似度;
42、根据相似度阈值决定所述双指针移动方向和步长;
43、利用自适应步长调整机制,根据当前搜索状态动态调整所述双指针移动的步长;
44、设计早停策略,以便在搜索超过第一时间阈值时停止搜索过程。
45、其中,计算当前指针位置商品与所述目标商品的相似度,包括:
46、获取当前指针位置商品与所述目标商品的商品属性、商品数值特征和商品描述文本,其中,商品属性包括商品类别、品牌和规格,商品数值特征包括价格和重量;
47、基于所述商品数值特征,使用欧式距离计算所述当前指针位置商品与所述目标商品都商品数值相似度;
48、基于所述商品属性,使用jaccard相似度算法计算所述当前指针位置商品与所述目标商品的商品属性相似度;
49、使用局部敏感哈希lsh估算所述当前指针位置商品与所述目标商品的商品描述文本相似度;
50、将所述商品数值相似度、所述商品属性相似度和所述商品描述文本相似度进行加权融合,确定当前指针位置商品与所述目标商品的总相似度。
51、其中,构建并训练多维度匹配模型,将所述相似商品与所述搜索的商品进行相似度评估,包括:
52、构建并训练多维度匹配模型,所述多维度匹配模型为xgboost或lightgbm模型;
53、获取所述相似商品与所述搜索的商品的多维度特征向量;
54、将所述相似商品与所述搜索的商品的多维度特征向量输入至所述多维度匹配模型,获得所述相似商品与所述搜索的商品进行相似度得分。
55、其中,对所述商品数据进行预处理,包括:
56、去除重复和无效数据;
57、解析商品的基本信息、类别层级结构和属性特征;
58、使用神经机器翻译模型进行文本翻译和语义特征提取,获取所述商品的描述文本。
59、本技术实施例还提供一种多维度跨境商品匹配系统,包括:
60、采集模块,用于从多个跨境电商平台采集多个商品数据,对所述商品数据进行预处理;
61、构建模块,用于基于预处理后的所述商品数据构建超稀疏随机图,其中每个商品作为所述超稀疏随机图中的一个节点,节点之间的边基于商品相似度定义;
62、压缩模块,用于利用双射字符串压缩bwt,对所述商品数据进行压缩,并在压缩后进行存储;
63、搜索模块,用于在接收到用户搜索商品的请求后,基于双指针线性搜索算法,在所述超稀疏随机图中定位与所述搜索的商品相匹配的相似商品;
64、评估模块,用于构建并训练多维度匹配模型,将所述相似商品与所述搜索的商品进行相似度评估;
65、输出模块,用于基于相似度评估结论,输出相似商品的匹配结果。
66、本技术实施例还提供一种计算机装置,所述计算机装置包括: 至少一个处理器;以及, 与所述至少一个处理器通信连接的存储器;其中, 所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述多维度的跨境商品匹配方法。
67、本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行上述多维度的跨境商品匹配方法。
68、本技术实施例还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现上述多维度的跨境商品匹配方法的步骤。
69、本技术具备以下技术效果:
70、提高数据处理效率:通过构建超稀疏随机图和使用局部敏感哈希lsh算法,本技术方法能够高效处理大规模跨境商品数据。
71、提高匹配精度:采用多维度匹配模型,综合考虑商品的属性、数值特征和描述文本,显著提高了商品匹配的准确性。
72、节省存储空间:利用双射字符串压缩bwt技术对商品数据进行压缩存储,大幅减少了存储空间的占用。
73、提高实时性:基于双指针线性搜索算法,能够快速在超稀疏随机图中定位相似商品,提高了系统的响应速度。
74、适应动态变化:通过设计图结构的更新机制和支持增量更新的lsh结构,本技术方法能够有效适应商品数据的动态变化。
本文地址:https://www.jishuxx.com/zhuanli/20240822/279197.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。