一种训练样本的确定方法、装置、计算设备及存储介质与流程
- 国知局
- 2024-08-30 14:40:44
本技术涉及计算机,尤其涉及一种训练样本的确定方法、装置、计算设备及存储介质。
背景技术:
1、在推荐系统中,一般采用召回模型向用户推荐用户感兴趣的商品,召回模型是数字化营销中的一种常用的推荐系统,它的目的是根据用户的行为和偏好,从海量的候选商品中筛选出最有可能被用户感兴趣的商品,从而提高用户的满意度和转化率。
2、然而,召回模型的效果往往受限于训练样本的质量和数量,因此训练召回模型的训练样本至关重要。
3、现有技术,一般采用用户点击过的商品作为正样本,曝光但用户未点击的商品作为负样本;但是如果选择曝光未点击的样本作为负样本,那么召回模型就会陷入“一叶障目,不见泰山”的困境,也就是说召回模型只会鉴别那些高曝光的样本,对于那些没出现,或少出现的样本,它根本区分不出来这是正样本还是负样本。
4、当前广泛流行的做法是从全部商品中随机选择部分商品,构成负样本。但对于电商而言,通常全部商品的数量都比较庞大,要在这样一个大的商品规模上每次对一个用户都要随机采样出若干商品构造负样本面临着严峻的性能和效率问题,且由于全部商品数量比较大,随机数的范围有限,很难保证每个商品被随机选择到。
5、因此,如何从一个大的商品规模上,高效地构造出满足要求的训练样本,有待解决。
技术实现思路
1、本技术提供一种训练样本的确定方法、装置、计算设备及存储介质,能够从一个大的商品规模上,高效地构造出满足要求的训练样本。
2、第一方面,本技术实施例提供一种训练样本的确定方法,该方法可以由训练样本的确定装置执行,该训练样本的确定装置可以是一个终端设备或用于终端设备的模块,或者是一个服务器或用于服务器的模块。本技术对该方法的执行主体不做限定。该方法包括:针对任一正样本,根据所述正样本中推荐对象标识和用户标识,确定所述正样本对应的映射码;其中,所述正样本表征用户对推荐对象执行了预设行为;各正样本依据各自的映射码划分至不同子集合;针对任一推荐对象,根据所述推荐对象的推荐对象标识,确定所述推荐对象对应的映射码;其中,各推荐对象依据各自对应的映射码划分至不同子集合;针对任一映射码对应的子集合,基于所述子集合中的第一正样本中的第一用户标识,为所述子集合中的第二推荐对象构建具有所述第一用户标识的负样本从而得到训练样本;所述第一正样本为所述子集合中的任一正样本,所述第二推荐对象为所述子集合中的任一推荐对象;所述第一正样本中的第一推荐对象与所述第二推荐对象不同。
3、上述方案,将正样本根据映射码划分为不同的子集合,再将全部推荐对象根据映射码划分为不同的子集合;对具有相同的映射码的子集合,根据该子集合中正样本的信息确定负样本,从而构成训练样本。一方面,由于随机数据的范围有限,比如一般处理器最大随机数为216,而全部推荐对象数据量庞大,往往超过这个数值,因此,很多样本很难被随机采样到;将全部推荐对象划分为不同的子集合,每个子集合中样本的数量相对较少,能够保证每个样本被随机采样到;且每个子集合彼此独立,可以单独存储,能够减少存储压力;并且不同的子集合可以并行处理,提高了构成训练样本的效率;另一方面,传统方法针对每个用户均需从全部推荐对象中随机选择样本构成负样本,本技术正样本构成的子集合中包含了用户信息,再根据正样本构成的子集合确定负样本时,只需要将正样本中的第一用户标识添加到第二推荐对象中构成负样本,无需针对每个用户做一次随机采样,就可以构成所有用户对应的负样本,提高了构造负样本的效率。
4、一种可能的实现方法中,随机从所述子集合中确定预设数量的第二推荐对象;针对任一第二推荐对象,构建具有所述第二推荐对象的推荐对象标识和所述第一用户标识的负样本。
5、上述方案,一方面,可以确定不同数量的负样本,满足不同的需求;另一方面,将正样本中的第一用户标识添加到第二推荐对象中构成负样本,无需针对每个用户做一次随机采样,就可以构成所有用户对应的负样本,提高了构造负样本的效率。
6、一种可能的实现方法中,将所述正样本中推荐对象标识和用户标识拼接为第一字符串;对所述第一字符串进行第一哈希运算,确定所述正样本对应的第一哈希值;根据设定模值对所述第一哈希值取模,确定所述正样本对应的映射码。
7、上述方案,能够准确确定正样本对应的映射码。
8、一种可能的实现方法中,对所述推荐对象的推荐对象标识对应的第二字符串,进行多个不同的第二哈希运算,得到多个第二哈希值;根据设定模值对所述多个第二哈希值分别取模,确定所述推荐对象对应的多个映射码。
9、上述方案,一方面,能够准确确定推荐对象对应的映射码;另一方面,每个推荐对象都确定多个映射码,能够保证每个推荐对象可以被分配到多个子集合中,提高了数据的均匀性。
10、一种可能的实现方法中,所述方法是基于map reduce架构实现的。
11、上述方案,map reduce架构用于大规模数据集的并行运算,不仅能够有效处理数据量庞大的全部推荐对象;而且多个任务能够并行处理,提高了构造训练样本的效率;且reduce任务能够自动将映射码相同的子集合进行聚合,大大提高了构造训练样本的效率。
12、第二方面,本技术实施例提供一种训练样本的确定装置,包括:子集确定单元和样本确定单元。子集确定单元,用于针对任一正样本,根据所述正样本中推荐对象标识和用户标识,确定所述正样本对应的映射码;其中,所述正样本表征用户对推荐对象执行了预设行为;各正样本依据各自的映射码划分至不同子集合;针对任一推荐对象,根据所述推荐对象的推荐对象标识,确定所述推荐对象对应的映射码;其中,各推荐对象依据各自对应的映射码划分至不同子集合;样本确定单元,用于针对任一映射码对应的子集合,基于所述子集合中的第一正样本中的第一用户标识,为所述子集合中的第二推荐对象构建具有所述第一用户标识的负样本从而得到训练样本;所述第一正样本为所述子集合中的任一正样本,所述第二推荐对象为所述子集合中的任一推荐对象;所述第一正样本中的第一推荐对象与所述第二推荐对象不同。
13、一种可能的实现方法中,样本确定单元,用于随机从所述子集合中确定预设数量的第二推荐对象;针对任一第二推荐对象,构建具有所述第二推荐对象的推荐对象标识和所述第一用户标识的负样本。
14、一种可能的实现方法中,子集确定单元,用于将所述正样本中推荐对象标识和用户标识拼接为第一字符串;对所述第一字符串进行第一哈希运算,确定所述正样本对应的第一哈希值;根据设定模值对所述第一哈希值取模,确定所述正样本对应的映射码。
15、一种可能的实现方法中,子集确定单元,用于对所述推荐对象的推荐对象标识对应的第二字符串,进行多个不同的第二哈希运算,得到多个第二哈希值;根据设定模值对所述多个第二哈希值分别取模,确定所述推荐对象对应的多个映射码。
16、一种可能的实现方法中,所述方法是基于map reduce架构实现的。
17、第三方面,本技术实施例还提供一种计算设备,包括:
18、存储器,用于存储程序指令;
19、处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行实现上述第一方面的任意方法。
20、第四方面,本技术实施例还提供一种计算机可读存储介质,其中存储有计算机可读指令,当计算机读取并执行所述计算机可读指令时,实现上述第一方面的任意方法。
21、第五方面,本技术实施例提供了一种计算机程序产品,包括有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行实现上述第一方面的任意方法。
本文地址:https://www.jishuxx.com/zhuanli/20240830/283275.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表