技术新讯 > 计算推算,计数设备的制造及其应用技术 > 潜力热门内容冷启动的方法、装置、电子设备及存储介质与流程  >  正文

潜力热门内容冷启动的方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-08-08 16:57:01

本公开实施例涉及计算机,尤其涉及一种潜力热门内容冷启动的方法、装置、电子设备及计算机可读存储介质。

背景技术:

1、在社区场景下的推荐系统中,比如微博、小红书、微店发现页,新内容生产有一个冷启动的阶段。由于内容是新的,缺少与用户行为交互的数据。一方面协同过滤的算法难以召回;另一方面假设召回后,在排序阶段由于新内容缺少交互数据或者交互数据太少不置信,排序模型无法很好的对这个内容进行排序。

2、即整个推荐系统需要一定的反馈数据来熟悉这个内容,这需要花费一定的时间,通常来说前期冷启动阶段内容的曝光量较少。

3、对于平台中较为优质,或者潜在的热门内容。平台有动力在短期内让更多人看到,加速其冷启动的过程。从平台的角度来说,更快的获取优质内容相关互动数据,让新内容快速融入推荐系统中,能够有效提高平台的点击、停留时长等指标。从用户的角度来说,能快速看到新的优质内容,也能增强用户体验。

4、与此同时,由于平台的流量有限,平台希望能把冷启动阶段的曝光量尽可能集中于潜力热门内容上。因为其他质量一般甚至冷门的内容,得到太多的流量会导致相关点击和停留时长等数据下降,用户的体验也不好。

5、传统的推荐系统中对于新内容的冷启动,由于新内容缺少交互数据,排序模型无法很好的对内容排序,通常使用策略性/规则性的均匀保量推荐方式,如图1所示。比如规定每个新内容有固定n次曝光,根据用户标签和内容标签的匹配程度进行分发。

6、这种方案存在如下缺点:

7、1.对于每个内容一视同仁,没有对潜在的热门内容进行预估,并且加速其分发。

8、2.使用策略分发的方式,没有使用排序模型,通常分发的准确率或者效率较差。

9、因此需要一种方案,在早期预估出潜在的热门内容,并在冷启动阶段加速其曝光,减少整个冷启动的时间。

技术实现思路

1、本公开实施例的目的在于提供一种潜力热门内容冷启动的方法、装置、电子设备及计算机可读存储介质,从而解决现有技术中存在的前述问题。

2、为了实现上述目的,本公开实施例采用的技术方案如下:

3、本公开实施例一方面提出了一种潜力热门内容冷启动的方法,所述方法包括:

4、获取目标发布内容,其中,所述目标发布内容为距当前时间发布未超过预设时间的内容,即新内容;

5、判断所述目标发布内容是否为潜力热门内容,具体的,可采用如下两种方法,第一种方法为:

6、提取所述目标发布内容的内容属性特征和/或内容特征,并输入训练好的热门内容预测模型,得到目标发布内容为潜力热门内容的概率,其中,所述内容属性特征包括:内容所属的类别特征,所述内容特征包括:内容图片和/或文本特征;

7、判断所述概率是否大于预设概率阈值,若是,则所述目标发布内容为潜力热门内容;

8、或者,

9、第二种方法为,

10、获取历史发布内容数据,其中,所述历史发布内容为距当前时间发布超过预设时间的内容,即旧内容;

11、自所述历史发布内容中确定至少一个热门内容,并计算各所述热门内容分别与所述目标发布内容的相似度,将相似度由高至低排序,得到相似度排在前的预设数量所述热门内容作为与所述目标发布内容最相似的内容;

12、计算所述目标发布内容与预设数量的所有所述热门内容相似度的平均值,判断所述平均值是否大于等于预设相似度阈值,若是,则所述目标发布内容为潜力热门内容;

13、所述目标发布内容为潜力热门内容时,根据其冷启动阶段的推荐策略,对所述潜力热门内容进行加速曝光。

14、可选的,当采用第一种方法确定所述目标发布内容为潜力热门内容时,所述热门内容预测模型训练过程包括:

15、获取历史发布内容数据,其中,所述历史发布内容为距当前时间发布超过预设时间的内容,即旧内容;

16、统计各所述旧内容距离其相应发布日预设时间内的曝光量和其他行为数据,将曝光量大于预设曝光阈值和其他行为数据大于预设行为数据阈值的内容标定为热门内容样本,反之,则标定为非热门内容样本,其中,所述其他行为数据包括点击率、点赞率、评分率和转发率中任意一种;

17、分别提取各所述热门内容和各所述非热门内容的内容属性特征和/或内容特征;其中,所述内容属性特征包括:内容所属的类别,所述内容特征包括:内容图片和/或文本特征;

18、将各所述热门内容样本及其内容属性特征和/或内容特征,与各所述非热门内容样本及其内容属性特征和/或内容特征作为训练集,对待训练的热门内容预测模型进行训练,得到训练好的热门内容预测模型。

19、可选的,当采用第二种方法确定所述目标发布内容为潜力热门内容时,所述自所述历史发布内容中确定至少一个热门内容,包括:

20、统计各所述旧内容距离其相应发布日预设时间的内曝光量和其他行为数据,将曝光量大于预设曝光阈值和其他行为数据大于预设行为数据阈值的内容确定为热门内容,其中,所述其他行为数据包括点击率、点赞率、评分率和转发率中任意一种。

21、可选的,所述目标发布内容为潜力热门内容时,根据其冷启动阶段的推荐策略,对所述潜力热门内容进行加速曝光,包括:

22、所述潜力热门内容采用均匀保量推荐时,将均匀保量阈值扩大为非潜力热门内容均匀保量阈值的k倍。

23、可选的,所述目标发布内容为潜力热门内容时,根据其冷启动阶段的推荐策略,对所述潜力热门内容进行加速曝光,包括:

24、根据所述潜力热门内容冷启动时间内召回的所述潜力热门内容实际行为数据、与所述潜力热门内容相似的旧内容的平均行为数据,以及预设的冷启动时间各日期的各内容相应行为权重,构造冷启动时间内相应日期的所述潜力热门内容特征;

25、将相应日期的所有潜力热门内容特征、和召回的相应日期前一天的各旧内容特征输入排序模型进行排序,根据排序结果进行推荐,其中,旧内容特征为与所述潜力热门内容特征相同的特征类型。

26、可选的,当采用第一种方法确定所述目标发布内容为潜力热门内容时,获取历史发布内容数据,计算各历史发布内容与所述潜力热门内容的相似度,将相似度由高至低排序,得到相似度排在前的预设数量所述历史发布内容作为与所述潜力热门内容最相似的旧内容;

27、当采用第二种方法确定所述目标发布内容为潜力热门内容时,预设数量的各所述所述热门内容作为与所述潜力热门内容最相似的旧内容;

28、所述根据所述潜力热门内容冷启动时间内召回的所述潜力热门内容实际行为数据、与所述潜力热门内容相似的旧内容的平均行为数据,以及预设的冷启动时间各日期的各内容相应行为权重,构造冷启动时间内相应日期的所述潜力热门内容特征,包括:

29、获取与所述潜力热门内容的最相似的每个旧内容于其自身冷启动时间段内每天行为数据,得到所有旧内容于其自身冷启动时间段内的平均行为数据;

30、获取所述潜力热门内容于其冷启动时间段内每天召回的实际行为数据;

31、根据所有旧内容的平均行为数据、所述潜力热门内容冷启动时间段内相应日期前各天实际行为数据及所述潜力热门内容冷启动时间段不同内容行为数据每天对应的相应权重,得到所述潜力热门内容冷启动时间段内相应日期预测行为数据,即所述潜力热门内容特征。

32、可选的,所述得到所述潜力热门内容冷启动时间段内每天预测行为数据之后,所述方法还包括:

33、判断所述预测行为数据是否低于预设推荐阈值,若是,则所述目标发布内容不再作为潜力热门内容进行推荐。

34、本公开实施例另一方面提出了一种潜力热门内容冷启动的装置,所述装置包括:

35、第一获取模块,用于获取目标发布内容,其中,所述目标发布内容为距当前时间发布未超过预设时间的内容,即新内容;

36、判断所述目标发布内容是否为潜力热门内容,具体的,可采用如下两种方法,第一种方法为:

37、潜力热门内容概率计算模块,用于提取所述目标发布内容的内容属性特征和/或内容特征,并输入训练好的热门内容预测模型,得到目标发布内容为潜力热门内容的概率,其中,所述内容属性特征包括:内容所属的类别特征,所述内容特征包括:内容图片和/或文本特征;

38、第一判断模块,用于判断所述概率是否大于预设概率阈值,若是,则所述目标发布内容为潜力热门内容;

39、或者,

40、第二种方法为,

41、第二获取模块,用于获取历史发布内容数据,其中,所述历史发布内容为距当前时间发布超过预设时间的内容,即旧内容;

42、相似内容确定模块,用于自所述历史发布内容中确定至少一个热门内容,并计算各所述热门内容分别与所述目标发布内容的相似度,将相似度由高至低排序,得到相似度排在前的预设数量所述热门内容作为与所述目标发布内容最相似的内容;

43、第二判断模块,用于计算所述目标发布内容与预设数量的所有所述热门内容相似度的平均值,判断所述平均值是否大于等于预设相似度阈值,若是,则所述目标发布内容为潜力热门内容;

44、推荐模块,所述目标发布内容是否为潜力热门内容时,根据其冷启动阶段的推荐策略,对所述潜力热门内容进行加速曝光。

45、本公开实施例另一方面提出了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如上所述方法的操作指令。

46、本公开实施例另一方面提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1~7任一所述方法的步骤。

47、本公开实施例的有益效果是:

48、本公开实施例的在内容新发布后没有交互数据的情况下,通过热门内容预测模型或者新内容与旧内容中热门内容相似度计算的方式,在早期预估出潜在的热门内容。并在冷启动阶段推荐的时候加速潜在的热门内容的曝光,减少潜在热门内容冷启动的时间。相比传统方案的优点有:在没有交互数据的情况下,提前预估潜在热门内容,然后在推荐过程中有针对性的加速潜在热门内容的曝光量,提升用户体验。

本文地址:https://www.jishuxx.com/zhuanli/20240808/271399.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。