技术新讯 > 电子通信装置的制造及其应用技术 > 一种视频大数据推荐训练方法、系统、设备及存储介质与流程 > 正文

一种视频大数据推荐训练方法、系统、设备及存储介质与流程

国知局
2024-10-15 10:18:26

本发明涉及视频大数据推荐，具体为一种视频大数据推荐训练方法、系统、设备及存储介质。

背景技术：

1、视频推荐是利用人工智能、大数据和机器学习技术，对海量视频内容进行分析和理解，实现个性化推荐的，它在智能设备普及和视频作为主流交流方式的背景下变得尤为重要，通过基于内容、协同过滤和深度学习的算法进行精准推送，整体而言，视频推荐系统正成为连接用户与内容的重要桥梁，不断推动信息消费模式的创新和发展。

2、视频大数据推荐即将视频进行分类，打上不同的标签，推荐给喜好此标签的用户，在相同标签下的视频内容存在质量的不同，导致用户的喜好程度也不同，因此需要对视频本身与用户交互数据进行分析，来评判视频的好坏，现有的技术中，通过获取评论、观看集、点赞、收藏以及转发数据直接来评判视频是否进行推荐，会存在恶意刷数据，导致通过评论、观看集、点赞、收藏以及转发数据推荐的不准确，例如在申请公布号为cn116992159a的专利申请中，公开了一种内容推荐方法与系统，该方法在对用户与视频的交互信息进行采集和计算的过程中，就只对用户的点赞量和评论量进行直接计算，缺少对用户与视频的交互信息的有效性筛选，并且该推荐方法仅用于给分析的用户进行推荐信息，不能够对视频本身的热度进行分析；在基于对视频或新闻信息进行热度评价和推荐的过程中，现有的分析方法在使用交互信息时，也仅仅是对交互的数量进行直接叠加汇总，例如在申请公开号为cn115964574a的专利申请中，公开了一种基于数据挖掘的智慧交通安全舆情热度评估方法，该方法根据不同用户等级为单篇转发量、单篇评论量、单篇点赞量及情感评分四个指标设置权重，对于交互数据的有效性没有进行筛选，权重的设置过程也较为主观，权重的设置没有基于网络信息本身的浏览数据进行分析，缺少对交互信息有效性的评估，导致视频本身热度分析不够准确，最终影响推荐的视频质量。

技术实现思路

1、本发明旨在至少在一定程度上解决现有技术中的技术问题之一，通过获取视频与用户的交互数据集，分别对交互数据中的每个数据进行真实热度训练，得到相应的真实率并进行求和，获得总体真实热度；根据总体真实热度的数值按照从大到小对视频进行推荐，用于解决现有技术中通过获取评论、观看集、点赞、收藏以及转发数据直接来评判视频是否进行推荐，会存在恶意刷数据，导致分析的数据有效性不足，视频推荐不准确的问题。

2、为实现上述目的，第一方面，本发明提供一种视频大数据推荐训练方法，包括如下步骤：

3、获取视频与用户的交互数据集，交互数据集包括：评论数据集、观看数据集、点赞数据集、收藏数据集以及转发数据集；

4、分别对评论数据集、观看数据集、点赞数据集、收藏数据集以及转发数据集进行真实热度训练，得到相应的真实评论率、真实观看率、真实点赞率、真实收藏率以及真实转发率；

5、将真实评论率、真实观看率、真实点赞率、真实收藏率以及真实转发率进行求和，获得总体真实热度；根据总体真实热度的数值按照从大到小对视频进行推荐。

6、进一步地，对评论数据集进行真实热度训练，得到真实评论率的过程包括如下子步骤：

7、从评论数据集中获取所有评论；

8、将评论对照ascii编码表区获取纯符号的评论字符，然后获取纯符号的评论字符长度，若评论字符长度小于等于两个字符，将评论删除；

9、将对视频进行直接评论的评论设定为第一级评论，对第一级评论进行直接评论的评论设定为第二级评论，以此类推，对第i-1级评论进行直接评论的评论设定为第i级评论，分别统计第一级到第i级的评论总量，分别用n1，n2，...，ni表示；

10、对评论进行加权计算求和，具体公式为：

11、m＝n1+a2*n2+a3*n3+...+ai*ni；

12、其中m为真实热度评论总数，a2到ai分别为第二级权重到第i级权重；

13、获取观看视频的用户总数y；

14、计算出真实评论率为：m/y。

15、进一步地，对评论数据集进行真实热度训练，得到真实评论率的过程还包括如下子步骤：

16、获取视频的标签，选取第一历史数量的同类标签的视频进行权重模拟训练，权重模拟训练用于通过模拟得到a2到ai，权重模拟训练包括：

17、统计第一历史数量的同类标签的视频的评论总数k，以及评论用户总数l；

18、获取评论用户平均评论数为：k/l；

19、统计第一历史数量的同类标签的视频的第二级评论总数q2，统计第二级评论的用户中与第一级评论的用户不同的数量，设定为第二新增用户数w2；

20、计算第二级用户评论比例w2/q2；

21、通过公式计算第二级权重为a2＝(k/l)*(w2/q2)；

22、同理，统计第一历史数量的同类标签的视频的第i级评论总数qi，统计第i级评论的用户中与第一级评论至第i-1级评论的用户不同的数量，设定为第i新增用户数wi；

23、计算第i级用户评论比例wi/qi；

24、通过公式计算第i级权重为ai＝(k/l)*(wi/qi)；

25、则m中的各项权重数据为：a2＝(k/l)*(w2/q2)，a3＝(k/l)*(w3/q3)，...，ai＝(k/l)*(wi/qi)；

26、每新增第一历史数量的同类标签的视频，将新增的第一历史数量的同类标签的视频重新通过权重模拟训练更新一次a2至ai。

27、进一步地，对评论数据集进行真实热度训练，得到真实评论率的过程包括如下子步骤：

28、从观看数据集中获取视频的总时长tz、每个用户的观看总时长tgz、用户快进的倍速vb以及相应倍速下的观看时长tb；

29、计算每个用户的真实观看时长为：(tgz-tb)+vb*tb；

30、将所有用户的真实观看时长求取平均值，标记为平均用户观看时长tpg；

31、计算出真实观看率为：tpg/tz。

32、进一步地，对点赞数据集进行真实热度训练，得到真实点赞率的过程包括如下子步骤：

33、从点赞数据集中获取对视频点赞数dz；获取点赞的用户的真实观看时长，设定为点赞用户的真实观看时长tdz；

34、将tz乘以第一比例得到有效观看时长；

35、当tdz小于有效观看时长，删除该点赞用户的点赞数，得到筛选点赞数dsz；

36、计算出真实点赞率为：dsz/y。

37、进一步地，对收藏数据集进行真实热度训练，得到真实收藏率的过程包括如下子步骤：

38、从收藏数据集中获取对视频收藏数sz；获取的收藏的用户的真实观看时长，设定为收藏用户的真实观看时长tsc；

39、当tsc小于有效观看时长，删除该收藏用户的收藏数，得到筛选收藏数ssz；

40、计算出真实收藏率：ssz/y。进一步地，

41、进一步地，对转发数据集进行真实热度训练，得到真实转发率的过程包括如下子步骤：

42、从转发数据集中获取对视频转发数zz；获取的转发的用户的真实观看时长，设定为转发用户的真实观看时长tzf；

43、当tzf小于有效观看时长，删除该转发用户的所有转发数，得到筛选转发数zsz；

44、计算出真实转发率：zsz/y；

45、第二方面，本发明提供一种视频大数据推荐训练系统，包括：数据获取模块、真实热度训练模块以及视频推荐模块；

46、所述数据获取模块用于获取视频与用户的交互数据集，交互数据集包括：评论数据集、观看数据集、点赞数据集、收藏数据集以及转发数据集；

47、所述真实热度训练模块用于分别对评论数据集、观看数据集、点赞数据集、收藏数据集以及转发数据集进行真实热度训练，得到相应的真实评论率、真实观看率、真实点赞率、真实收藏率以及真实转发率；

48、所述视频推荐模块将真实评论率、真实观看率、真实点赞率、真实收藏率以及真实转发率进行求和，获得总体真实热度；根据总体真实热度的数值按照从大到小对视频进行推荐。

49、第三方面，本发明提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述方法中的步骤。

50、第四方面，本发明提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，运行如上述方法中的步骤。

51、本发明的有益效果：本发明通过获取视频与用户的交互数据集，分别对交互数据中的评论数据集、观看数据集、点赞数据集、收藏数据集以及转发数据集进行真实热度训练，得到相应的真实率并进行求和，获得总体真实热度；根据总体真实热度的数值按照从大到小对视频进行推荐，单一真实热度高并不能代表视频的好，该设计能够分别对交互数据进行训练然后结合相应的真实率，对视频热度推荐有个整体的热度判断，训练中剔除数据中无效数据以及刷热度的数据，根据有效数据进行视频推荐。

52、本发明通过获取视频的标签，选取第一历史数量的同类标签的视频进行权重模拟训练，权重模拟训练用于通过模拟得到a2到ai，该设计能够通过历史数据进行权重模拟训练使数据权重更加准确且具有普遍性。

53、本发明通过从观看数据集中获取视频的总时长tz、每个用户的观看总时长tgz、用户快进的倍速vb以及相应倍速下的观看时长tb，计算每个用户的真实观看时长为：(tgz-tb)+vb*tb，该设计能够防止用户使用在倍速观看下，却使用单一的用户观看时长来判断视频是否达到有效观看时长，导致真实观看时长的统计有效性不足的问题。