技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于深度强化学习的广告营销推荐方法与流程 > 正文

一种基于深度强化学习的广告营销推荐方法与流程

国知局
2024-07-31 23:02:56

本发明属于计算机数据处理，尤其涉及一种基于深度强化学习的广告营销推荐方法。

背景技术：

1、随着互联网的快速发展和移动设备的普及，在线广告已经成为商家推广产品和服务的重要渠道。然而，面对海量用户行为数据和广告内容，如何实现精准的广告推荐，提升广告点击率和转化率，成为广告营销领域的重要研究课题。传统的广告推荐系统在应对复杂多变的用户需求和广告内容时，往往存在诸多不足。因此，研发一种更加智能、高效的广告推荐方法，具有重要的实际意义和商业价值。

2、现存的广告营销推荐方法技术主要涵盖以下三种：基于规则的推荐技术、协同过滤推荐技术以及内容推荐技术。

3、基于规则的推荐技术：基于规则的推荐技术使用预定义的规则（如基于用户的地理位置、浏览历史）进行广告推荐。但规则的制定需要大量的人工干预，缺乏灵活性，无法适应快速变化的用户需求和广告内容，推荐效果不佳。

4、协同过滤推荐技术：协同过滤技术根据用户的历史行为数据和相似用户的行为进行推荐，分为基于用户的协同过滤和基于项目的协同过滤。但协同过滤依赖于用户的历史行为数据，对于新用户（冷启动问题）和新广告的推荐效果较差。此外，当用户和广告数据规模庞大时，计算复杂度高，实时性差。

5、内容推荐技术：内容推荐技术根据广告内容的特征进行推荐，匹配与用户兴趣相符的广告内容。由于其过于依赖广告内容的特征，无法充分利用用户的行为数据，推荐的个性化程度较低，难以精确捕捉用户的实际兴趣和需求。

6、因此，以上现存的广告营销推荐方法均存在局限性，传统方法依赖于规则制定、历史行为数据和广告内容特征。

技术实现思路

1、针对上述问题，本发明提出了一种基于深度强化学习的广告营销推荐方法，包括以下过程：

2、s1，构建原始数据集，原始数据集包括用户行为数据、用户属性数据和广告内容数据；

3、s2，对原始数据集进行特征提取，通过自监督学习从无标签数据中挖掘潜在规律，并对用户特征进行多尺度特征融合，从而生成丰富的用户和广告特征表示，获取标准特征数据集；

4、s3，构建基于transformer的广告营销推荐模型，利用自注意力机制捕捉用户与广告之间的复杂关系，进行更深层次的特征交互，用于得到广告营销推荐的预测结果；

5、s4，基于s2的标准特征数据集，结合深度强化学习进行模型训练和优化，获得训练后的广告营销推荐模型；

6、s5，部署训练后的广告营销推荐模型到实际广告推荐系统中进行在线学习，并实时获取处理后的特征数据，输出个性化的广告营销推荐结果。

7、优选的，所述s1中用户行为数据的采集，包括用户点击流数据、浏览行为数据和购买行为数据，记为，且为时序数据；

8、所述点击流数据是捕获用户对页面中各元素的点击行为，记录点击事件的时间戳、用户id和点击元素id信息，点击流数据记为；

9、所述浏览行为数据通过前端可视区域捕捉技术记录用户浏览行为，包括浏览事件时间戳、用户id、浏览页面url和停留时长信息；浏览行为数据记为；

10、所述购买行为数据则在电商应用中采集下单、支付、退款关键节点，记录事件时间、用户id、订单id和商品id信息；购买行为数据记为；

11、用户行为数据包含用户点击流数据、浏览行为数据和购买行为数据，记为，且为时序数据；

12、所述s1中用户属性数据的采集是从用户注册资料中获取基本信息，包括姓名、邮箱、年龄、性别、地址；最终得到用户属性数据，且为静态数据；

13、所述s1中广告内容数据的采集包括广告投放记录数据和广告创意内容数据，记为；

14、所述广告投放记录包括服务端记录的广告id、投放位置id标识数据和广告被点击数据，广告投放记录数据记为；

15、所述广告创意内容的采集则涉及抓取广告的标题、描述文案、展示图片和视频创意素材，广告创意内容数据记为。

16、优选的，所述s2的具体过程包括：

17、用户行为特征提取：通过构建自编码器进行特征提取；自编码器通过最小化输入数据与重建数据之间的差异，学习到捕捉数据本质分布和结构的稠密特征表示，使其被迫学习到能够高效压缩并重建用户行为序列的特征表示，作为用户行为特征；

18、用户属性特征提取：将原本离散的用户属性数据转化为连续的向量表示，增强数据的表示能力，使其更适合后续的深度学习处理，将用户属性数据经过embedding层转化为向量形式；

19、广告特征提取：获取广告投放特征和创意内容特征，并进行拼接，得到广告的综合特征；

20、基于自监督学习的多尺度用户特征融合：通过自监督预训练、时序行为特征融合、行为与属性特征融合，从海量无监督行为数据中挖掘出用户的多尺度行为模式，并与结构化的属性信息进行融合，生成了高质量、丰富的用户表示。

21、优选的，对于离散的用户行为时序数据，首先使用嵌入embedding层将其转化为连续的向量表示，目的是让神经网络能够更好地学习到行为数据之间的潜在语义和模式；

22、然后，将embedding后的行为序列输入到自编码器网络中的编码器，编码器使用1d卷积神经网络cnn_encoder，通过滑动窗口机制在时间序列上移动，捕捉局部特征和上下文信息，生成更具代表性的潜在表示；

23、接着，将输入到解码器cnn_decoder中，解码器会尝试重建原始的行为序列，所述解码器使用反卷积神经网络；

24、根据所建立的自编码器的编-解码器的特征提取网络，进行训练，通过最小化重建损失：

25、

26、自编码器被迫学习到能够高效压缩并重建用户行为序列的特征表示。

27、优选的，所述用户属性特征提取，为进一步提升属性特征的表达能力，使用多层感知机 mlp对这些嵌入后的向量进行非线性变换；多层感知机mlp由n个全连接层组成，每层均包含非线性激活函数；捕捉到属性特征之间的复杂非线性关系，从而获得更具表现力的用户属性特征：

28、

29、其中，通过多层非线性变换，使得用户属性特征拥有更高的非线性表达能力。

30、优选的，所述广告特征提取，其中广告投放特征，统计由广告id得来的广告类别、广告位置id以及被点击数据，并经过归一化将其处理，将这些投放相关的统计量拼接为一个投放特征向量；

31、其中创意内容特征，标题、描述文案使用textcnn提取特征向量，图像借助cnn获取视觉特征向量，视频使用3d-cnn提取运动特征向量；并将文本、图像和视频特征向量拼接作为创意内容特征。

32、优选的，所述基于自监督学习的多尺度用户特征融合，是挖掘用户行为数据中蕴含的复杂行为模式和兴趣偏好，并将其与用户属性特征有机融合，生成多尺度、丰富的用户表示；

33、其中自监督预训练，是从无标签的用户行为序列数据中学习获取有用的行为模式表示，将用户的时序行为特征数据视为无监督数据；设计一种自监督任务，给定用户完整的行为序列，随机掩蔽掉其中的部分行为，让模型学习预测被掩码的部分行为，该任务的目标函数是最小化被掩码行为的预测概率的负对数：

34、

35、其中，为第个时间步的行为，是模型基于其他时间步行为预测的概率；

36、其中时序行为特征融合，是基于第一步的自监督预训练模型，对原始的用户行为序列进行特征编码，获得不同层次的行为特征表示，然后使用分层注意力机制对这些多尺度的表示进行融合，使用分层注意力机制对这些表示进行融合：

37、

38、其中，为融合后的特征表示，为第个时间步，第个隐藏层的的状态向量，为层注意力权重，其控制着不同层特征在融合中的重要程度；

39、其中行为与属性特征融合，是在获得用户的时序行为表示后，将其与用户的静态属性特征进行融合，生成更加全面的用户表示；融合时采用属性门控机制，即根据当前行为和属性的重要程度，自适应地为两者分配不同的融合权重；属性门控向量通过当前行为和属性的加权求和得到，然后与和分别进行逐元素乘积并相加，最终得到的融合了用户的动态行为模式和静态属性信息：

40、

41、

42、其中，即为融合时序行为和用户属性后的最终多尺度用户表示；为门口运算机制；是一个软门控向量，根据当前的时序行为和属性特征，自适应地确定两者在融合中的权重；为用户的时序行为表示相应的权重，为属性特征对应的权重，为偏置项。

43、优选的，所述构建基于transformer的广告营销推荐模型，具体为：

44、将经过多尺度特征融合后的用户综合特征和广告的综合特征作为输入，为建立特征间的交互，采用基于transformer的自注意力机制；

45、将广告的综合特征视为查询query；同时，将用户综合特征视为键key和值value：

46、

47、其中，为自注意力机制函数，为激活函数，为广告的综合特征，为用户的综合特征，为键向量的维度；通过计算广告查询q和用户键k的相关性分数，模型动态调节对不同用户特征的关注程度，自动学习两者之间的内在映射关系；

48、通过多头注意力multi-head attention从不同子空间提取交互信息：

49、

50、

51、其中，为多头注意力机制的输出，每个头都会生成一个输出向量，然后将这些输出向量连接起来，为连接操作，在连接之后，将得到的向量乘以一个权重矩阵进行线性变换，将其映射到期望的输出维度上；分别为第个注意力头的线性投影，将查询、键和值映射到对应子空间；

52、然后将多头注意力机制的输出的融合特征，和原始用户原有的特征进行残差连接，使得模型在捕捉交互关系的同时，也保留了用户原有的核心特征，然后经过层归一化；

53、通过堆叠l层多头注意力机制，逐步融合更多的上下文信息，捕捉到更加复杂和抽象的关系，得到最终的交互表示；

54、将最终的交互表示输入到全连接层，得到广告推荐的预测概率值：

55、

56、其中，和为可训练权重和偏置项；为时刻的一个k维向量，每一维对应一种广告类型的可能推荐结果，0表示完全不推荐，1表示完全推荐。

57、优选的，所述s4中结合深度强化学习进行模型训练和优化，具体为：

58、建立一个状态空间和动作空间，并确定环境的状态转移过程，用表示时间步时的状态，表示时间步时的动作，表示在状态执行动作后获得的即时奖励，状态空间由当前的用户特征和广告特征进行交互而得到的交互特征来表示，在上文中得到其最终的交互表示，即；

59、动作空间表示在给定状态下可采取的一系列行动选择，动作为所有广告推荐选项的概率，0表示完全不推荐，1表示完全推荐，即；

60、设计奖励函数以引导强化学习广告推荐的行为，优化目标为达到最优的广告营销推荐概率，因此奖励函数为：

61、

62、其中，为权衡广告推荐概率和最优的广告推荐概率的参数；

63、构建一个q值函数来学习动作值函数，以此来指导动作的选择；q值函数表示在状态下执行动作的预期累积奖励，即q值函数根据累积奖励函数而更新。

64、优选的，基于q值函数对基于transformer的深度学习模型进行训练，定义损失函数；通过每个经验元组的样本的期望来计算，为下一个状态；损失函数为：

65、

66、其中，表示期望操作符，为折扣因子，为目标网络的参数，用于计算目标q值，即未来预期的累积奖励，为主网络的参数，用于评估在给定状态下采取不同动作的q值，为在状态下采取的动作。

67、与现有技术相比，本发明具有如下有益效果：

68、（1）全渠道高质量数据采集：通过移动端应用、网站插件和电商应用等多种渠道，全面采集了用户点击流、浏览行为、购买行为等行为数据，以及基本信息、地址等用户属性数据，还包括广告投放记录和创意内容数据。这些多维度、多模态的原始数据经过标准化整理后，数据格式统一、结构完整，为下游的特征提取和模型训练奠定了坚实的数据基础。

69、（2）自监督学习挖掘数据潜在规律：引入自编码器框架，将无标签的用户行为序列数据作为输入进行用户行为特征提取。基于自监督学习，在最小化重建损失的目标下，自动学习到能高效压缩并重建原始序列的有效表示。这种自监督学习方式不需要人工标注数据，能从海量无监督数据中自动挖掘出贴近实际分布的潜在行为模式，避免了人为设计特征可能带来的偏差，从根本上解决了传统监督学习对大量标注数据的依赖。

70、（3）多尺度特征融合：首先使用自监督预训练获得用户的多尺度时序行为表示，再通过分层注意力机制融合不同层次特征；然后采用属性门控机制将用户行为表示与静态属性信息融合，自适应确定两者在融合中的权重。这种多层次、多模态的特征融合充分挖掘和融会了用户的动态行为模式和静态属性信息，生成了高质量、丰富的用户综合表示，有助于精准刻画复杂多变的用户兴趣偏好。

71、（4）基于自注意力机制捕捉特征交互：基于transformer的多头自注意力机制，将融合后的用户综合表示和广告特征分别视为注意力机制中的键值对和查询对，通过计算两个序列表示的点积关注，捕捉用户与广告之间的关键语义联系，进行更深层次的特征交互。与传统rnn等模型相比，自注意力机制更好地挖掘了序列间长距离依赖，有针对性地学习了两个模态之间的交互，为实现精准个性化推荐奠定基础。

72、（5）深度强化学习优化推荐策略：将深度强化学习应用于模型的训练和推理过程中，通过状态空间和动作空间的交互，自动搜索最优的推荐策略。以最大化期望累积回报为目标，不断优化和更新模型参数。与人为设置规则或启发式不同，强化学习可以自主探索策略空间。同时，它还具备在线学习能力，可持续吸收实时用户反馈进行迁移学习和参数更新，使模型实时跟踪用户兴趣偏移和商业热点动态，保证推荐效果长期最优。