一种基于改进SwinTransformer的杂志、书刊广告嵌入方法与流程

2022-11-13 14:53:31 来源：中国专利 TAG：

技术特征：
1.一种基于改进swin transformer的文本广告嵌入方法，其特征在于：包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层；所述图像数据编码层包括多头自注意力层和前馈网络层；所述待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页，在初始排版时文件格式为doc文件，进行后续的处理需将其格式转换为jpg格式或png格式，对待融合杂志文本页的尺寸reshape操作，得到尺寸为h
×
w
×
c，记为text_page；所述待融合杂志广告页为杂志内的广告页面，在进行后续的处理时需将其转换为jpg格式或png格式，所述待融合杂志广告页的尺寸reshape操作，得到尺寸为h
×
w
×
c，记为ad_page。2.根据权利要求1所述的一种基于改进swin transformer的文本广告嵌入方法，其特征在于：所述数据预处理层对text_page和ad_page数据预处理操作，包括以下步骤：(1)分块操作，text_page和ad_page的尺寸均为h
×
w
×
c，分块后均得到个数为n的小正方形区域，其中，小正方形区域的尺寸为：p
×
p
×
c小正方形区域的个数n为：(2)展平操作，对每个小正方形区域进行展平，得到1
×
(p
×
p
×
c)维的向量x；(3)合并操作，将n个小正方形展平后的向量进行合并得到矩阵x，其维度为n
×
(p
×
p
×
c)，形式为：x＝[x1,x2,
…
,x
n
]
t
将text_page经过数据预处理层得到的结果记为x
text
，将ad_page经过数据预处理层得到的结果记为x
ad
。3.根据权利要求2所述的一种基于改进swin transformer的文本广告嵌入方法，其特征在于：所述自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征，可解决信息量过大带来的算力不足的问题，包括如下计算步骤：s1、生成每个分量的取值范围在-1到1之间的特征矩阵l、m和n，将特征矩阵l、m和n设置为不可修改，其中特征矩阵l、m和n的形式均为：l＝[l1,l2,
…
,l
n
]
t
m＝[m1,m2,
…
,m
n
]
t
n＝[n1,n2,
…
,n
n
]
t
其中，特征矩阵l、m和n的每个分量的维度均为(p
×
p
×
c)
×
1；s2、通过特征矩阵l、m和n生成查寻矩阵in、键矩阵k和值矩阵v，具体计算方式为：in＝x
×
l
t
k＝x
×
m
t
v＝x
×
n
t
其中：in＝[in1,in2,
…
,in
n
]
t
k＝[k1,k2,
…
,k
n
]
t
v＝[v1,v2,
…
,v
n
]
t
s3、计算注意力分布，具体计算公式为：根据注意力分布对输入信息进行加权平均：上式中，att
i
为的维度为n
×
1。4.根据权利要求3所述的一种基于改进swin transformer的文本广告嵌入方法，其特征在于：所述前馈网络层，包括bp神经网络，所述bp神经网络的个数为n个，所述bp神经网络包括前馈输入层和中间隐层和前馈输出层构成，其中前馈输入层含有n个神经元，中间隐层均含有p
×
c个神经元，前馈输出层含有p个神经元；前馈输入层的输入分别为att1、att2、...、att
n-1
和att
n
，分别将att1、att2、...、att
n-1
和att
n
输入到各自的bp神经网络中计算得到的前馈输出记为f1、f2、...、f
n-1
和f
n
，具体计算步骤为：f
i
＝max(w1att
i
b1)w2 b
2 i∈(1,2,
…
,n)上式中，b1表示中间隐层的偏置，b2表示前馈输出层的偏置，w1为中间隐层的内星权向量，w2为前馈输出层的内星权向量，其中的b1、b2、w1和w2设为不可训练，f
i
为每个bp神经网络的输出，其维度均为p
×
1。5.根据权利要求4所述的一种基于改进swin transformer的文本广告嵌入方法，其特征在于：所述注意力损失计算层用于计算text_page的前馈输出与ad_page的前馈输出之间的差异，具体计算公式如下：上式中，f
text
表示text_page的前馈输出，f
ad
表示ad_page的前馈输出。6.根据权利要求5所述的一种基于改进swin transformer的文本广告嵌入方法，其特征在于：所述迭代更新层利用梯度下降算法对text_page进行迭代更新得到图像pic，由于图像数据编码层中的参数l、m、n、b1、b2、w1和w2均为固定值，只需对text_page进行更新即可，具体计算公式为：上式中，x
text
表示text_page经过数据预处理层处理后得到的结果，λ为学习率，最后更新结果即为图像pic，其形式为：上式中，pic的维度与x
text
的维度相同。7.根据权利要求6所述的一种基于改进swin transformer的文本广告嵌入方法，其特征在于：所述融合输出层的数据由两部分构成，包括图像pic和将text_page经过数据预处理层得到的x
text
，所述融合输出层的计算步骤如下：
c＝μ*pic ξ*x
text
上式中，μ和ξ为加权系数，c表示最终嵌入了广告的杂志文本所对应的矩阵形式，将其转录为图像即为最终结果。

技术总结
本发明公开了一种基于改进SwinTransformer的文本广告嵌入方法，包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层；所述图像数据编码层包括多头自注意力层和前馈网络层；本发明属于图像处理技术领域，具体是指一种基于改进SwinTransformer的文本广告嵌入方法；可以有效解决将杂志广告与杂志文本进行融合，有效提升纸张的利用率；本发明提供一种自动化的杂志广告嵌入处理方式，节省了人工劳动力；本发明使用改进的SwinTransformer，可方便实现并行计算和分布式计算，加快了数据处理速度；本发明可方便的使用Pytorch或Tensorflow进行搭建；不存在训练阶段，可直接进行迭代更新的有点。点。点。

技术研发人员：李宁李佳钥李风山
受保护的技术使用者：晋城市大锐金马工程设计咨询有限公司
技术研发日：2022.08.24
技术公布日：2022/11/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于YOLOv6的移动端实时人体检测方法及系统与流程

一种基于改进SwinTransformer的杂志、书刊广告嵌入方法与流程

相关文献

最热文献