一种基于大模型的图像语义通信系统
- 国知局
- 2024-12-06 12:57:29
本发明属于语义通信领域,具体为一种基于大模型的图像语义通信系统。
背景技术:
1、随着深度学习的快速发展,研究人员开始探索基于深度神经网络的端到端图像语义通信系统。例如,使用卷积神经网络、vision transformers(vit)等深度学习方法构建的图像语义通信系统已经超越了传统解决方案。
2、尽管基于深度学习的图像语义通信研究取得了重大进展,但仍存在一些问题:(1)传统的图像语义通信系统直接对整个图像进行编码,在像素中提取低级语义信息,具有大量空间冗余的自然信号。(2)图像语义通信系统经常在动态环境中运行,导致传输图像数据的特征分布和信道状态随时间漂移,因此语义通信系统的性能会下降。(3)传统的基于深度学习的语义通信系统是在特定信噪比条件下训练的,而现实通信环境下的信噪比是动态变化的。
技术实现思路
1、本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出了一种基于大模型的图像语义通信系统,用于解决图像语义存在空间冗余、图像语义通信系统的泛化性能差和无线通信时不确定的信噪比的技术问题。
2、为实现上述目的,本发明提供一种基于大模型的图像语义通信系统,包括以下步骤:
3、s1-1:文本语义提取:利用语义提取器中的图像编码器和文本解码器执行图像语义提取,从而将具有低语义密度的原始图像转换为具有高语义密度的相应文本描述;
4、s1-2:语义编码和信道编码:上述语义提取器生成的文本信息随后进入语义编码器;语义编码器分析文本信息并将其转换为紧凑的语义表示;语义编码器由语义编码层和信噪比加权模块组成;编码后生成的语义特征通过信道编码器进行信道编码和调制,确保在物理信道上进行有效的语义信息传输;
5、s1-3:信道解码和语义解码:在接收端处,通过物理信道的传输信息被接收并使用信道解码器进行解码;信道解码器采用与信道编码器相反的结构;语义解码器由语义解码层和信噪比加权模块组成,旨在反转语义编码过程以恢复原始的文本信息;
6、s1-4:图像重建:采用语义重构器的文本编码器、扩散u-net和图像解码器进行图像重建;具体步骤为:文本信息首先由文本编码器转换为条件向量;然后,扩散u-net将噪声图像转换为与条件向量对齐的潜在图像特征向量;最后,通过图像解码器对潜在图像特征向量进行处理,生成最终的重建图像;
7、s1-5:经验回放辅助的渐进学习:在本系统的训练阶段,最新的样本被存储在临时经验回放中;当临时经验回放变满时,采用聚类方法选择代表性的临时样本转移到固定经验回放;然后,临时经验回放被清空;经验回放辅助的编码器和解码器在训练阶段持续从临时经验回放和固定经验回放中取样。
8、进一步地:所述s1-1中,所述语义提取器包括:在发送端上采用了一种名为引导式语言图像预训练模型,引导式语言图像预训练模型包括:图像编码器、文本编码器、文本解码器和图像解码器。
9、进一步地:所述图像编码器包含一个基于vision transformer的特征提取模块,该特征提取模块将输入图像x分割成一个补丁序列,并对补丁序列中每个补丁进行编码,每个补丁表示一个固定大小的图像区域;通过具有多头自注意力子层和前馈子层的多个编码器层,将每个补丁的向量经过处理后,以生成图像的特征向量表示。
10、进一步地:所述文本解码器采用bert结构,由多个堆叠的解码器层组成,每个解码器层包括三个子层:因果自注意力子层、交叉注意力子层和前馈子层;通过这三个层将图像特征解码为具体的文本特征向量;文本解码器的最后一层通过线性投影和softmax函数将文本特征向量转换为预测序列中的下一个标记;然后,在生成过程中,每一个输出文本将用作下一个时间步的输入,直到生成图像的具有高语义密度的相应文本描述。
11、进一步地:所述步骤s1-2和s1-3中的语义编码、信道编码、语义解码和信道解码均使用了信噪比加权模块,所述信噪比加权模块工作流程如下:
12、s5-1:信噪比缩放:首先,信噪比投影模块将信噪比值缩放到与编码器和解码器中的特征向量相同的维度;信噪比投影模块是一个全连接层的前馈网络,如下公式所示:
13、;
14、其中,表示激活函数,为信噪比值;
15、和分别表示信噪比缩放模块中全连接层的权重和偏置;
16、s5-2:特征加权:将输入特征与信噪比向量结合起来,得到一个加权因子v,该因子记录了每个中间特征向量对语义/信道编码器和语义/信道解码器的重要性,如下公式所示:
17、;
18、其中,tanh为激活函数;f为输入特征f经过一个全连接层后的特征映射,如下公式所示:
19、;
20、和分别表示特征加权模块中全连接层的权重和偏置;
21、最后,输入特征f与加权因子v相乘,得到调整向量c,如下公式所示:
22、;
23、其中,表示调整向量c中的第i个元素,表示输入特征向量f中的第i个元素,表示加权因子v中的第i个元素;
24、信噪比加权模块嵌入到语义/信道编码器和解码器的特征向量中,以增强本系统的鲁棒性。
25、进一步地:所述步骤s1-4中,所述语义重构器还包括稳定扩散模型,用于图像重建,具体步骤如下:
26、s6-1:给定语义文本,文本编码器将输入语义文本转换为固定维度的语义向量,具体过程为:首先,语义文本中的每个单词通过词嵌入映射到一个固定长度的向量;这些词嵌入作为文本编码器的输入;编码器迭代执行多头自注意力子层和前馈子层操作,最终产生由文本特征向量组成的序列;
27、s6-2:特征生成器:将由纯噪声组成的初始图像特征向量输入到图像特征生成器中生成噪声特征向量;文本特征向量组成的序列被注入到噪声特征向量中以引导噪声去除;通过多次迭代,逐渐去除噪声,并获得包含文本信息的图像特征向量;噪声去除步骤采用u-net结构,u-net结构采用以卷积神经为基础的编码器-解码器结构,以保留空间信息同时生成图像语义信息;
28、s6-3:图像解码器:由于扩散操作的计算效率低下,图像的去噪过程在压缩的语义/特征空间中进行,即在减少的语义/特征空间中进行多次去噪迭代,提高了图像计算效率;
29、最后,利用变分自编码器的解码器,将语义/特征空间中的特征数据映射回像素空间,重建符合语义一致性的图像;由于变分自编码器学习了大量图像数据分布的潜在结构,解码器在解码过程中可以通过上采样和插值提供更详细的信息,与图像中的关键语义一致,从而增强像素空间中的图像质量。
30、进一步地:所述步骤s1-5中,引入了经验回放辅助的编码器和解码器,基于经验回放的学习策略通过使经验回放内容多样化来解决渐进学习中的选择性遗忘问题;为经验回放辅助的编码器和解码器设计了一种具有临时经验回放和固定经验回放的经验回放辅助方法;经验回放辅助的编码器和解码器的工作流程如下:
31、将和定义为代表存储在临时经验回放和固定经验回放中的动态样本的集合;
32、其中,表示临时经验回放中的第i个样本;
33、表示固定经验回放中的第j个样本;
34、当临时经验回放池变满时,需要从中选择代表性样本并将它们转移到固定经验回放中。
35、进一步地:所述选择代表性样本过程如下:
36、s8-1:短期典型样本评估:在推理阶段,正在处理的新样本持续添加到临时经验回放中;当临时经验回放中的样本数量超过指定的最大值时,执行评估操作;主要目标是评估临时样本的典型性,使用k-medoids聚类算法选择最典型的k个临时样本;
37、s8-2:长期样本选择:主要目标是从临时经验回放中选择与固定经验回放中样本显著不同的样本,确保经验回放中的多样性;使用高斯函数计算样本和固定经验回放中每个样本之间的平均相似度分数m,如下公式所示:
38、;
39、其中,为高斯参数;
40、当计算的相似性得分大于给定的阈值时,将样本从临时经验回放转移到固定经验回放中,如下公式所示:
41、 ;
42、选择完成后,被清空以缓冲下一轮的新样本;然后通过渐进学习,同时使用临时经验回放和固定经验回放来训练语义编码器和语义解码器。
43、本发明的有益技术效果包括:
44、1、本发明一种基于大模型的图像语义通信系统,引入了发送端上基于引导式语言图像预训练模型的语义提取器,和接收端上基于稳定扩散模型的语义重构器,分别用于生成与图像一致的高质量文本描述和重建与文本描述匹配的图像。从具有低级像素的图像中提取高级语义,增强传输信息的语义密度。
45、2、本发明一种基于大模型的图像语义通信系统,引入了一种信噪比加权模块,根据不同的信噪比条件动态调整语义编码和信道编码,从而改善信道编码以对抗强烈的信道噪声。
46、3、本发明一种基于大模型的图像语义通信系统,引入了一种经验回放辅助的编解码器来跟踪动态环境中的变化,包含两种类型的经验回放存储池:临时经验回放和固定经验回放。使语义编码器和解码器能够在从新数据中学习的同时,查看以前训练过的数据中具有不同分布的所有知识,从而避免灾难性遗忘。
本文地址:https://www.jishuxx.com/zhuanli/20241204/343048.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表