技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于空间-通道混合注意力的深度学习图像压缩方法 > 正文

一种基于空间-通道混合注意力的深度学习图像压缩方法

国知局
2024-09-11 14:49:38

本发明涉及图像处理，尤其涉及的是一种基于空间-通道混合注意力的深度学习图像压缩方法。

背景技术：

1、深度学习图像压缩方法是通过将图像数据输入深度神经网络中，先利用编码器编码生成比特流，再利用解码器还原图像。

2、现有的深度学习图像压缩方法主要是基于transformer模块构建，或者是基于卷积神经网络(convolutional neural network，cnn)构建，其中，基于transformer模块构建的深度学习图像压缩方法，由于移位窗口注意力的限制，其感受野增长受限，影响其对于图像中大物体的建模能力；基于卷积神经网络构建的深度学习图像压缩方法，由于卷积神经网络自身的感受野较小，对图像的压缩性能不佳。可见，现有技术中的这两种方法对图像的压缩性能都存在提升空间。

技术实现思路

1、鉴于上述现有技术的不足，本发明的目的在于提供一种基于空间-通道混合注意力的深度学习图像压缩方法，旨在解决现有技术中存在的深度学习图像压缩方法对图像的压缩性能不佳的问题。

2、为了实现上述目的，本发明第一方面提供一种基于空间-通道混合注意力的深度学习图像压缩方法，包括：

3、获取待处理图像；

4、利用预设的特征编码器中的多组交替布设的混合注意力模块和残差块对所述待处理图像进行空间和通道优化以及降维处理，获得压缩后的高维特征图，且所述混合注意力模块包括有用于学习所述待处理图像的局部空间信息的基于窗口的空间注意力模块和用于学习所述待处理图像的全局通道信息的基于窗口的通道注意力模块；

5、利用预设的熵模型对所述压缩后的高维特征图依次进行算术编码和算术解码，获得重建后的高维特征图；

6、利用预设的特征解码器中的多组交替布设的残差块和混合注意力模块对所述重建后的高维特征图进行升维以及空间和通道反向优化处理，获得重建图像。

7、可选的，在所述获取待处理图像之后，还包括对所述待处理图像进行维度转换，更新所述待处理图像，包括：

8、利用小波变换对所述待处理图像按照预设的频率分解规则进行分解，获得若干个不同频率的子图，并沿通道维度将所有所述子图进行叠加，获得叠加图像；

9、利用第一残差块对所述叠加图像进行维度转换，更新所述待处理图像。

10、可选的，所述利用预设的特征编码器中的多组交替布设的混合注意力模块和残差块对所述待处理图像进行空间和通道优化以及降维处理，获得压缩后的高维特征图，包括：

11、每组所述混合注意力模块和残差块均依次执行如下步骤：

12、利用所述混合注意力模块中并联连接的基于窗口的空间注意力模块和第二残差块捕捉所述待处理图像中的局部空间信息，获得空间优化特征图；

13、利用所述混合注意力模块中并联连接的基于窗口的通道注意力模块和第三残差块捕捉所述空间优化特征图中的全局通道信息和局部空间信息，获得通道优化特征图。

14、利用所述特征编码器中的第四残差块对所述通道优化特征图进行降维处理，获得压缩后的高维特征图。

15、可选的，所述利用所述混合注意力模块中并联连接的基于窗口的空间注意力模块和第二残差块捕捉所述待处理图像中的局部空间信息，获得空间优化特征图，包括：

16、利用所述基于窗口的空间注意力模块学习所述待处理图像中基于transformer模型的局部空间信息，获得第一空间特征图；

17、利用第二残差块学习所述待处理图像中基于卷积神经网络的局部空间信息，获得第二空间特征图；

18、基于所述第一空间特征图、所述第二空间特征图和所述待处理图像，获得空间优化特征图。

19、可选的，所述利用所述混合注意力模块中并联连接的基于窗口的通道注意力模块和第三残差块捕捉所述空间优化特征图中的全局通道信息和局部空间信息，获得通道优化特征图，包括：

20、利用所述基于窗口的通道注意力模块学习所述空间优化特征图中基于transformer模型的全局通道信息，获得初始通道特征图；

21、利用第三残差块学习所述空间优化特征图中基于卷积神经网络的局部空间信息，获得第三空间特征图；

22、基于所述初始通道特征图、所述第三空间特征图和所述空间优化特征图，获得通道优化特征图。

23、可选的，所述利用所述基于窗口的通道注意力模块学习所述空间优化特征图中基于transformer模型的全局通道信息，获得初始通道特征图，包括：

24、对所述空间优化特征图划分窗口，获得若干个空间优化子特征图；

25、利用空间-通道维度交换模块分别对每个所述空间优化子特征图进行转置，获得每个所述空间优化子特征图对应的通道优化子特征图；

26、将所有所述通道优化子特征图进行叠加并学习基于transformer模型的全局通道信息，获得初始通道特征图。

27、可选的，所述利用预设的熵模型对所述压缩后的高维特征图依次进行算术编码和算术解码，获得重建后的高维特征图，包括：

28、利用所述熵模型计算所述压缩后的高维特征图的均值，将所述压缩后的高维特征图减去所述均值，得到剩余特征图；

29、对所述剩余特征图进行量化处理，获得量化后的剩余特征图；

30、利用预设的熵模型计算量化误差，获得补偿特征图；

31、利用所述熵模型计算所述量化后的剩余特征图中每个字符出现的概率，并基于每个所述字符出现的概率进行算术编码，获得可传输的比特流，并对所述可传输的比特流进行算术解码，还原量化后的剩余特征图；

32、将还原得到的所述量化后的剩余特征图与所述补偿特征图相加得到重建后的剩余特征图，将所述重建后的剩余特征图与所述压缩后的高维特征图的均值相加，获得重建后的高维特征图。

33、本发明第二方面提供一种基于空间-通道混合注意力的深度学习图像压缩系统，所述系统包括：

34、数据采集模块，用于获取待处理图像；

35、压缩模块，用于利用预设的特征编码器中的多组交替布设的混合注意力模块和残差块对所述待处理图像进行空间和通道优化以及降维处理，获得压缩后的高维特征图，且所述混合注意力模块包括有用于学习所述待处理图像的局部空间信息的基于窗口的空间注意力模块和用于学习所述待处理图像的全局通道信息的基于窗口的通道注意力模块；

36、编解码模块，用于利用预设的熵模型对所述压缩后的高维特征图进行算术编码和算术解码，获得重建后的高维特征图；

37、解压缩模块，用于利用预设的特征解码器中的多组交替布设的残差块和混合注意力模块对所述重建后的高维特征图进行升维以及空间和通道反向优化处理，获得重建图像。

38、本发明第三方面提供一种智能终端，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于空间-通道混合注意力的深度学习图像压缩程序，所述基于空间-通道混合注意力的深度学习图像压缩程序被所述处理器执行时实现任意一项上述基于空间-通道混合注意力的深度学习图像压缩方法的步骤。

39、本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于空间-通道混合注意力的深度学习图像压缩程序，所述基于空间-通道混合注意力的深度学习图像压缩程序被处理器执行时实现任意一项上述基于空间-通道混合注意力的深度学习图像压缩方法的步骤。

40、与现有技术相比，本方案的有益效果如下：

41、本发明提出一种同时基于transformer模型和卷积神经网络构建而成的新型的混合注意力模块，改进了特征编解码器的基本计算模块，设计出基于窗口的空间注意力模块和基于窗口的通道注意力模块，利用基于窗口的空间注意力模块和残差块学习图像的局部空间信息，利用基于窗口的通道注意力模块学习全局通道信息，有效避免了现有的图像压缩模型感受野增长受限的问题，能够有效提高对于图像中大物体的建模能力，并有利于提升基于深度学习图像压缩模型的率失真性能。