摘要
遥感图像字幕生成(RSIC)是一项结合计算机视觉和自然语言处理的任务,旨在将遥感图像转换为自然语言描述。提出了一种基于双分支注意力 Mamba 的图像字幕生成方法。在双分支注意力 Mamba 网络中,设计了一个双向扫描 Mamba 块,使用最新的 Mamba 结构编码图像全局特征,通过双向扫描机理增强模型对图像空间的感知理解。双分支注意力模块使用轻量的通道-空间注意力机制,有效地实现对图像的局部特征的关注与优化,提高模型性能。基于 UCM-Captions 数据集和 Sydney-Captions 数据集的图像字幕生成实验表明:本文提出的方法相比其他现有方法表现更优。
关键词
Abstract
Remote sensing image captioning (RSIC)is a task that combines computer vision and natural language processing,aiming to convert remote sensing images into natural language descriptions. In this paper,an image captioning method based on dual-branch attention and Mamba is proposed. In the dual-branch attention Mamba network,a bidirectional scanning Mamba module is designed.The latest Mamba architecture is adopted to encode global image features,and a bidirectional scanning mechanism is used to enhance the model’s spatial perception and understanding of the image space. In the dual-branch attention module,a lightweight attention mechanism is used to effectively focus on and optimize local image features,thereby improving the overall model performance.Tests on image captioning based on the UCM-Captions dataset and Sydney-Captions dataset show that the method proposed in this paper performs better than existing methods.
0 引言
遥感图像字幕生成(Remote Sensing Image Captioning,RSIC)是一项跨模态任务,其结合了计算机视觉和自然语言处理,旨在将遥感图像转换为自然语言描述,以便非专业人士能够直观地理解图像内容[1]。与其他单模态图像任务如图像分类[2]、目标检测[3-6]、语义分割[7-9]不同,遥感图像字幕任务信息表达更全面、更连贯。近年来,随着遥感技术的发展,作为图像字幕生成子任务的 RSIC 在地理研究、环境监测等领域受到了广泛关注[10-15]。目前,RSIC 模型通常可以分为 2 个阶段:视觉特征提取和文本生成[16]。在视觉特征提取阶段,早期的 RSIC 方法使用卷积神经网络(Convolutional Neural Network,CNN)从图像中提取特征,并将其编码为高级特征向量。在文本生成阶段,循环神经网络(Recurrent Neural Network,RNN)被用来将高维特征向量转换为相应的文本[17]。QU 等[18]使用 CNN 作为编码器来提取图像特征,并使用 RNN 作为解码器来生成字幕,建立了 RSIC 的基本框架。然而,CNN 提取的特征并不能使解码器关注于关键区域。注意力机制极大地促进了 2种模态之间的匹配,使解码器能够关注于必要区域。XU 等[19]将注意力机制引入图像字幕生成任务,极大地提高了字幕生成的准确性和灵活性,激发了学者对注意力机制的进一步研究。在此基础上,自注意力机制以其捕捉全局信息的卓越能力而闻名。ZHAO 等[20]将遥感图像的区域特征映射为网格特征,并提出了一种协同连接的 Transformer。然而,值得注意的是,自注意力机制缺乏对局部上下文信息进行有效建模的能力。
最近,Mamba[21]将时变参数引入到状态空间模型(State Space Models,SSM)中,实现了具有线性复杂度的数据依赖全局建模,在自然语言处理领域取得了重大成功,并被认为是 Transformer 的有效替代方案[22-26]。LIU 等[27]将 Mamba 结构引入图像分类等图像处理领域,凭借其独特的设计思路在相关任务中展现出优异性能,证明了 Mamba 结构在图像处理领域的潜力。在本文中,提出了双分支注意力 Mam‐ba,这是一个简单而有效的模块,其使用双向扫描的Mamba块提取主要特征,结合了通道-空间注意进行特征微调,使 RSIC 模型得到更优的图像特征。试验结果表明,双分支注意力 Mamba 网络在主观结果上表现优秀,在客观评价指标上优于其他方法。
1 方法
1.1 基于双分支注意力 Mamba 的图像字幕生成模型
本文提出的 RSIC 模型采用了基于 Mamba 架构的编码器-解码器框架,其整体结构如图 1 所示。首先将遥感图像输入到预训练的 CNN(Resnet18)[28]中,以获得初步的图像特征。在将图像特征展平并分配位置编码后,其被进一步输入到编码器中进行特征优化。编码器采用多层双分支注意力 Mamba 块,其中N表示编码器层数,融合Mamba 的高效长序列建模能力与通道-空间注意力的局部特征优化优势。每个 Mamba 块通过并行的空间维度卷积处理和通道维度门控机制,实现全局上下文建模与局部细节强化的协同优化。输出的增强特征包含多尺度空间信息与全局语义关联。
采用标准 Transformer[29]解码器架构,每个解码器层由 3 个子层连接结构组成:第 1 个子层是一个带掩码的多头自注意力层;第 2 个子层是一个多头注意力层;第 3 个子层是一个前馈全连接层。每个子层后都接有一个规范化层和一个残差连接。通过多头自注意力层处理输入的单词嵌入,在多头注意力层处理编码器输出的特征序列。结合位置编码和掩码机制,逐个单词生成图像字幕文本。
1.2 双向 Mamba 块
原始的 Mamba 块主要是针对一维序列处理而设计的,其工作机制侧重于对单一维度上数据的依次分析与处理。然而,在视觉任务领域,图像所包含的信息具有显著的空间特性。图像并非简单的一维排列,而是由像素在二维平面上按照特定空间位置分布构成,各个像素之间存在着紧密的空间关联性。这种空间信息涵盖了物体的形状、位置、方向及其相互之间的相对空间关系等重要内容。本文采用 Vim 方法[13],Vim 用于图像分类任务,通过位置嵌入标记图像序列,并使用双向 SSM 压缩视觉表示。其结合了双向 SSM 来进行全局视觉上下文建模,并使用位置嵌入进行位置感知。本文采用双向扫描模式,使 Mamba 块能够更好地理解图像信息的空间关联性。首先,图像经过主干网络被编码为,将输入图像特征Iin 展平到 并进行归一化,然后通过线性变换投影到和 。经过一维卷积以及前向和后向 SSM操作后,获得前向扫描和后向扫描的图像特征。具体方式如图 2 所示,分别从图像的左上角特征和右下角特征出发,根据 SSM 分别对 2 个方向进行图像编码。SSM 表示一类具有线性复杂度的序列模型,其离散表示形式如下:
图
1
双分支注意力 Mamba 模型的总体结构
Fig.
1
The architecture of the dual-branch attention Mamba model
(1)
(2)
式中:hk 为隐藏状态;xk 为输入; 为离散化的线性变换,离散化是通过时间尺度参数∆实现,最后,作为门控机制产生最终输出。
图
2
双向 Mamba 块的结构以及双向扫描方式
Fig.
2
The structure of the bidirectional Mamba module and the bidirectional scanning modes
1.3 双分支注意力 Mamba 块
在计算机视觉领域,通道注意力与空间注意力构成了互补的注意力机制体系。通道注意力通过全局统计特征对各通道重要性进行加权,实现特征通道的自适应筛选;空间注意力则基于通道维度特征聚合生成空间权重图,精准定位图像中的显著区域 Mamba 块作为基于线性自注意力的新型架构,虽然在长距离依赖建模上具有优势,但存在局部特征捕捉能力不足的问题。通过引入通道注意力机制,模型能够动态调整各通道特征的权重,增强对关键语义信息的表达;而空间注意力机制则通过精细化的空间特征选择,提升模型对局部细节的敏感度。鉴于此,如图 3 所示,本文设计了双分支注意力Mamba 块的结构,2 种机制通过特征维度与空间维度的交叉增强,有效弥补了 Mamba 块在局部特征提取方面的局限性。这种多维度注意力融合策略,显著提升了模型在图像字幕生成任务中的表现精度与鲁棒性。
1)通道注意力。通过全局统计特征对各通道重要性进行加权,实现特征通道的自适应筛选。具体而言,本文对空间归一化的图像特征进行平均池化,在经过 2 个全连接层和 Sigmoid 激活操作后,获得通道维度的权重。最后,应用乘法操作以获得精细特征。
图
3
双分支注意力 Mamba 块的结构
Fig.
3
The structure of the dual-branch attention Mamba module
(3)
式中:FC(·) 为全连接操作;R(·) 为修正线性单元(ReLU);δ(·) 为 Sigmoid 操作;Pool(·) 为平均池化操作。
2)空间注意力。为了获得隐藏特征图的位置权重,首先对输入特征进行卷积。随后,沿着通道维度进行平均池化,然后进行 Sigmoid 操作。这允许模型在图像特征的空间信息中做出关键区分。
(4)
式中:Pool(·)为平均池化操作;Conv(·)为卷积操作。
最后,将通道注意力输出和空间注意力输出相加,并通过一个线性层获得模块的最终输出。
(5)
式中:Ln(·)为层归一化操作;Linear(·)为线性层。
2 试验
2.1 数据集和评价指标
UCM-Captions 数据集[18]是基于 UCM-Merced大学土地利用数据集构建的。图像来自美国地质调查局的国家地图城市区域。UCM-Captions 数据集包含 21 个类别,包括飞机、海滩、高架桥和体育场等,总共有 2 100 张遥感图像。每张遥感图像的分辨率为 256×256 像素,并配备有 5 个不同的标题标签。整个数据集使用 368 个不同的词汇生成了10 500 个描述图像的标题标签。
Sydney-Captions 数据集[18]是从 Google Earth 的悉尼数据集中收集和生成。每幅遥感图像都是从澳大利亚悉尼的一幅分辨率为 18 000×14 000 像素的遥感图像中裁剪而来,裁剪后的分辨率为 500×500 像素。Sydney-Captions 数据集包含共 613 幅遥感图像,分为 7 个类别,如机场、海洋和工厂。该数据集使用 237 个不同词汇为每个遥感样本生成 5 个不同的描述标签。
对于图像字幕生成任务,评估模型性能应基于生成的字幕与图像内容之间的对齐程度,以及句子的流畅性。常见的评价指标包括 BLEU[30]、METEOR[31]、ROUGE[32]和 CIDEr[33]。BLEU 用于计算标注字幕和预测字幕之间的 N-gram 重叠度。METEOR 考虑了单词变化和相同词干的同义词,从而在计算相似性时提供了更大的灵活性。ROUGE 指标通过计算生成字幕和参考字幕之间最长公共子序列的长度来评估性能,同时还考虑了精确度和召回率。CIDEr 指标专为评估图像字幕生成任务而设计,其利用词频-逆文档频率(TF-IDF)为不同的 N-gram 分配不同的权重。
2.2 训练设置
词嵌入的维度设置为 512,Transformer 中注意力头数固定为 8。训练阶段,用于构建词汇表的计数单词数量设置为 1,生成句子的最大长度设置为40,学习率设置为 10-4,网络的批量大小固定为 32。此外,定义耐心度(Patience)来监控模型在验证集上的性能,并决定是否提前终止训练。在推理过程中,选择束搜索值为 3。使用 Adam 优化器优化模型[34]。所有试验均在 NVIDIA RTX 4090D 上使用PyTorch 2.0 实现。
3 试验结果
3.1 可视化结果
在 UCM-Captions 数据集和 Sydney-Captions 数据集上使用双分支注意力 Mamba 模型进行试验,获得的可视化结果如图 4 所示,其中,图 4(a)为 UCM-Captions 数据集,图 4(b)为 Sydney-Captions 数据集。图 4 中,GT 为标注字幕,Ours 为双分支注意力Mamba 模型生成字幕。总体而言,所提出的方法能够准确生成对应于遥感图像内容的字幕,由于UCM-Captions 数据集和 Sydney-Captions 数据集的图像含量较小,泛化性较差,因此模型生成的字幕基本与标注字幕相同。这证明了双分支注意力Mamba 模型在 UCM-Captions 数据集和 Sydney-Captions 数据集上表现出色。
图
4
双分支注意力 Mamba 模型的图像字幕生成结果
Fig.
4
Image captioning results of the dual-branch attention Mamba model
3.2 评价指标比较
在这里,本文使用 4 个评价指标:BLEU、METEOR、ROUGE、CIDEr。这些评价指标均基于生成的字幕与标注字幕之间的相似性来评估模型性能,BLEU 更关注两者的精确率,METEOR 考虑了同义词,突出字幕生成的灵活性,ROUGE 更注重字幕的核心信息,CIDEr 则关注词频较低的单词,即细节描述,总的来说得分越高表示模型性能越好。将本文方法与其他 3 种方法(Soft attention[19]、MLAT[35]、HCNet[36])的评价指标进行了比较。双分支注意力Mamba 模型和其他 3 种方法在 UCM-Captions 数据集和 Sydney-Captions数据集上的评价指标结果见表1和表 2,结果表明本文提出的模型在 UCM-Captions数据集上大多数评价指标获得了最佳分数。特别是在 BLEU、METEOR 和 ROUGE 指标上,本文方法显著优于其他模型,表明本文方法生成的图像字幕更接近标注字幕,而 CIDEr指标略低于 MLAT,但无明显差距,主要由于本文方法采用了传统的Transformer 解码器,在细节描述方面未做创新。此外,虽然本文方法在 Sydney-Captions 数据集上相较于 MLAT 未得到明显提升,但明显高于其他方法,主要由于 Sydney-Captions 数据量较少,泛化性较差。总体而言,所提方法表现出卓越的性能。
表
1
在 UCM-Captions 数据集上所有方法的指标比较
Tab.
1
Comparison of metrics for all methods on the UCM-captions dataset
表
2
在 Sydney-Captions 数据集上所有方法的指标比较
Tab.
2
Comparison of metrics for all methods on the sydney-captions dataset
3.3 消融试验
为了验证所提出方法的有效性,本文设置了在UCM-Captions 和 Sydney-Captions 数据集上的消融试验。见表 3 和表 4,能够清晰地看到双向 Mamba块和通道-空间注意力块对模型性能的影响。在UCM-Caption 数据集上,移除双向 Mamba 块和通道-空间注意力块均导致多项指标下降,表明该模块对模型性能有积极贡献。同样,在 Sydney-Cap‐tions 数据集上也能观察到类似趋势。
表
3
在 UCM-Captions 数据集上消融试验的指标比较
Tab.
3
Comparison of ablation test metrics on the UCMcaptions dataset
表
4
在 Sydney-Captions 数据集上消融试验的指标比较
Tab.
4
Comparison of ablation test metrics on the sydneycaptions dataset
4 结束语
本文提出了一种基于注意力机制和 Mamba 模块的图像字幕生成方法,该方法能更有效地为遥感图像生成相应字幕。本文利用 Mamba 模型高效的全局建模优势,结合注意力机制,设计了双分支注意力 Mamba。其能进行双向扫描,以实现对图像空间的感知理解,并自动整合通道和空间权重,丰富特征信息,使生成的图像特征更加完整且呈现更多细节。最后,在遥感图像数据集 UCM-Captions 数据集和 Sydney-Captions 数据集上验证了该方法,并与 3 种现有方法进行了比较。本文采用 4 种评价指标来评估图像字幕生成的性能,充分证明了该方法的有效性。总之,该方法为 Mamba 在图像字幕生成任务中的应用开辟了新思路,并展示了其潜力。