摘要
遥感影像高精度变化检测在地理分析、城市监测和土地利用评估等领域具有重要价值。近年来,基于卷积神经网络和视觉 Transformer 的变化检测网络取得了显著进展,并在双时态影像特征融合方面表现突出。然而,现有网络在几何建模和边缘表征方面存在不足,常导致边界细节不完整,影响变化区域的精确定位。为解决这些局限性,本文提出一种自校准增强差异引导变化检测网络。首先,该网络构建自适应方形校准模块,通过在水平和垂直轴上对全局上下文进行建模,明确捕捉变化区域的结构模式,在增强几何感知能力的同时,结合多尺度融合模块有效整合双时态影像的差异信息;其次,该网络设计差异融合引导模块,将编码器特征、解码器输出与高频差异特征相结合,以增强变化区域的边缘表征;最后,在 3 个公开数据集上的实验结果表明,所提网络在多项评估指标上均优于现有的先进网络,验证了其在高精度变化检测任务中的有效性和优越性。
Abstract
The high-precision change detection of remote sensing images is of great value in fields such as geographic analysis,urban monitoring,and land use assessment.In recent years,change detection networks based on convolutional neural networks and vision transformers have made significant progress,and have demonstrated outstanding performance in fusing dual-temporal image features. However,existing networks have deficiencies in geometric modeling and edge representation,which often results in incomplete boundary details and thus inaccurate positioning of change regions. To address these limitations,in this paper,an enhanced difference-guided change detection network based on self-calibration (SEDGNet)is proposed. First,an adaptive square calibration module(ASCM)is constructed.The global context along the horizontal and vertical axes is modeled to explicitly capture the structural patterns in change regions.While enhancing geometric awareness,it combines a multi-scale fusion module to effectively integrate the differential information from dual-temporal images. Second,a differential fusion guidance module (DFGM)is designed,which integrates encoder features,decoder outputs,and high-frequency differential features to strengthen the edge representation in change areas.Finally,tests are conducted on three public datasets to validate the proposed network.The results show that the proposed network outperformed existing advanced networks across multiple evaluation metrics,verifying its effectiveness and superiority in high-precision change detection tasks.
Keywords
0 引言
遥感影像变化检测可通过对比同一地理区域在不同时间拍摄的高分辨率影像,分析影像中的变化区域,提取相关信息识别地表目标随时间的变化。随着多时相遥感数据可获得性地不断提高,变化检测网络在城市扩张监测[1]、土地管理[2]、环境评估[3-4]以及灾害评估等多个领域中发挥着至关重要的作用,能够为相关应用提供可靠的数据支撑和决策支持。因此,开展遥感影像变化检测研究具有重要的理论价值与实践意义。
传统遥感影像变化检测主要采用基于手工设计特征的算法[5-6]。此类网络首先对多时相遥感影像进行辐射校正[7]和几何配准[8],进而提取颜色模式、表面纹理等人工设计的特征,最后通过分类器或数值阈值识别变化区域。在此过程中,支持向量机[9]、随机森林[10]等经典机器学习算法被广泛使用。尽管这些网络在特定条件下表现出较好的检测效果,但其性能很大程度上依赖手工设计特征的质量。此外,传统网络对影像配准精度较为敏感,即使存在微小的配准误差,也可能导致明显误检,为其实际应用带来了严峻挑战。
与传统网络相比,深度学习技术[11-12]具备更强的表征能力。目前大多数研究聚焦于网络结构创新,旨在提升变化检测性能,改善边缘特征表达能力薄弱的问题[13]。近年来,学者们通过引入跨层特征交互机制以促进自适应上下文融合,从而弥补局部与全局上下文建模的不足。典型策略包括融合多层次特征或建立跨尺度语义关联,以增强模型对场景的解析能力。例如 LUO 等[14]提出双分支孪生增强模块,通过在时间维度上提取多尺度差异特征,利用特征图的动态泛化特性增强局部细节与全局运动的联合表征;MUBASHIR 等[15]在编码器结构中融合池化-转置注意力机制与深度可分离卷积,其中池化转置注意力用于捕捉全局上下文信息,深度可分离卷积则用于提取局部空间特征;而 CHEN 等[16]在基于 PYATT[17] 提出的视觉基础模型(Segment Anything Model,SAM)上进一步提出了零样本迁移范式,利用预训练知识实现局部区域分割与全局语义拓扑的联合优化。尽管这些特征交互策略在识别显著变化区域方面被证明是有效的,但在处理小型变化区域时,性能往往会下降,其主要原因是仅依赖特征交互机制可能会削弱特征的判别能力。
与上述策略不同,另一部分研究者致力于特征增强类模型的开发。例如,WANG 等[18]通过融合并增强变化前后影像的多层特征差异,生成高质量检测特征;LI 等[19]利用影像的高频和低频系数获取增强的差异特征。相关研究[20-21]同样表明,特征增强是细化变化区域的有效手段。然而,这类网络忽视了变化区域中边缘信息的破碎化分布。在编码过程中,注意力不仅要放在特征学习上,还应关注防止目标特征丢失的策略。然而当前研究在该关键问题上尚未深入,现有网络未能有效缓解特征提取过程中边缘信息的损失。
综上所述,遥感影像变化检测任务仍面临诸多挑战:一方面是如何准确分割遥感影像中的变化区域;另一方面是如何在检测过程中充分提取变化区域的边缘信息。为此,本文提出一种用于遥感影像变化检测的自校准增强型差异引导变化检测网络(Enhanced Difference-guided Change Detection Network Based on Self-calibration,SEDGNet),该网络包含自适应方形校准模块(Adaptive Square Calibration Module,ASCM)和差异融合引导模块(Differential Fusion Guidance Module,DFGM),通过双向特征融合获取全局轴向上下文,用于感知矩形变化区域的空间分布规律。此外,本文还引入时空特征交叉融合模块,对双时态影像信息及其差异信息进行交叉融合,从而获取更精确的边缘信息,提升变化区域检测的精度。
1 变化检测模型
本文采用的 SEDGNet网络模型实现流程如图 1所示,该模型由自适应方形校准模块、差异融合引导模块和时空特征交叉融合模块组成。从输入的双时相遥感影像(T1、T2)开始。首先,时空特征交叉融合模块对 T1 和 T2 及其差异特征进行像素级差异计算,并对不同通道的特征进行分离和多空间融合。该过程能够充分挖掘时空特征的多样性,增强模型的判别能力,同时通过拉普拉斯算子提取高频边缘信息,为后续模块提供细粒度的边缘引导。之后,融合后的特征图经过编码器进行多层次的特征提取,并传递给自适应方形校准模块。该模块利用水平和垂直轴向注意力机制以及可学习的条带卷积,有效捕捉矩形结构目标(如建筑和道路)的几何模式,显著提升对结构化目标的感知能力。此后特征图进入差分融合引导模块,该模块结合编码器输出、边界引导图、逆向注意力图和高频边缘信息,采用多尺度融合策略,着重增强变化区域的边缘感知能力,从而减少边界模糊和检测碎片化现象。最后,经过解码器的特征整合,网络输出精确且细节丰富的变化检测结果图,实现对遥感影像目标变化区域的精确检测,有效缓解了传统网络在边缘保持和几何建模上的不足。
图
1
SEDGNet实现流程
Fig.
1
Implementation process of the SEDGNet
1.1 自适应方形校准模块
在实际场景中,地物变化往往呈现出特定的方向性变化。传统的卷积核由于感受野有限,难以准确地捕捉此类具有方向连续性的变化特征。为此,本文提出 ASCM 的实现流程如图 2 所示。
图
2
ASCM 实现流程
Fig.
2
Implementation process of the ASCM
该模块首先对输入特征图沿水平和垂直方向分别进行全局平均池化,提取能够反映行、列整体响应趋势的上下文描述向量。这些向量通过加法生成一个二维注意力图,初步定位潜在的变化区域。然而由于实际边界往往具有方向性和不规则性,仅依赖注意力图难以实现精确的拟合边缘。因此本文引入一个形状自校准函数,对注意力图进行进一步精细化处理。该函数采用方向解耦的条带卷积,更好地将注意力图与实际物体轮廓对齐,即:
(1)
式中:τC 为上下文整合函数,对结果进行处理,输出初步的方向注意力图;φ1 × k(⋅)、φk × 1(⋅) 分别为沿水平和垂直方向的大卷积核操作,用于对相应方向的区域执行形状校准;ϕ(⋅)为 BN-ReLU 复合函数;δ(⋅) 为 Sigmoid 函数。初步的注意力图作为输入,方向卷积级联使模块能够灵活适应目标边界的扩展,并消除对称卷积模式下固定感受野带来的限制。该过程生成更精确的注意力图,更好地覆盖变化轮廓,同时减少边缘模糊。在自校准后,将注意力图与原始输入特征融合,充分保留边缘细节。生成的注意力图与输入特征图融合可表示为
(2)
式中:τF为特征融合函数,用于接收原始输入特征图x和注意力特征;φ3 × 3(⋅)为深度卷积操作,卷积核为3×3;y为在前一步生成的注意力特征;⊙ 为点积。
与传统的注意力加权求和相比,深度卷积使模块能够更专注于早期层次的空间细节,特别是在处理小区域时,对于保持边缘信息特别有效。ASCM在融合阶段结合 ConvNeXt[22]进行结构优化,可改善跨通道间的信息流,即:
(3)
式中:Ft为最终输出特征图,⊕ 为加法;HP(⋅)、VP(⋅)分别为水平和垂直池化操作;ρ(⋅)为批归一化和多层感知器的组合。
通过残差连接将处理后的特征与原始输入相加,显著增强特征表示。ASCM 作为插件模块集成到主网络中,能够有效感知空间结构变化,为变化检测任务提供关键支持。
1.2 时空特征交叉融合模块
为提高遥感影像的变化检测性能,本文借鉴了先前研究中的时空特征交叉融合模块(SpatioTemporal Feature Cross-Fusion Module,SFCM)[23],用于双时相特征的直接融合。与常规将 SFCM 置于网络中间层的做法不同,本文将其放置在网络的输入端,直接对底层特征进行建模,从而更充分地捕捉原始数据中的显著时空模式。SFCM 包含 4 个关键操作:差异计算、通道分离、特征交互和深度可分离卷积。首先,该模块对双时相特征进行像素级差异计算,生成初步的变化图,从而突出潜在的变化区域。随后,将原始特征和差异特征沿通道维度分离,并划分成多个子空间,在增强特征多样性的同时保留原始信息。之后,通过加权跨通道融合机制,将不同子空间中的特征进行融合。最后,利用深度可分离卷积对融合后的特征进行压缩和细化,输出统一的融合表示。与简单的特征拼接或差分操作相比,SFCM 能够提供更强的特征表示能力,并为后续模块提供更精确的高频引导。
1.3 差分融合引导模块
在标准的编码器-解码器网络中,低级空间结构信息通常难以完全转换为高级语义特征。这一局限容易导致边缘信息的丢失。为解决这个问题,本文引入 DFGM,其实现流程如图 3 所示。
图
3
DFGM 实现流程
Fig.
3
Implementation process of the DFGM
DFGM 首先对 SFCM 输出的图像应用拉普拉斯算子,生成统一的边缘图,以提供稳定的高频信息,即:
(4)
(5)
式中:f l0为初始高频边缘特征图;f l通过拉普拉斯算子提取的高频边缘图;L1(⋅)为拉普拉斯算子操作;d(⋅)为下采样操作,缩小倍数为×1/2;为进行 t次下采样操作,缩小倍数为×1/2。
结构信息的丢失容易导致变化区域的碎片化,特别是在建筑和道路的边缘细节上。为匹配编码器层之间特征图的尺寸,初始的边缘图会逐步进行下采样,生成多尺度的边缘表示。尽管边缘信息能够为结构提供参考,但有效的特征引导还需要来自模型预测的附加判别反馈。为增强边缘区域的检测,本文引入 2 个来自预测反馈的注意力图作为互补的引导。具体而言,构建 1 种差分融合策略,结合3 种引导成分:边界注意力图、反向注意力图和结构边缘引导图。每个图从不同角度反映当前判别状态与空间结构的差异。该模块对每个引导图与对应的编码器输出特征执行点积操作。经过调制的特征会进行拼接,并通过卷积融合,生成最终的引导特征图f c t,即:
(6)
式中:Conv{ ⋅} 为卷积操作;f l t 为第 t层的结构边缘引导图; 为第 t层的编码器输出特征图;为第t+ 1 层的边界注意力图; 为第 t+ 1 层的反向注意力图;⊗ 为逐元素点积运算;[⋅]为拼接操作,由于边缘信息可能包含噪声与冗余细节,本文在第t 层引入一个注意力掩码 Λt。
通过融合 3 种引导图,实现了结构感知的特征表示,避免简单的特征堆叠或平均融合导致的信息稀释问题。融合后的特征具备初步的边界响应能力,但在空间区域上的重要性存在差异。单一特征通道无法充分分离目标与背景区域。为此,本文采用了基于注意力的调制机制,对空间位置进行显式加权。该过程首先对融合后的特征f c t 应用 1 × 1 卷积,以压缩通道维度。随后,Sigmoid 激活函数生成一个空间注意力掩码,该掩码对每个位置进行加权,增强边缘和变化区域的响应,同时抑制背景干扰。将得到的掩码与融合后的特征进行逐元素相乘,并与原始编码器特征通过残差相加,进行自适应调整,最终获得更具判别性的边界感知特征,用于后续的解码过程,即:
(7)
式中:f a t 为第 t层的边界感知特征图;Λt 通过对融合特征图f c t 应用 1 × 1 卷积并进行 Sigmoid 激活生成,用于调制不同空间的位置响应。
该结构融合了 3 种不同类型的结构引导图,同时在融合过程中保持核心特征的完整性。融合过程结合通道注意力和空间注意力机制,通过对关键区域的增强响应,加强边界响应,抑制背景干扰,显著提升了边界变化检测的性能。最终,融合后的特征图表现出更强的结构识别能力和更完整的变化区域表示。
2 数据集及参数设置
2.1 数据集
WHU-CD 数据集[24]由武汉大学开发,包括一对空间分辨率为每像素 0.2 m 的航空影像,总尺寸为32 507×15 354 像素。由于该数据集未提供预定义的分割标注,原始影像被裁切为 256×256 小块,并随机划分为训练集、验证集和测试集,分别包含6 096、762 和 762 个小块。
LEVIR-CD 数据集[25]是一个以建筑物为主的基准数据集,由 637对和 985对影像组成,每幅影像的尺寸为 1 024×1 024 像素,空间分辨率为 0.5 m/像素。由于硬件限制,所有影像被划分为不重叠的 256×256图像块,数据集提供 7 120个训练样本、1 024个验证样本和 2 048 个测试样本。
SYSU-CD 数据集[26]由中山大学近期推出,包括 20 000 对 256×256 的影像,分辨率同样为0.5 m/像素。数据集划分为训练集 8 000 个样本、验证集 4 000 个样本和测试集 8 000 个样本。与前 2 个数据集相比,SYSU-CD 不仅包含建筑物,还包括道路、船舶和植被等多类目标,对变化检测模型提出了更高的多样性和复杂性要求。
2.2 参数设置
在编码特征 4 个阶段,分别将图像下采样至原始图像大小的 1/4、1/8、1/16 和 1/32。每个层级的块数设置为 2,通道数设置为 32、64、160和 256。本文所提出网络基于 PyTorch 网络实现,并在 NVIDIA RTX4090上运行。在优化过程中,使用 Adam优化器,初始学习率为 1e-4,其中超参数β1、β2 分别设置为 0.9和0.999。批量大小设置为 16,总训练轮数为 200。损失函数为交叉熵损失和 Dice 损失的总和,即:
(8)
(9)
(10)
式中:λ 1、λ 2 为损失函数的权重系数;yi 为第 i 个像素的真实标签; 为第 i 个像素的预测概率;N 为像素总数。
2.3 评价指标
为具体评估本文所提网络的性能,引入 7 个评估指标,包括精准度(Pre)、召回率(Rec)、F1-score(F1)、交并比(IoU)和整体准确率(OA),即:
(11)
(12)
(13)
(14)
(15)
式中:TP、TN、FP 和 FN 分别为真正例、真负例、假正例和假负例的数量。其中,F1 和 IoU 更能反映模型的适应性。
3 实验及结果分析
3.1 对比试验
为验证本文所提出的遥感影像变化检测网络的有效性,本文与多种主流网络进行对比分析,具体包括:MSGFNet[27]采用渐进连接策略集成双时相特征,增强边界细节的保持和完整目标检测能力。RSCM[28]提出一种基于掩模的变化检测范式,通过掩模预测执行遥感变化检测,克服传统像素级网络的限制。IDANet[29]使用最大均值差异损失对特征分布进行时间相位对齐,将双时相影像映射到相同的深度特征空间,从而减少伪变化干扰。BIT[30]利用权共享的 ResNet-18 提取双时相特征,通过语义标记器将特征压缩成紧凑的语义标记集,再将标记拼接并输入到局部 Transformer 编码器-解码器中,以学习时空关系。ACABFNet[31]通过不同分支提取多层特征,并采用轴向注意力机制融合特征的高宽维度和通道维度,实现高效的双时相特征时空学习。ChangeFormer[32] 采用共享权重的Segformer-B1 进行分层特征提取,在每一层应用差分和卷积操作进行双时相融合,最终将多层差分特征拼接后输入到全连接解码器。STA[33]开发一种基于度量的孪生全卷积网络,集成时空注意力机制,扩展特征表示能力。ASGCN[34]结合注意力机制与 Sobel 算子引导的图卷积网络,细化多尺度编码器-解码器特征,提高变化区域检测的准确性。本文所提网络在 WHU-CD、LEVIR-CD 和 SYSUCD 3 个数据集上的实验结果见表 1~表 3。可视化比较结果见图 4~图 6 所示。
由表 1~ 表 3 可知,在 WHU-CD 数据集上,MSGFNet采用渐进连接策略实现多尺度特征融合,增强了边界细节的保持能力。但其高频边缘特征在融合过程中逐渐被