基于深度学习的非合作空间目标姿态估计与泛化跟踪
doi: 10.19328/j.cnki.2096‐8655.2026.01.010
张兆祥 1 , 张剑桥 2 , 周朔鹏 1 , 韩奥佳 1 , 许悦雷 1
1. 西北工业大学 无人系统技术研究院,陕西 西安 710072
2. 上海卫星工程研究所,上海 201109
基金项目: 国家自然科学基金资助项目(52302506);国家重点研发计划资助项目(2022YFB3902700);陕西省重点研究发展计划资助项目(2025GH‐YBXM‐022)
Deep-learning-based Pose Estimation and Generalized Tracking for Non-cooperative Space Targets
ZHANG Zhaoxiang 1 , ZHANG Jianqiao 2 , ZHOU Shuopeng 1 , HAN Aojia 1 , XU Yuelei 1
1. Unmanned System Research Institute, Northwestern Polytechnical University, Xi'an 710072, Shaanxi, China
2. Shanghai Institute of Satellite Engineering, Shanghai 201109, China
摘要
非合作目标姿态估计是满足航天器空间抓捕、碎片清理及维修等业务需求的重要保障。针对非合作空间目标三维模型未知、光照条件复杂、姿态跟踪易漂移等问题,提出了一种基于深度学习的泛化姿态估计及跟踪方法。首先,采用改进 EfficientPose 网络实现初始姿态快速确定,通过引入空洞卷积增强模块提升对空间目标细节特征的捕获能力。其次,利用改进 SuperPoint 模型从 RGBD 图像中提取亚像素关键点,并设计了带有三重损失的多通道耦合匹配算法,获得高精度关键点匹配对。最后,提出非迭代误匹配去除算法降低姿态匹配跟踪误差,同时通过批归一化层在线自适应技术提高对未知目标的泛化能力,有效降低跟踪漂移误差。构建了包含 9 种不同类型非合作目标样本的数据集,在不同光照、图像分辨率等条件下进行算法测试。试验结果表明:改进的初始姿态估计网络在 Hubble 目标上平均偏差距离(ADD)指标达到 91.11%,对比多个现有算法具有更优的估计精度和鲁棒性。
Abstract
Non-cooperative target pose estimation is the key of on-orbit servicing missions including space capture,debris removal,and spacecraft maintenance. In this paper,a deep-learning-based pose estimation and generalized tracking method for non-cooperative space targets is proposed to address challenges such as unknown three-dimensional(3D)models,complex illumination,and tracking drift.First,an improved EfficientPose network is adopted to determine the initial pose quickly,while dilated convolution modules are introduced to enhance the ability to capture the detailed features of spatial targets.Second,an enhanced SuperPoint model is utilized to extract sub-pixel keypoints from RGBD images,and a multi-channel matching algorithm with triplet loss is designed for high-precision keypoint correspondence.Finally,a non-iterative outlier removal algorithm is proposed to reduce tracking errors,while the batch normalization layer adaptation technology is used to enhance the generalization for unseen targets.Six distinct types of non-cooperative spatial target datasets are constructed,and tests under various lighting and resolution conditions are carried out. The results demonstrate that the improved initial pose estimation network achieves an average deviation distance (ADD)of 91.11% on the Hubble target,outperforming existing state-of-the-art methods in accuracy and robustness.
0 引言
空天科技是国家 2035 年远景目标纲要确定的7 个科技前沿领域攻关方向之一,是航天服务国家发展、民生经济和防灾救灾等的战略工程。在轨服务的发展应用是空天科技的重要突破之一,是满足空间抓捕、碎片清理、航天器回收、在轨维修等未来需求的重要保障。近几年,世界各国航天器发射快速增加,对空间在轨服务的需求呈爆炸式增长。在轨服务过程中,获取服务卫星和目标卫星间的相对姿态是实现后续制导及控制的基础,因此,研究空间环境下目标的准确姿态估计具有重要意义。
在空间抓捕、碎片清理及航天器维修等在轨服务中,大多数属于非合作空间目标,即不能主动与航天器进行状态信息交互、未安装光学标志器且几何模型未知。对于此类非合作目标,由于缺乏目标运动、表面结构和惯性参数等信息,相对位置和姿态估计问题变得尤为复杂。同时,星载传感器选型受质量、功耗、体积等严格约束,传感器分辨率和精度等指标受限。此外,不同的非合作目标表面结构差异较大,且目标成像易受复杂空间环境影响,比如逆光导致的空间目标局部遮挡,以及高光导致的空间目标局部暗弱等。这对基于图像的非合作目标姿态估计造成了较大障碍。
根据先验知识和传感器类型的不同,非合作目标姿态估计的研究大致分为以下 4 类。
第 1 类是基于图像关键点匹配技术的非合作目标姿态估计[1],通过特征提取器提取目标关键点,然后将图像关键点的二维信息与目标三维结构通过PnP 算法进行匹配,该类算法需要已知目标航天器的结构信息[2]。针对三维结构未知的非合作航天器,现有的方法是先对目标进行重建,获得目标的模型信息,然后将姿态估计问题转换为特征点与模型匹配的问题[3-6]
第 2 类是基于前后帧图像特征点匹配的相对姿态估计算法[7-9],通过预设姿态初始状态,同时利用图像匹配算法获得当前帧相对初始状态的姿态差异。
第 3 类是利用多种类型的星载传感器来实现非合作目标的姿态测量,当前主流的传感器组合包括5 种,分别为基于单目视觉的姿态测量[10-11]、基于双目视觉的姿态测量[12-13]、基于扫描式激光雷达的姿态测量方法[14-16]、基于 TOF 相机成像的姿态测量[17-18]、基于多传感器融合的姿态测量[19]
第 4 类是基于深度学习算法实现非合作目标的姿态估计。而针对深度学习方法,又可以分为基于特征提取和关键点匹配的二阶段姿态估计方法[20-22],以及端到端的姿态直接估计方法[23-24],其中二阶段估计方法和第 1 类方法类似,但特征提取部分往往利用卷积神经网络实现。直接估计方法包括卷积主干和卷积头部分,其中卷积主干用于提取非合作目标特征,卷积头利用提取到的特征对姿态和位置等信息进行回归。
综上,从传感器角度看,考虑到星载传感器选型对质量、功耗、空间等的严格约束,利用可见光深度(RGBD)图像数据依然是实现非合作目标姿态估计的首选手段。从估计方法看,基于关键点匹配方法虽然精度较高、可靠性较好,但需预先获取目标三维结构信息,对非合作目标而言较为困难,而通过三维重建手段获取三维结构则对服务航天器的姿态和轨道控制提出了更高要求。基于前后帧相关处理的姿态估计算法受光照角度变化、目标自旋等影响较大,鲁棒性不高。基于深度学习的姿态估计算法是近年来的研究热点,也取得了一定的研究成果,然而深度学习算法对训练数据的依赖较高,同时无法避免姿态漂移误差。
因此,本文提出了一种基于深度学习的空间非合作目标泛化姿态估计及跟踪方法。首先,采用改进的 EfficientPose网络[25]实现初始姿态快速确定,利用基于亚像素特征的 SuperPoint 模型[26]从可见光深度(RGBD)图像中提取亚像素关键点。然后,设计了带有三重损失的多通道耦合算法,获得高精度关键点匹配对。最后,提出一种非迭代误匹配去除算法,进一步降低跟踪漂移误差,提高姿态跟踪精度。
1 问题阐述
假设 1 个非合作刚体,其对应的三维模型未知,且不存在可供参考的同类型目标三维模型数据库。相对姿态估计的目标是持续跟踪相对于初始状态的姿态变化,也就是在相机坐标系中的相对变换T0 → τSE(3),τ ∈{ 1,2,···,t}。模型的输入为以下3 个参数。
1)I τ:RGBD 数据序列 I ττ ∈{ 1,2,···,t}。
2)M0:第 1 张图像I0上的掩码,指示要在图像空间中跟踪的目标对象区域。
3)T C0(可选):相机坐标系 C 中的目标初始姿态。如果需要估计在 C 中的绝对姿态,则需要该参数,否则为单位阵。
经过训练和部署之后,模型能够持续估计目标相对初始状态的姿态变化。其中初始掩码 M0 可通过目标检测和姿态态估计算法直接获取以初始化跟踪。
2 姿态估计方法
为了替代当前基于目标建模的姿态估计方法并最小化估计误差,提出一种基于深度学习的空间非合作目标泛化姿态估计及跟踪方法。首先,利用基于亚像素特征的 SuperPoint 模型从可见光深度(RGBD)图像中提取亚像素关键点。然后,设计带有三重损失的多通道耦合算法,获得高精度关键点匹配对。最后,提出一种非迭代误匹配去除算法,进一步降低跟踪漂移误差,提高姿态跟踪精度,同时通过批归一化层在线自适应技术,提高对未知目标的泛化能力。姿态估计和跟踪算法流程如图 1所示。
1 提出的姿态估计和跟踪算法流程
Fig. 1 Flowchart of the proposed pose estimation and tracking algorithm
2.1 初始姿态确定算法
准确的初始姿态估计是后续非合作目标姿态跟踪算法的关键前提。采用改进的 EfficientPose 网络实现初始姿态的快速确定。该方法能够在获取目标掩码后,直接从可见光深度(RGBD)图像中回归出目标的六维姿态,包括三维旋转RSO(3)和三维平移 t ∈ R3
2.1.1 非合作目标初始姿态估计
采用的姿态估计网络以 EfficientNet[27]为主干网络进行特征提取。EfficientNet 通过复合缩放方法统一扩展网络的深度、宽度和分辨率,在保持计算效率的同时实现了优异的特征提取性能。网络由多个阶段组成,每个阶段采用不同的 MBConv 模块和分辨率设置,逐步提取目标的多尺度特征。在EfficientNet 主干网络基础上,构建了旋转预测子网络和平移预测子网络。旋转子网络采用轴角表示法表示旋转,对每个锚框预测 1 个旋转向量t ∈ R3。为进一步提高旋转估计精度,引入迭代细化模块。该模块将初始回归输出 rinit 与最后一层卷积特征在通道维度拼接,回归出增量 Δr,最终旋转估计公式为
r=rinit +Δr
(1)
迭代细化模块由 Diter 个深度可分离卷积层组成,每层后接群归一化和 SiLU 激活函数。为保持网络可扩展性,层数 Diter由缩放超参数 φ 控制:
Diter =3+φ
(2)
该细化模块应用 Niter 次以逐步优化旋转估计,即:
Niter=|1+φ2|
(3)
平移预测子网络的结构与旋转网络类似,但将预测任务分解为目标二维中心点 c=(cxc y)T和深度 t z 两部分。通过相机内参,可计算完整的平移向量:
tx=(cxpx)tzfx
(4)
ty=(cypy)tzfy
(5)
式中:p=(p xpy)T为主点坐标;fxfy 为焦距。
2.1.2 空洞卷积增强模块
为增强网络对空间目标细节特征的捕获能力,在特征提取网络和旋转预测子网络中引入空洞卷积层。空洞卷积通过在卷积核元素间插入空洞,在不增加参数量的情况下扩大感受范围。
在 EfficientNet主干网络中,将第 5阶段和第 7阶段的部分 MBConv 模块替换为空洞率为 2 的空洞卷积。第 5阶段处于特征提取的中间层,添加空洞卷积主要提升边缘检测和细节捕捉能力;第 7阶段计算密集,空洞卷积在保持感受野的同时可降低计算量。
在旋转预测子网络的初始回归部分,每隔 2 个普通卷积层插入 1 个空洞率为 2 的空洞卷积层,总层数保持为 Drot 不变。这种设计在扩大感受野的同时,增强了网络对目标姿态细微变化的敏感性。
2.1.3 损失函数设计
针对空间非合作目标姿态估计特殊需求,设计改进的损失函数。对于非对称目标,定义损失函数Lasym 如下:
Laym =1mk(R^xi+t^)(Rxi+t)2
(6)
式中:R^,t^分别为估计的旋转和平移;Rt 为真实值;M 为目标 3D 模型点集;m 为点数;参数 k 为用于调整旋转损失相对于平移损失的权重,提高网络对姿态预测精度的敏感性。
对于对称目标,为避免训练过程中的不必要惩罚,采用如下对称损失:
Lsym =1mminjk(R^xi+t^)(Rxj+t)2
(7)
最终的转换损失函数为
Ltrans={LsymLasym
(8)
式中:sym 为对称;asym 为非对称。
可直接优化与评价指标平均偏差距离(Average Distance of Deviation,ADD)相似的度量标准,无需额外超参数平衡旋转和平移损失,使得网络训练更加高效稳定。
2.1.4 初始姿态确定流程
利用改进的 EfficientPose 网络进行初始姿态确定的流程如下:首先,通过 YOLOv8 等目标检测算法获取非合作目标的初始掩码 M0;然后将 RGB 图像和对应的深度图像输入改进的 EfficientPose 网络;网络通过主干特征提取、旋转和平移子网络回归,输出目标在相机坐标系C 中的初始姿态 T0=[ R0t0 ],作为后续姿态跟踪算法的基准状态,为连续帧间的相对姿态估计提供可靠的起点。
相比于传统的基于特征匹配[28]和 PnP 求解[29]的方法,改进的 EfficientPose 网络能够端到端地从图像直接回归姿态,避免了三维模型重建和特征点匹配的复杂过程。同时,空洞卷积的引入显著提升了网络对空间目标细节特征的感知能力,使得初始姿态估计在复杂光照条件和目标自旋情况下仍能保持较高精度。试验表明,该方法在多种非合作空间目标上均能实现快速准确的初始姿态确定,为后续的姿态跟踪提供了坚实基础,改进后的 Efficnient‐net网络结构见表 1
1 改进后的 Efficnientnet网络结构
Tab. 1 Architecture of the improved Efficientnet network
2.2 关键点匹配姿态跟踪
2.2.1 目标关键点检测算法
基于 SuperPoint 的描述符分别从空间目标的RGB 图像和深度图像中提取局部特征。Superglue使用单个卷积神经网络(Convolutional Neural Networks,CNN)模型执行检测和描述,该模型共享一个主干并且具有多个用于关键点和描述图的头。通过单应性匹配过程,检测头以自我监督的方式进行训练。SuperPoint 网络的输出包括一个形状为H×W 的 scoremap,以及一个形状为 H×W×256 的描述图。scoremap 描述了原始图像中每个像素点是一个特征的概率值。SuperPoint 模块根据 score阈值提取特征点,坐标为像素级整数坐标,限制了SuperPoint对于关键点定位精度。
为了解决该问题,用亚像素模块改进了原始的SuperPoint 网络。首先设计了特征点坐标亚像素化模块,将邻域像素特征与原始特征点融合,实现每个特征点的亚像素精度。然后修改描述符以计算具有修改后的特征点相应子像素描述。双线性插值方法和 L2正则化方法旨在提高描述符精度。其中,分数图s由特征编码器-解码器主干生成。对于每一个非重叠的 N×N像素窗口,设计一个非极大值抑制来得到粗特征图 SNMS,非极大值抑制公式如下:
s = { s max , s = s max 0 , s < s max
(9)
式中:smax= max(s(ij)),0 ≤ ij< Ns为像素窗口。
执行 NMS 操作后,提取大于阈值的像素点作为整数坐标集 p。对于每个特征点 pi=(x0y 0)i,其5×5 的局部像素窗口反映了该点作为特征点的概率,并在局部窗口上应用积分回归来计算关键点坐标期望。此外,为了保持可微特性,引入了一种Softargmax 方法来计算坐标期望。xy 方向的偏移期望分别通过下列公式获得:
δx=jies(xi,yi)ijies(x,yi),δy=jies(x,yi)jjies(x,yi)
(10)
式中:ij 分别为 x y 方向上的像素偏移量,值为-2,-1,1,2。
修正后的亚像素关键点坐标表示为
(x,y)=(x0,y0)+(δx,δy)
(11)
2.2.2 多维关键点匹配模型
改进了原有的 Superglue 匹配模型[29],建立了 RGB 和 Depth 关键点匹配的多维模型。Superglue的核心思想是将点匹配问题转化为最优运输问题,对关键点和描述符的向量进行联合编码。利用Sinkhorn 算法可以迭代地获得最佳匹配分数。由于深度图和光学图的关键点重复位置,首先对可见光(RGB)图像和深度图像中提取的关键点进行分类处理。通过 NMS 过程,处理后的关键点集变为
Pi=(P0,Pd,P0,d)
(12)
式中:P0,d为 RGB 和深度特征图中的关键点;P0Pd分别为来自 RGB 特征图和深度图的关键点。
相机内参用于将关键点从图像坐标系转换到身体坐标系,对关键点坐标系进行统一。之后,将关键点集分别引入匹配主干,通过交叉注意和自注意模块提取匹配描述符。基于匹配描述符的得分矩阵可用于计算分配图A。将多维匹配得分设计为匹配描述符的相似性,得分图如下式:
Si,j=foiA,fqjB+λ1fdiA,fdjB+λ2fodiA,fodjB,(i,j)A×B
(13)
式中:为内积;λ 1λ 2为控制可见光(RGB)图像得分图、深度得分图和综合得分图间权重超参数。
与原始 Superglue 网络一样,匹配描述符未归一化,大小可以在训练阶段根据每个特征发生变化以反映预测置信度。为了从匹配分数中找到正确的匹配对,优化问题可以看作是得分为 s 的 2 个离散分布 ab相关的最优传输问题。为了训练最优传输参数,首先从可见光(RGB)图像和深度图像中提取图像关键点,并使用相机固有的方法将其转换为体坐标。旋转矩阵真值用于将关键点投影到另一幅图像中,并应用反向变换过程来生成图像坐标关键点。L2距离公式用于找到 2 个关键点集间的最佳匹配对。为使模型学习正确的匹配分数,设计一个集成损失函数,其结合了三重损失和负对数似然(nll)损失。损失如下:
L=(i,j)MlogA¯i,jmax(DapDan+ margin, 0)
(14)
式中:A¯i,j 为分配矩阵;DapDan 分别为具有正距离和负距离的匹配分数。
Dap 是真正匹配对的匹配分数之和,Dan 是误匹配对的匹配分数,分数最高的 margin 是非负因子。损失函数的优化目标是增加 Dap 同时减少 Dan
2.3 非合作目标相对姿态估计
2.3.1 非合作目标相对姿态估计
通过前述关键点提取和多维关键点匹配模型,可以从连续的可见光深度(RGBD)图像帧中获取目标在体坐标系下的匹配关键点对。然而,由于图像噪声和遮挡等因素,匹配结果中不可避免地存在误匹配点,直接影响姿态估计精度。同时,基于特征点匹配的姿态估计要求前后帧目标具有足够的重叠特征,当姿态变化过大时,匹配精度会显著下降。为解决上述问题,提出了一种基于关键帧内存池的相对姿态估计和跟踪方法,通过误匹配点去除并多帧联合优化,实现高精度的连续姿态跟踪。
针对匹配点集中的误匹配问题,传统的随机抽样一致性算法(RANSAC)等迭代方法虽然鲁棒性较好,但计算效率较低且难以充分利用图形处理器(GPU)并行加速能力。设计了一种基于重投影误差的非迭代误匹配点去除算法,该算法流程见表 2
2 算法 1:非迭代误匹配点去除算法
Tab. 2 Algorithm 1:non-iterative outlier removal algorithm
通过上述算法获得筛选后的高质量匹配点对后,利用坐标转换方法实现姿态角度的解算。具体而言,首先根据去除误匹配后的关键点对重新计算协方差矩阵 H,并通过奇异值分解(Singular Value Decomposition,SVD)分解获得精确的旋转矩阵RSO(3)。平移向量 t 可通过最小化匹配点对的重投影误差求得:
t=1N(p2,iRp1,i)
(15)
获得旋转矩阵 R 和平移向量 t 后,通过罗德里格变换将旋转矩阵转换为旋转向量 rR3,进而可计算出目标的姿态角(俯仰角 θ、偏航角 ψ、滚转角φ)。设旋转矩阵 R 的元素为 rij,则姿态角计算公式为
θ=arsin(r31)ψ=artan(r21r11)φ=arctan(r32r33)
(16)
2.3.2 在线自适应
尽管改进的 EfficientPose 网络在多种空间目标上具有良好的泛化能力,但在实际在轨应用中,服务卫星可能遭遇训练集中未出现的新型非合作目标。由于目标表面材质、几何结构和光照条件与训练数据存在分布差异,直接应用预训练模型往往导致姿态估计精度下降。批归一化层[30]通过对特征进行标准化处理,能够有效捕捉数据分布特征。BN层包含通过移动平均统计的均值 μ 和方差,以及可学习的仿射参数缩放因子 γ 和偏置 β。其前向传播过程表示为
y=γxμσ2+ε+β
(17)
式中:x 为输入特征;ε 为防止除零的小常数;y 为归一化后的输出。
研究表明,通过在测试时更新 BN 层的统计量μσ2,可使网络快速适应新目标的数据分布,而无需修改网络的卷积权重和特征提取能力,从而在保持泛化性的同时提升对特定目标的估计精度。
提出的在线自适应方法选择旋转预测子网络和平移预测子网络最后 3 个 BN 层的统计量进行动态更新,而保持网络其余参数不变。在每一帧推理时,首先使用当前的 BN 统计量进行前向传播得到姿态估计,然后根据当前帧特征计算新的批次统计量,并采用指数移动平均方式更新统计量:
μt=(1α)μt1+αbatch
(18)
σt2=(1α)σt12+ασbatch 2
(19)
式中:α 为更新率,控制新旧统计量的融合比例。
较大的 α 值使模型快速适应当前目标,但可能降低稳定性;较小的 α值则保持更多历史信息。试验表明,设置α=0.1 能在适应速度和稳定性之间取得良好平衡,算法通常在 10~20 帧内即可完成对新目标的初步适应。该自适应过程不涉及反向传播和梯度计算,仅通过前向传播时的特征统计量更新即可完成,因此计算开销小,适合在轨应用。
3 数据生成和仿真实验
3.1 数据生成
为充分试验算法的有效性,首先设计了包含 6种不同类型的非合作目标,以构建非合作目标数据集,这 6 种非合作目标包括:Asteroid、Aura、Hubble、Jason、Microsat 和 Acrimat。构建的 6 种不同类型的非合作空间目标数据集如图 2 所示。其中大多数模型取自美国航空航天局(NASA)的 3D 模型目录,其他模型则从公开 CAD 模型库中获取。Jason 具有简单的几何形状,强特征较少,而 Aura、Acrimat具有稍微复杂的几何形状,但图像特征更强。最后,Asteriod、Hubble模型包含难度较大的轮廓和曲面特征,关键点匹配相对困难。任务卫星(追逐)设定为围绕目标的圆形监视轨道,在 Blender仿真软件中,对任务卫星的相机配置、轨道照明条件和目标旋转速率进行不同的设定,从而验证所提出方法的稳健性。
2 构建的 6 种不同类型的非合作空间目标数据集
Fig. 2 Six distinct types of non-cooperative spatial target datasets constructed
3.2 仿真实验
本试验硬件环境为:CPU 型号为 Intel(R)Xeon(R)Platinum 8338C CPU@ 2.60 GHz,内存为80 GB,显卡为 RTX 3090(24 GB),硬盘为 50 GB。软件环境为:操作系统为:ubuntu 18.04,Cuda 11.4,TensorFlow 1.15.5。深度学习架构训练与测试用到的模拟卫星姿态图片数据集的获取已在前文详细介绍。每张图片大小为 800×800 像素,每个物体包括 360 张图片,其中训练集为 54 张,测试集为 306张,划分比例为 15∶85。为保证试验的准确性和可重复性,训练集采用随机筛选方式,并进行了 3 次独立的随机训练试验。3 次试验结果表明,算法误差符合统计学规律,验证了试验结果的稳定性和可靠性。采用较少训练样本的设计主要基于 2 个方面考虑:1)模拟空间应用中标注数据稀缺的实际场景,提高模型的泛化能力;2)避免因训练数据过多导致的过拟合问题,确保模型对未见姿态和光照条件具有良好的适应性。
需要指出的是,在实际的空间在轨服务任务中,非合作目标姿态估计通常采用多阶段处理流程。首先通过目标检测算法对原始图像进行前景目标检测和分割,将非合作航天器从复杂背景中提取出来,随后的姿态估计网络仅处理检测框内的归一化目标区域。因此,数据集采用的纯色背景设置是模拟经过目标检测预处理后的实际输入场景,这种设计更符合完整流程中姿态估计模块的实际工作条件,模型训练参数设置见表 3
3 模型训练参数设置
Tab. 3 Settings of the mdel training parameter
训练中损失收敛情况如图 3 所示。
3 训练过程损失收敛情况
Fig. 3 Convergence of training process loss
使用 ADD(-S)指标[31]评估算法的预测精度。ADD 和 ADD-S 是 6D 物体姿态估计领域广泛采用的标准评估指标,已在 BOP Challenge、LINEMOD[32]等权威基准测试中作为主要评价标准。该指标通过计算物体 3D 模型点云在预测姿态和真实姿态下的平均距离误差来综合评估旋转和平移的整体精度,能够直观反映姿态估计对实际应用的影响。具体而言,对于非对称物体,采用 ADD指标计算所有模型点的平均距离;对于具有旋转对称性的物体,采用 ADD-S 指标,通过寻找最近点匹配来避免对称歧义导致的不公平评价。在本文数据集中,Asteroid 为非对称物体,而 Acrimsat、Hubble、Jason 等为具有部分旋转对称性的航天器。因此,评估时对 Asteroid 采用 ADD 指标,对其余物体采用 ADD-S 指标,确保了评估的科学性和准确性。当预测姿态与真实姿态的 ADD(-S)误差小于物体 3D 模型直径的 10% 时,判定为正确预测,统计正确率作为最终性能指标。该指标计算了 3D 模型点集 M 经过实际旋转 R 和平移 t 变换后,与经过估计旋转 R~和平移变换 t~后的模型点集之间的平均点距离。该指标还区分了非对称和对称对象。对于非对称对象,ADD 指标定义为
AADD=1mxM(Rx+t)(R~x+t~)2
(20)
如果估计的位置姿态的平均点距离小于对象直径的 10%,则被视为正确。对称对象使用 ADD-S指标进行评估,其计算公式如下所示:
AADD=1mx1Mminx2M(Rx+t)(R~x+t~)2
(21)
因此最终的评估指标可被定义为
AADD(S)={AADD, sym AADDS, asym
(22)
使用上述定义的 ADD 指标和训练设置针对模型进行训练与评估可得,本文所使用的模型在Hubble 物体上的 ADD 值可达到 91.11%,而改进前的 EfficientPose 在相同的训练设置与数据集下的ADD 值为 89.44%,可见针对 EfficientPose 数据集进行的改进在针对空天非合作目标的姿态估计时有一定的提升作用。具体而言,经过对数据集各物体的训练测试,本模型在 6 个物体模型上的表现见表 4
4 不同模型不同物体训练正确率情况
Tab. 4 Training accuracy of different models on different objects
可以注意到,所提模型最高可在 Microsat 物体上达到 96.39% 的正确率,且在大多数物体上相比EfficientPose 原模型有一定的正确率提升。为了进一步验证本文方法的有效性,选取了近年来具有代表性的姿态估计方法进行对比试验,包括通用物体姿态估计领域的经典方法 PVNet[33]和专门面向航天器的 SPNv2 网络[34]
表 4 的对比结果可以看出,所提模型在所有测试物体上均取得了最优性能。相比于 PVNet 方法,本模型在各物体上平均提升约 4~5 个百分点,这主要得益于引入的空洞卷积增强模块能够更有效地捕获空间目标的细节特征。与专门面向航天器设计的 SPNv2 相比,该模型仍保持 0.5~2.0 个百分点的优势,特别是在 Hubble 等复杂结构目标上提升更为明显,验证了本文改进策略的有效性。值得注意的是,SPNv2 作为航天器专用网络,其性能与通用最优方法 EfficientPose 相当,说明领域知识的引入对空间目标姿态估计具有积极作用。
然而,在Asteroid物体上,所提模型、EfficientPose、SPNv2 和 PVNet 分别只达到了 82.78%、83.61%、82.35% 和 80.45% 的正确率,所有方法的表现均明显低于其他物体。这一现象的主要原因是 Asteroid物体作为陨石,表面缺乏规律性纹理特征,不同姿态之间也没有明显的几何标记差异,这为基于 RGB 图像的姿态估计工作造成了本质性困难。这也从侧面反映出,对于表面特征不明显的非合作空间目标,仅依赖单目视觉的姿态估计方法仍面临较大挑战。
模型部分预测结果的可视化姿态展示如图 4 所示,其中,绿色方框为可视化后的标准姿态,蓝色方框为可视化后的姿态预测结果。从可视化结果可以直观看出,提出的方法能够有效实现非合作目标的初始姿态确定,相比 PVNet和 SPNv2 等代表性方法,在预测精度和姿态边界框吻合度上均表现出更好的性能,验证了改进 EfficientPose 网络结合空洞卷积增强模块的有效性和鲁棒性。
4 初始姿态估计结果
Fig. 4 Initial pose estimation results
图 5(a)所示,表明所提方法在背光条件下验证了其有效性。图 5(c)~图 5(d)展示了在太阳与相机视线角之间一定角度下非合作目标的高光反射。值得一提的是,图 4 中的 4 幅图像中匹配的关键点少于 25 个,这意味着匹配对与其他样本相比难度更大。重要的是,图 5 的匹配结果证明所提出的方法在各种光照条件下显示出稳定的姿态估计性能。
5 不同光照条件下姿态跟踪结果
Fig. 5 Pose tracking results under different lighting conditions
在追逐卫星接近过程中,由于控制策略不同,追逐者与目标的距离会不一致。同时由于不同的相机配置和不同的目标尺寸,目标的图像清晰度在不同任务的捕获图像中不同。这项工作测试了所提出的模型与目标的不同图像分辨率的匹配性能。如图 6 所示,其中的低分辨率匹配结果表明,尽管匹配三维关键点较少,但所提出的模型可以实现可以接受的目标姿态估计效果。
为了量化分析亚像素关键点提取对最终姿态估计精度的实际贡献,设计了消融试验对比有无亚像素提取器的性能差异。同时,为验证模型的泛化能力,引入未在训练集中使用的 Acrimsat 和Cloudsat 2 种新目标进行测试。详细的对比结果见表 5。从表 5 可以看出,对于未见过的目标,预训练模型在 Acrimsat 和 Cloudsat 上分别达到了 0.592 和0.400 的 APE[35],mMS[36]分别为 0.971 和 0.992,mAUC 分别为 0.818 和 0.858,表明所提模型对训练过程中未出现的非合作目标具有良好的泛化跟踪能力。通过对比 Raw 和加入亚像素提取器的结果可以发现,引入亚像素坐标回归方法后,APE 从2.292 显著降低至 1.948,提升了 15.00%;mMS 从0.180 提升至 0.523,提升了 190.60%;mAUC 从0.570 提升至 0.613,提升了 7.50%。这一量化结果充分证明了改进 SuperPoint 模型提取亚像素关键点对提升匹配精度和最终姿态估计性能的显著贡献,验证了提出的亚像素坐标回归策略的有效性。
6 不同分辨率下姿态跟踪结果
Fig. 6 Pose tracking results under different resolution conditions
5 测试目标的估计结果
Tab. 5 Estimated results for the test objectives
4 结束语
本文提出了一种用于估计空间非合作目标相对姿态的深度学习模型。开发的模型利用基于子像素的特征提取技术从 RGB 和深度图像中,检测和提取关键点特征,并提出了一种基于多维匹配的关键点匹配算法来实现正确的关键点匹配。为进一步提高估计精度,设计了一种非迭代方法和在线自适应约束,以去除异常值并生成旋转矩阵。所提模型与多种现有方法进行了比较,显示出优越的估计效果。同时在不同光照条件、不同图像分辨率和无监督目标下对目标进行了测试,试验结果显示了本文方法的鲁棒性和迁移能力。
未来可通过增加目标训练数据的数量和多样性,以进一步提高姿态估计算法的鲁棒性和稳定性。同时,与适当的时序处理算法相结合,能够进一步提高姿态估计的准确性。
1 提出的姿态估计和跟踪算法流程
Fig. 1 Flowchart of the proposed pose estimation and tracking algorithm
2 构建的 6 种不同类型的非合作空间目标数据集
Fig. 2 Six distinct types of non-cooperative spatial target datasets constructed
3 训练过程损失收敛情况
Fig. 3 Convergence of training process loss
4 初始姿态估计结果
Fig. 4 Initial pose estimation results
5 不同光照条件下姿态跟踪结果
Fig. 5 Pose tracking results under different lighting conditions
6 不同分辨率下姿态跟踪结果
Fig. 6 Pose tracking results under different resolution conditions
1 改进后的 Efficnientnet网络结构
Tab. 1 Architecture of the improved Efficientnet network
2 算法 1:非迭代误匹配点去除算法
Tab. 2 Algorithm 1:non-iterative outlier removal algorithm
3 模型训练参数设置
Tab. 3 Settings of the mdel training parameter
4 不同模型不同物体训练正确率情况
Tab. 4 Training accuracy of different models on different objects
5 测试目标的估计结果
Tab. 5 Estimated results for the test objectives
曹喜滨, 张世杰. 航天器交会对接位姿视觉测量迭代算法[J]. 哈尔滨工业大学学报, 2005, 37(8): 1123-1126.
CAO X B, ZHANG S J. Iterative algorithm for visionbased pose measurement in spacecraft rendezvous and docking[J]. Journal of Harbin Institute of Technology, 2005, 37(8): 1123-1126.
牟金震, 郝晓龙, 朱文山, 等. 非合作目标智能感知技术研究进展与展望[J]. 中国空间科学技术, 2021, 41(6): 1-16.
MU J Z, HAO X L, ZHU W S, et al. Research progress and prospects of intelligent perception technology for noncooperative targets[J]. Chinese Space Science and Technology, 2021, 41(6): 1-16.
洪裕珍. 空间非合作目标的单目视觉姿态测量技术研究[D]. 北京: 中国科学院大学, 2017.
HONG Y Z. Research on monocular vision pose measurement technology for space non-cooperative targets[D]. Beijing: University of Chinese Academy of Sciences, 2017.
LEI T, LIU X, CAI G, et al. Pose estimation of a noncooperative target based on monocular visual slam[J]. International Journal of Aerospace Engineering, 2019(2): 1-14.
周朋博, 刘晓峰, 蔡国平. 基于 ORB-SLAM 的低照度空间非合作目标的姿态估计[J]. 动力学与控制学报, 2021, 19(1): 68-74.
ZHOU P B, LIU X F, CAI G P. Pose estimation of space non-cooperative targets in low illumination based on ORB-SLAM[J]. Journal of Dynamics and Control, 2021, 19(1): 68-74.
LI Y, WANG Y, XIE Y. Using consecutive point clouds for pose and motion estimation of tumbling noncooperative target[J]. Advances in Space Research, 2019, 63(5): 1576-1587.
牟金震, 刘宗明, 周彦. 失效卫星远距离相对位姿估计与优化方法研究[J]. 航空学报, 2021, 42(11): 384-396.
MU J Z, LIU Z M, ZHOU Y. Research on long-range relative pose estimation and optimization method for failed satellites[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(11): 384-396.
SONG J, RONDAO D, AOUF N. Deep learning-based spacecraft relative navigation methods: a survey[J]. Acta Astronautica, 2022, 191: 22-40.
GUBAREV V, SALNIKOV N, MELNYCHUK S. Ellipsoidal pose estimation of an uncooperative spacecraft from video image data[M]. Gistrup, Denmark: River Publishers, 2022.
LONG C, HU Q. Monocular-vision-based relative pose estimation of noncooperative spacecraft using multicircular features[J]. IEEE/ASME Transactions on Mechatronics, 2022, 27(6): 5403-5414.
LONG C, BAI Z, ZHI S, et al. A pose measurement mthod of non-cooperative target based on monocular vision[C]//2021 33rd Chinese Control and Decision Conference (CCDC). Piscataway, NJ, USA: IEEE, 2021: 3110-3115.
HU L, SUN D, DUAN H, et al. Non-cooperative spacecraft pose measurement with binocular camera and TOF camera collaboration[J]. Applied Sciences, 2023, 13(3): 1420.
SUN Z, GAO Y. Relative position and attitude measurement for non-cooperative spacecraft based on binocular vision[J]. Journal of Astronautic Metrology and Measurement, 2017, 37(4): 1.
LI P, WANG M, FU J, et al. Efficient pose and motion estimation of non-cooperative target based on LiDAR[J]. Applied Optics, 2022, 61(27): 7820-7829.
LIM T, RAMOS P, O’DOWD M. Edge detection using point cloud data for noncooperative pose estimation[J]. Journal of Spacecraft and Rockets, 2017, 54(2): 500-505.
SUN D, HU L, DUAN H, et al. Relative pose estimation of non-cooperative space targets using a TOF camera[J]. Remote Sensing, 2022, 14(23): 6100.
MARTINEZ H, GIORGI G, EISSFELLER B. Pose estimation and tracking of non-cooperative rocket bodies using time-of-flight cameras[J]. Acta Astronautica, 2017, 139: 165-175.
PENG J, XU W, LIANG B, et al. Pose measurement and motion estimation of space non-cooperative targets based on laser radar and stereo-vision fusion[J]. IEEE Sensors Journal, 2018, 19(8): 3008-3019.
DENG L, SUO H, JIA Y, et al. Pose estimation method for non-cooperative target based on deep learning[J]. Aerospace, 2022, 9(12): 770.
HUO Y, LI Z, ZHANG F. Fast and accurate spacecraft pose estimation from single shot space imagery using box reliability and keypoints existence judgments[J]. IEEE Access, 2020, 8: 216283-216297.
SHARMA S, D’AMICO S. Neural network-based pose estimation for noncooperative spacecraft rendezvous[J]. IEEE Transactions on Aerospace and Electronic Systems, 2020, 56(6): 4638-4658.
HU Y, SPEIERE S, JAKOB W, et al. Wide-depthrange 6D object pose estimation in space [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2021: 15870-15879.
杨名. 基于深度学习的空间非合作目标多模智能重建算法研究[D]. 哈尔滨: 哈尔滨工业大学, 2018.
YANG M. Research on multi-modal intelligent reconstruction algorithm for space non-cooperative targets based on deep learning[D]. Harbin: Harbin Institute of Technology, 2018.
MALISIEWICZ D, RABINOVICH A. Superpoint: selfsupervised interest point detection and description [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ, USA: IEEE, 2018: 224-236.
BUKSCHAT Y, VETTER M. EfficientPose: An efficient, accurate and scalable end-to-end 6D multi object pose estimation approach[EB/OL]. (2020-11-09)[2025-11-05]. https://arxiv.org/abs/2011.04307.
DETONE D, MALISIEWICZ T, RABINOVICH A. Superpoint: Self-supervised interest point detection and description[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition WorkShops: IEEE, 2018: 224-236.
KOONCE B. EfficientNet[M]. Convolutional Neural Networks with Swift for Tensorflow: Image Recognition and Dataset Categorization. Berkeley, CA: Apress, 2021: 109-123.
张磊, 徐孝彬, 曹晨飞, 等. 基于动态特征剔除的图像与点云融合的机器人位姿估计方法[J]. Chinese Journal of Lasers, 2022, 49(6): 0610001-0610001-12.
ZHANG L, XU X B, CAO C F, et al. Robot pose estimation method based on image and point cloud fusion with dynamic feature elimination[J]. Chinese Journal of Lasers, 2022, 49(6): 0610001-0610001-12.
刘晨阳, 郑龙江, 侯培国. 一种快速加权迭代位姿估计法[J]. Laser & Optoelectronics Progress, 2022, 59(18): 1815019-1815019-8.
LIU C Y, ZHENG L J, HOU P G. A fast weighted iterative pose estimation method [J]. Laser & Optoelectronics Progress, 2022, 59(18): 1815019-1815019-8.
IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]//International Conference on Machine Learning. pmlr: IEEE, 2015: 448-456.
XIANG Y, SCHMIDT T, NARAYANAN V, et al. Posecnn: A convolutional neural network for 6d object pose estimation in cluttered scenes[EB/OL]. (2018-05-26) [2025-10-09]. https://arxiv.org/abs/1711.00199.
WANG Y, ZHANG S, YANG S, et al. A LINE-MODbased markerless tracking approachfor AR applications[J]. The International Journal of Advanced Manufacturing Technology, 2017, 89(5): 1699-1707.
PENG S, LIU Y, HUANG Q, et al. Pvnet: Pixel-wise voting network for 6dof pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition: IEEE, 2019: 4561-4570.
PARK T H, D’AMICO S. Robust multi-task learning and online refinement for spacecraft pose estimation across domain gap[J]. Advances in Space Research, 2024, 73(11): 5726-5740.
BALNTAS V, LENC K, VEDALDI A, et al. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: IEEE, 2017: 5173-5182.
REVAUD J, DE SOUZA C, HUMENBERGER M, et al. R2d2: Reliable and repeatable detector and descriptor [C]//Advances in Neural Information Processing Systems 32(NeurIPS 2019). Vancouver: IEEE, 2019.