摘要
针对空间非合作目标协同围捕任务,传统控制方法因博弈决策与编队执行相割裂,难以满足其强对抗、高动态下的实时响应与稳定包围需求。为此,提出一种基于微分博弈与预定时间控制的分层架构。该架构在上层构建目标-攻击者-防御者(TAD)博弈模型,通过在线求解纳什均衡以生成集群主卫星的最优包围轨迹;在下层则设计一种分布式的预定时间编队控制器,确保集群在预定时间内自主地实现编队构型建立、切换和保持。仿真结果表明:所提方法实现了上层博弈决策与下层编队控制的紧密协同,能够驱动卫星集群在预定时间内完成对目标的快速接近与稳定包围。
Abstract
In cooperative encirclementmissions on non-cooperative space targets,it is hard for traditional control methods to satisfy the requirements ofreal-time response and stable encirclement under highly adversarial and dynamic conditions,primarily due to the decoupling ofgame decision-making and formation execution.To this end,a hierarchical architecture based on the differential game theory and prescribed-time control is proposed. The upper layer of this architecture constructs a target-attacker-defender (TAD)game model,generating the optimal encirclement trajectory for theswarm’s master satelliteby solving for the Nash equilibrium online.The lower layer,in turn,designs a distributed prescribed-time formation controller,ensuring that the swarm can autonomously achieve formation establishment,switching,and maintenance within a prescribed time. The simulation results demonstrate that the proposed method achieves tight coordination between the upper-layer game decision-making and lower-layer formation control,enabling the satellite swarm to complete a rapid approach and stable encirclement of the target within the prescribed time.
0 引言
卫星集群在空间目标周围形成围捕格局,是空间轨道对抗中的关键环节,这种围捕格局使得卫星集群能够在对目标进行全面监测的同时,实现快速的信息获取与态势分析[1-2]。通过这种构型,卫星系统的空间感知覆盖范围与机动响应能力均得到显著增强[3-6]。在卫星围捕场景中,当非合作卫星接近因固有任务约束而初始无法机动的高价值目标时,防御卫星集群需对非合作目标建立包围态势并进行拦截驱赶[7-10]。将非合作航天器视为攻击者,己方卫星集群视为防御者集群[11],卫星集群包围问题可以转化为航天器之间的目标-攻击者-防御者(Target-Attacker-Defender,TAD)问题。
在 TAD 问题中,攻击者试图在不被防御者拦截的情况下捕获目标,而防御者则试图挫败攻击者并保护目标[12-13]。针对一般 TAD 博弈,文献[14]考虑了不同攻击类型导致的攻击成功概率和防御资源分配效果差异,文献[15]通过度博弈和类博弈获得了最优反馈策略及划分攻防胜利区域的屏障函数。在轨道 TAD 场景中,目标卫星通常因其主要任务的内在约束而无法机动[16-17]。现有研究多集中于单星博弈问题:文献[18-19]针对椭圆轨道推导了纳什均衡策略的解析解和攻击者获胜的充要条件;文献[20]基于群体独立行为和深度强化学习实现了脉冲机动的快速自主决策。然而,实际空间任务往往需要多颗防御卫星协同围捕目标,这不仅需要协调各卫星的运动,还需深入研究多星协同的追逃策略,否则将导致围捕效率降低、任务失败,甚至造成卫星间发生碰撞[21-22]。
然而,多星协同围捕任务对编队控制提出了更高要求[23-24]。在围捕过程中,从卫星需要以固定队形跟随主卫星,这对多星协同的时效性与构型精度提出了严苛要求[25-28]。为满足编队保持的精度需求,文献[29]基于相对运动动力学模型设计了终端滑模控制器,证明了系统状态误差可在有限时间内收敛。文献[30]针对编队重构过程中存在的推力饱和、避障及不确定性问题,提出了一种随机模型预测控制(Stochastic Model Predictive Control,SMPC)方法,将机会约束转化为确定性约束求解最优轨迹。考虑到实际围捕任务中卫星集群需要在特定时刻内快速完成围捕,文献[31]提出了一套面向卫星集群协同的固定增益调控的预定时间编队跟踪方法,通过预先设定的收敛时间引导多星在限定时刻形成指定的空间布局,并实现整体协同运动。
综上所述,现有研究在博弈决策与编队执行方面均取得了重要进展,但两者之间仍存在割裂,难以满足强对抗、高动态环境下的实时响应与稳定包围需求[32-33]。针对这一问题,本文提出了一种基于微分博弈与预定时间控制的分层围捕架构,如图 1 所示。在上层构建了 TAD 博弈模型,通过在线求解纳什均衡生成防御卫星群主卫星的最优拦截包围轨迹;在下层设计了分布式预定时间编队控制器,确保各防御卫星在预定时间内实现编队构型的建立、切换和保持。本文研究实现了博弈决策与编队执行的紧密协同,驱动卫星集群在强对抗、高动态环境下完成了对目标的快速接近与稳定包围。
图
1
卫星围捕问题的两层算法架构
Fig.
1
Two-layer algorithmic architecture for the satellite encirclement problem
文中将使用以下符号:假设代理集 Ω={ 1,2,···,N},其中 N 为代理数量。团队中的每个代理在网络中用 vi 表示,其中i 为该成员的唯一标识符。Rn 为实数 n × 1 向量集。然后,In 为 n × n 单位矩阵,而 0( n × m ) 为所有元素均为 0 的 n × m 矩阵。此外,⊗ 为克罗内克积。最后,≻ 和 ⪰ 分别为矩阵的正定性和正半定性。
1 问题建模
1.1 卫星系统相对运动模型
首先通过建立局部垂直局部水平(Local Vertical Local Horizontal,LVLH)坐标系描述主-从卫星的运动控制问题,假设主卫星在半径为 R0的地球同步轨道上运行,w为平均参考轨道速率。在LVLH 坐标系中,其原点取在非机动目标位置,径向方向指向地球,法向方向与轨道角动量一致,第 3方向由前两者按右手规则确定,如图 2 所示[34]。对此,采用 ρ=[ x,y ]T来描述从卫星相对于主卫星的位置。
图
2
主从星局部轨道坐标体系
Fig.
2
Local orbital coordinate system of the master-slave satellites
主从卫星相对运动可在所选坐标系下通过Clohessy-Wiltshire(CW)方程进行表征:
(1)
式中:u xi、uyi 分别对应沿坐标轴方向的控制量;w 为轨道平均角速度。
在此定义下,可写出式(1)的状态空间表达式:
(2)
式中:
1.2 卫星系统通信拓扑模型
本文构建了基于主从关系的卫星拓扑结构 =(),其中为卫星集合,卫星 Si 和 Sj 之间的邻接关系使用 =表示,为图 的加权邻接矩阵。同时,卫星 i 的邻居集合使用定义表示,对应拉普拉斯矩阵表示为L=[lij],其中并且 lij=-αij,j ≠ i。针对卫星系统的拓扑关系,提出如下假设。
假设 1 为刻画多星系统的通信结构,采用具有单一主星的定向拓扑,其中 S0 作为信息汇聚节点,从星的控制信号不返回主星。
整理得到系统的拉普拉斯矩阵:,其中,L21 ∈ RN × 1 为主卫星对从卫星的影响作用;L22 ∈ RN × N 则反映从卫星子群内部的相互关系。据此,可以得出下述引理。
(3)
为对称矩阵,且其特征值满足
(4)
式中:r 的元素可由列向量 =确定。
2 顶层博弈 TAD 问题求解
2.1 主卫星 TAD 博弈问题建模
顶层博弈收益函数的结构如下:
(5)
式中:J ρ 为与状态变量相关的收益函数;J u 为与控制变量相关的收益函数。
首先引入与状态变量相关的收益函数。攻击者的目标是在博弈时间内捕获目标并避免被防御者拦截,即最小化自身与目标的距离,同时最大化与防御编队主卫星的距离;防御者的目标则相反,即最小化编队主卫星到攻击者的距离,同时最大化攻击者到目标的距离。根据双方的意图,与状态变量相关的收益函数表示为
(6)
其中,J ρ1、J ρ2的具体表达式如下:
(7)
(8)
式中:ρca(tf)= ρc(tf)-ρa(tf)-ρr,ρr 为从卫星相对主卫星的固定编队状态;终端时间 tf 为固定值。值得注意的是,ρa 由 ua 决定,而 ρca 依赖于 ua 和 uc。
为符合实际任务场景,博弈设定固定的终端时间。收益函数的第 1 分量表征终端时刻攻击者与目标的相对状态,第 2 分量表征防御编队主卫星与攻击者的相对状态。该收益函数采用二次型形式,攻击者寻求其最小化,防御者则寻求其最大化,通过各自的优化过程实现博弈均衡。
因此,与控制变量相关的收益函数表述如下:
(9)
式中:,为控制权系数。
由于在此博弈场景中,更大的输入会带来更高的博弈胜率,所以需要限制双方控制输入的大小。如果任何一方使用过大的控制,则式(9)表示的能量惩罚项将显著改变与其目标相反的收益函数,从而限制投入的规模。
因此,博弈模型的表述如下:
(10)
2.2 博弈纳什均衡求解
通过引入 ρca= ρc-ρa-ρr,将式(10)中的约束微分方程变换为
(11)
当 C= Aρr,引入拉格朗日乘子 θ ∈ R4 和 ν ∈ R4,将带有微分方程约束的双边优化问题转化为无约束双边优化问题。得到的扩展收益函数如下:
(12)
通过定义哈密顿函数如下:
(13)
那么,通过哈密顿函数式(13)和部分积分,式(12)也可以写成:
(14)
接下来,执行增广收益函数的函数变化:
(15)
微分博弈方法用于求解双方达到纳什均衡的最优策略,其核心是将寻找最优策略的问题转化为求解收益函数的鞍点问题。通过对增广收益函数进行变分,当其对状态和控制变量的变分均为零时,即可获得满足鞍点条件的最优解。
(16)
(17)
(18)
(19)
(20)
(21)
其中,式(16)和式(17)为伴随变量的终端边界条件,式(18)和式(19)为伴随方程,式(20)和式(21)为攻击者和防御者主卫星最优控制律。
将得到的控制策略代入状态方程式(11),得到:
(22)
定义复合状态向量为,复合伴随变量为 z= col{ θ,ν},根据状态方程和伴随方程建立这 2 个向量之间的关系。这种关系可以表示为
(23)
式中:;
基于终端条件,复合状态向量与复合伴随向量的关系可推导为
(24)
式中:
给定线性定常微分方程组的解析解,可以用状态转换形式表示为
(25)
将状态转移矩阵分解为子矩阵,则式(25)可以重新表述为
(26)
由式(24)和式(26)的推导可得:
(27)
因此,复合状态向量与复合伴随向量之间存在线性关系:
(28)
式中:Q(t) 为变增益矩阵;S(t) 为偏置向量,对式(28)两边求导有
(29)
然后得到:
(30)
将其定义为矩阵里卡第方程。通过求解矩阵Riccati方程式(30)得到矩阵 Q,其终端条件为
(31)
因此,该问题的最终解为
(32)
式中:Ka=[-I4,I4 ];Kc=[ 0,I4 ]。
备注 1 式(30)中导出的 Riccati 方程可以用后向积分法求解。首先,将式(30)的右侧取反,得到描述终端值到初始值转变的微分方程:
(33)
然后,用四阶龙格-库塔法将式(33)与式(31)给出的初始条件积分,得到各时刻 Q(t) 的值。最后,将得到的 Q(t)代入式(32)中,可以分别得到攻击者和防御者集群主卫星的控制律 ua、uc。
3 底层卫星系统编队跟踪问题求解
3.1 卫星系统编队控制问题
在底层卫星编队控制问题中,通过设定编队误差来描述控制问题,定义了 2 个误差参数,分别为从卫星与主卫星之间的位置误差和速度误差。其中,e ρi(t)= ρi(t)-hi-ρ0(t)表示从卫星到主卫星之间的位置误差,表示两者之间的速度误差,hi ∈ R2 为期望的主卫星与从卫星之间的编队向量。
根据上述,卫星编队控制中设置任意初始状态以及预定的编队时间 T,有
(34)
表明卫星系统式(2)实现了预定时间的编队控制。
(35)
且有如下性质:
性 质 1 方程(35)有唯一解当且仅当 ηt>-2φ(A),其中,φ(A)= min{ Re(λi(A))} i=1,2,⋯,n},n 为系统矩阵 A 阶数。
性质 2 记 κt= 6ηt+ 2tr(A),那么 tr(BT Pt B)=κt。
性质 3 式(35)的解 Pt满足
(36)
式中:,Wt 为下列Lyapunov 方程的解:
性质 4 方程解 Pt的下界满足
(37)
式中:常数 q> 0 仅与系统矩阵 A 和 B 有关;μ(A)为特征值 λi(A) 所对应的约当块阶数,其满足Re (λi(A))= φ(A)。
3.2 卫星系统时变参数设计
对于构造的卫星系统,设计 Lyapunov 方程的时变参数 ηt为
(38)
其中,当 t → T - 时,ηt 随(T-t)β 发散,会导致控制失效,因此采用一个足够大的上界 对其进行截断。得到调整之后的时变参数为
(39)
在这个基础上,根据修正之后的控制结果,卫星系统最终可以实现有微小误差的编队控制。
3.3 卫星系统编队跟踪控制器设计
对于卫星系统式(2),可以设计控制输入为
(40)
定理 1 若时变参数 ηt 按式(38)给出的方式设定,且一致性增益满足相应条件,即 c>,式(40)可以实现卫星系统的自主编队控制。
证明 若要得到定理 1 的结论,需要对卫星系统的编队控制式(40)进行相关的存在性和有效性证明。
1)存在性证明
若 ηt满足:
(41)
则 Lyapunov 方程式(35)存在唯一解 Pt> 0。其导数满足性质 3,说明 Pt 为严格正定矩阵,并且随ηt增大而逐步增强控制强度。
2)有效性证明
由式(34)可得,在卫星系统的编队控制式(40)作用下,误差系统满足:

(42)
记
可得:
(43)
对于误差系统式(42),取 Lyapunov 函数为
(44)
求导可得:
(45)
根据 Lyapunov 方程可得:
(46)
根据式(43),代入后得:
(47)
将 BBT 项合并,记 Mt= Pt BBT Pt,故得到:
(48)
式中:
根据性质 3,有 ,当 ηt足够大时,上式右端为负,进一步得:
(49)
当一致性增益满足 时,根据性质 3 以及含参 Lyapunov 方程式(35),可以得出
(50)
由式(38)可以得到
(51)
根据性质 2 以及 tr(A)= 0 可得:
(52)
式中:。
故得到
(53)
可以证明得到
(54)
由 可得:
(55)
由性质 4可得:
(56)
因为 ,得到 。
由控制律式(34)的设计可知,卫星系统能够在设定的时间 T 内完成编队控制任务,从而验证了所提方法的有效性。而对于控制输入,有
(57)
利用谱范数与迹不等式:
(58)
结合 Lyapunov 函数上界,V1(t,x)=,得到上界:
(59)
由此可知,控制输入不会随着时间推进而无限增长,而是在整个控制过程中保持在某一上界以内,从而有效避免了过大的控制信号对系统执行机构造成的潜在影响。
4 仿真试验
为验证所建立模型与控制律的有效性,设置仿真参数 R0= 4.277 4 × 10 7 m,w= 7.272 2 ×10-5 rad ⋅ s-1。本次仿真场景设置为由 1 个主卫星 S0和 5 个从卫星 Si,i={ 1,2,⋯,5} 组成的编队系统,其拓扑关系如图 3 所示。
图
3
主-从卫星拓扑
Fig.
3
Topologyof the master-slave satellites
在本次试验中,设置卫星组网在编队跟踪控制中存在构型变换:
1)0 ≤ t ≤ 3 600 s,从卫星需要以正三角形的探测构型跟踪主卫星,随主卫星一起探测敌方,共同查找跟踪目标,设定编队构型实现时间 T = 3 600 s。
2)t ≥ 3 600 s,从卫星在 T= 4 000 s 进入重构阶段,队形逐步向环绕主星的圆阵收拢,以形成对主星的包覆式安全区域。至预设时刻 T= 5 000 s,圆形围捕队形完全建立,对应位置向量见表 1。
4.1 TAD 博弈结果分析
通过构建基于微分博弈理论的 TAD 轨道对抗模型,防御卫星集群的主卫星在轨道平面内通过解微分博弈方程,持续获取最优的轨迹决策,进而为卫星的编队控制模块提供轨迹输入。
表
1
编队向量
Tab.
1
Formation vectors
为了更贴近真实任务调度机制,在博弈过程中采用固定时间步长 0.6 s,在每一周期进行一次轨迹更新。即系统在当前状态下求解最优轨迹,并将该轨迹作为下一周期的引导路径。在整个过程中,主卫星作为防御者以该轨迹连续运动,构成对攻击者的有效防御策略,防御者与攻击者在轨道平面内的交互轨迹如图 4 所示。
图
4
攻击者与防御者轨迹
Fig.
4
Trajectories of attackers and defenders
从图 4 中可以看出,主卫星在任务开始阶段主动接近攻击者,并逐步调整自身轨迹以限制攻击者对目标空间站的接近行为,最终防御者形成一条包围拦截的路径,有效实现了对目标区域的保护任务。
4.2 编队控制仿真结果
对于底层卫星防御围捕集群,时变参数 ηt 的变化趋势如图 5 所示,在预定编队时间时显著变化。主卫星、从卫星系统的位置与速度动态响应曲线如图 6 所示。编队误差及速度误差衰减过程如图 7 所示。主从卫星在初始阶段的探测构型如图 8 所示,这一阶段主要用来侦察攻击者的轨迹。主-从卫星围捕构型如图 9 所示,通过球状队形的设计形成有效的包围圈。实际的控制输入曲线如图 10 所示。
在 t=3 600 s 时刻,系统接收到第 1 次构型重构指令,要求从卫星编队变换为一个正三角形构型。这种构型在某些探测任务中因其几何稳定性而具有优势。从控制输入范数图 10 可以看出,在 3 600 s时,各从卫星的控制输入||u(t)||迅速增大并呈现出高强度的脉冲式变化,表明控制器正在有效驱动从卫星向新的目标位置高速机动。相应地,由卫星误差图 7 显示,各卫星的位置和速度误差在此阶段出现显著波动,这与构型重构过程中的暂态响应完全一致。
图
5
时变参数 ηt变化曲线
Fig.
5
Variation of ηt with time
图
6
从卫星实际位置和速度变化曲线
Fig.
6
Variations of the actual positions and velocities of theslave satelliteswith time t
图
7
从卫星编队误差变化曲线
Fig.
7
Variations of the formation errors of the slave satelliteswith time t
在 t=4 000 s 时,该重构过程基本完成。此时,各从卫星的位置与速度误差均已快速收敛至零附近,控制输入也随之恢复到极低的维持水平,此时控制器能够精确、快速地完成构型变换任务。
同时为模拟对非合作目标的包围或监视任务,在 t=5 000 s 时刻,系统发出第 2 次构型重构指令,要求编队形成一个以主卫星为中心的圆形围捕构型。从仿真结果可以看出,控制器再次迅速响应,控制输入和状态误差曲线均出现与第 1 次重构类似的剧烈变化,驱动从卫星从三角形构型顶点向圆形轨道上的指定位置机动,形成围捕态势。
图
8
主-从卫星探测构型
Fig.
8
Sensingconfiguration of the master-slave satellites
图
9
主-从卫星围捕构型
Fig.
9
Encirclementconfiguration of the master-slave satellites
图
10
控制输入||u(t)||变化曲线
Fig.
10
Variation of the control input ||u(t)|| with time t
5 结束语
针对多卫星对非合作空间目标的协同围捕问题,提出了一种博弈决策与预定时间控制相结合的分层控制架构。该架构在上层构建 TAD 微分博弈模型在线生成最优策略轨迹,在下层通过引入带参数的 Lyapunov 方程,将预定时间控制问题映射为时变参数设计过程,实现了对编队构型建立与切换时间的精确控制。所提架构摆脱了传统算法对初始状态的强依赖性,能够将高层级的博弈决策实时转化为底层集群的精确协同动作,实现了上层决策与下层执行的有效协同。仿真试验验证了策略的有效性与鲁棒性,系统按照预设时间与轨迹完成了编队任务,控制输入保持有界,误差快速收敛,在强对抗、高动态的围捕任务场景中表现出显著优势。后续研究可将更复杂的逃逸策略纳入博弈模型,并综合考虑通信时延与燃油消耗等工程约束,以进一步深化对多体 TAD 问题的研究。