摘要
强化学习下的卫星任务规划通过“试错-反馈”机制,学习在资源、时间和轨道约束条件下获得最大化任务收益,并适应动态环境。为更贴近真实多卫星观测多目标的场景,需综合考虑目标成像、星上存储、能源状态、动量轮角动量等多种关键因素。为此,本文提出一种面向复杂环境的多星协同任务规划(CE-MSCMP)框架,系统研究从卫星任务场景的马尔可夫决策过程(MDP)建模到协同规划策略求解的全流程问题。CE-MSCMP 框架具有三方面优势:1)构建综合动态环境模型,提升仿真场景的真实性;2)将异构智能体近端策略优化(HAPPO)算法引入多星协同任务规划问题求解,为算法设计提供新范式;3)显著增强规划策略的泛化能力、实时适应性与多目标灵活性,克服传统方法在场景适应性和扩展性方面的局限。仿真结果表明:MDP 建模的合理性以及 HAPPO 算法在卫星任务规划中的有效性得到验证,充分体现了 CE-MSCMP 框架性能的优越性。
关键词
Abstract
In the satellite mission planning based on reinforcement learning,the trial-and-error feedback mechanism is used to learn how to maximize mission benefits under resource,time,and orbital constraints while adapting to dynamic environments. To better simulate real-world scenarios involving multiple satellites observing multiple targets,multiple key factors are taken into account,including target imaging,storage,battery charge,and wheel speed. To this end,in this paper,a complex-environment multi-satellite collaborative mission planning (CE-MSCMP)framework is proposed,and the entire process,from the modeling of satellite mission scenarios with the Markov decision process (MDP)to solving collaborative planning policies,is systematically studied. The results show that the advantages of the CE-MSCMP framework lie mainly in three aspects. First,it builds a comprehensive dynamic environment model to improve the realism of simulation scenarios. Second,it introduces the heterogeneous agent proximal policy optimization (HAPPO)algorithm into the multi-satellite collaborative mission planning problem,providing a new paradigm. Third,it significantly enhances the generalization ability,real-time adaptability,and multiobjective flexibility of the planning policy,overcoming the limitations of traditional methods in scenario adaptability and scalability. The simulation results verify the rationality of the MDP modeling and the effectiveness of the HAPPO algorithm in satellite mission planning,demonstrating the superior performance of the CE-MSCMP framework.
0 引言
搭载光学成像载荷的地球观测卫星(以下简称“卫星”)凭借其大范围覆盖、不受地理边界限制等优势,在农业病害预防、灾害应急响应等领域展现出重要的应用价值[1-2]。随着卫星数量的增加,用户成像需求急剧增长。在此情形下,迫切需要提升多星协同成像任务的规划能力,以最大限度地发挥卫星系统的服务效能,进而满足更多的成像需求。然而,在传统启发式算法和精确算法下的卫星任务规划,存在场景适应性、可扩展性方面的局限[3-5]。
在信息技术迅猛发展的背景下,深度强化学习在组合优化问题的求解中展现出显著成效[6],为解决卫星任务规划难题开辟了新的途径。基于强化学习的卫星任务规划使卫星能够平衡成像、能耗和数据管理[7]。但是,随着地球观测任务越来越依赖多卫星星座,该问题不再局限于单个卫星决策,而是扩展到了多个卫星之间的协调工作,这就需要多智能体强化学习算法(Multi-agent Reinforcement Learning,MARL)。MARL 为多卫星任务中的分散决策提供了框架,其中每个卫星都作为一个独立的智能体运行[8]。早期使用集中式强化学习对卫星星座的研究[9]在可扩展性方面存在困难,并依赖于持续的星间通信,这对于实际任务来说往往不切实际。为了缓解这一问题,文献[10]提出基于 MARL的框架,假设在理想条件下,所有卫星实时共享全局信息。
然而,现有研究工作普遍存在以下两方面的局限性:其一,依赖于卫星间的密集通信;其二,简化了部分关键资源的建模。上述问题分别导致以下后果:1)通信开销过高,难以满足实际任务中的带宽与实时性约束;2)因忽略关键资源限制而掩盖潜在的资源冲突,进而导致任务可行性评估失准。具体而言,一方面,对于 1),在集中式执行架构下,持续通信会引发显著的通信负担,因为各卫星通常仅能基于局部观测进行决策与执行,频繁的信息交换不仅增加延迟,也削弱系统的可扩展性与鲁棒性。另一方面,对于 2),现有仿真普遍采用简化的存储模型,如固定阈值。同时,对电池充放电动态过程的建模缺失,可能导致在轨道阴影区出现能源供给不足的误判,使得仿真中可行的任务在真实运行中因能源耗尽而中断;当代卫星存储能力通常已能够满足基本数据需求,但是受到下行数传带宽等因素限制,在实际系统中存在因缓存溢出而导致的数据丢包问题,目前已有研究人员针对此问题开展研究[11-13],由于该问题偏向于卫星平台硬件设计,与卫星任务规划关联性较小,所以在本文中不展开详细论述。因此,亟需构建一种兼顾建模精确性与执行去中心化的任务规划框架:该框架应在系统建模层面精确刻画卫星的资源约束(如存储容量、能源动态等);同时在执行阶段支持各卫星仅依赖本地观测进行自主决策,无需与其他卫星进行实时通信,从而提升系统在实际空间环境中的可行性与可靠性。
为了有效求解多星环境下的协同对地观测任务规划问题,本文提出了一种面向复杂环境的多星协同任务规划(Complex-Environments Multi-Satellite Collaborative Mission Planning,CE-MSCMP)框架,研究了从卫星场景建模到任务规划策略求解的一系列问题。首先,考虑任务需求、卫星能力、时空约束等复杂约束,建立了多星协同成像任务规划模型。其次,考虑到多智能体系统中存在的异构性、联合空间爆炸以及策略更新的不稳定性等问题,本文采用异构智能体近端策略优化(Heterogeneous Agent Proximal Policy Optimization,HAPPO)算法[14]中集中化训练-去中心化执行(Centralized Training with Decentralized Execution,CTDE)[15]范式的特性进行求解计算,显著增强规划策略的泛化能力、实时适应性与多目标灵活性。实验验证表明,本文提出的 CEMSCMP 框架、在多星协同成像任务规划问题上,比现有的先进方法[16-17]有着更高的收益和更好的稳定性。
1 国内外研究现状
卫星观测任务规划问题是一类多约束组合优化问题,模型的求解空间大。目前国内外的研究者对卫星任务观测规划问题进行的研究主要集中于精确算法和启发式算法。在精确算法方面,文献[18]对双向动态规划改进,提出了一种自适应定向动态规划算法,考虑标签的正反向扩展,依据结果自适应确定方向。文献[3]建立了一个机会约束规划模型,利用抽样近似算法将模型转化为整数规划模型,并设计了一种基于延迟约束生成的分枝切割算法。面对小规模问题时,采用确定性的精确算法可以得到较优解,其问题规模变大后,会带来更复杂的时空条件约束,增大求解难度,甚至无法求解。
在利用启发式算法求解问题方面,目前研究大多集中于元启发式算法或构造启发式算法等[4-5]。文献[19]使用离散粒子群优化算法有效解决了多星任务规划问题。文献[20-21]均采用全局优化与局部优化相结合的策略,首先对问题进行全局搜索生成可行解,进而局部优化提高解的质量。尽管这些基于迭代搜索的元启发式算法能够在中小规模问题上获得较高质量的解,但在面对包含数百乃至上千个任务请求的多星协同成像规划问题时,计算耗时过长依旧是难以克服的挑战,且其性能高度依赖于参数配置与算子设计,难以实现高效调优。构造启发式算法生成的解的质量普遍较低,需要进一步优化,且所依赖的启发式规则在设计过程中依赖于大量专家经验,通用性与可扩展性较差。这些问题导致精确算法和启发式算法在多星协同成像任务规划问题的求解中难以高效、高质量地完成[22]。
然而,卫星任务规划受多目标调度、能源与存储限制以及通信窗口变化等不确定因素影响,传统方法依赖精确的先验模型,在资源异常或环境扰动下往往需要重新规划,适应性有限。本文采用深度强化学习算法,通过与仿真环境的持续交互,在场景中学习能够隐式处理部分复杂约束、动态应对扰动的调度策略。得益于这种数据驱动的学习机制,本文方法所学习的策略在面对新的任务组合或突发情况时,能够在不依赖在线优化求解器的前提下快速给出合理决策,从而提升了规划的泛化能力与实时性。
2 强化学习下的卫星任务规划算法
强化学习算法是一种不断根据环境调整学习并受启发的算法,智能体通过不断地“试错”与环境进行交互,获得反馈并优化自身,相较于传统算法,它能够有效处理高维状态空间、不确定环境以及长期规划目标问题,能更好地应用于卫星任务规划等复杂场景。
目前,在实际工程应用中,传统算法因其准确可靠的调度方案依旧是主流,将强化学习算法与实际工程结合依旧是未来研究的主题,将其放在 5.2展望部分进行讨论。
关于强化学习算法研究,文献[23]最早将策略梯度算法用于旅行商问题。文献[24]在解决车辆路径规划问题时使用近端策略优化算法,根据可观测的环境信息实时做出明智的路由决策。上述研究表明,深度强化学习在解决复杂组合优化问题方面展现出优于传统启发式算法的性能,因此也逐渐被用于卫星任务规划问题[25-27]。文献[28]基于启发式规则建立了深度强化学习的神经网络模型,将此模型用于生成启发式算法的初始解,有效提升了任务规划的收益。文献[29]将监督学习方法与启发式搜索算法相结合,使用神经网络计算每个任务的调度优先级,提升了启发式搜索算法的搜索能力。深度强化学习与启发式算法相结合的方式虽然提高了算法的性能,但仍需大量迭代优化时间。文献[30]提出了一种解决了多星成像任务规划任务执行效率和响应时间的问题。
近年来,MARL 被广泛引入多星协同任务规划以缓解高维耦合与动态环境下的决策难题,但现有研究在异构智能体情形下的建模与协同机制仍显不足:多数方法依赖同构假设或集中式全局信息,难以在异构载荷性能、能量与观测能力差异显著的多星系统中保持稳定收敛与有效协作。文献[31]提出了多智能体深度强化学习(Deep Reinforcement Learning,DRL)框架,但对于异构问题并未进行讨论。典型工作虽提出 CTDE 框架、价值分解或通信增强机制以改善协作能力,但依然面临策略耦合过强导致泛化性降低等局限。
与上述研究不同,本文提出的 CE-MSCMP 框架在无需依赖卫星持续通信的前提下,更全面地建模了卫星的资源约束条件,并采用 HAPPO 算法对异构智能体实现端到端的推理与规划,以追求在泛化能力、实时适应性,以及多目标任务的灵活性方面均有显著提升。
3 多卫星任务规划问题建模
在多星任务规划场景中,多颗卫星需在满足各类约束条件的前提下,给定时间窗口内通过协同任务规划确定其姿态调整与机动策略,其优化目标是依据目标优先级尽可能高效地执行更多观测任务,从而最大化整体任务收益。
本文建立的任务规划马尔可夫决策过程(Markov Decision Process,MDP)模型在单次任务中,状态包含多颗卫星的本体和空间状态信息,状态的变化仅与卫星在上一时间段的本体状态和空间位置有关,而与其他时间段的状态无关,因此满足 MDP 的前提条件。
结合多星协同任务规划场景分析,基于 MDP将该观测任务描述为:每颗卫星按照时间顺序判断接下来的机动状态。若卫星进行观测,则对观测到的目标进行标记,然后对卫星状态进行更新;否则根据卫星动作更新卫星状态。卫星执行动作的奖励由整体观测到的任务目标决定,若新观测到的任务目标优先级高且数量较多,则执行该动作的奖励也越高。当卫星在每一个时间段都做出了动作时,规划决策过程结束。整个规划决策过程的目标是使累计总收益最大。整体多星任务规划 MDP 模型如下:
(1)
1)状态空间 :状态空间描述了在任意时刻 t,所有卫星的本体状态和空间位置信息,由 5 个部分共同组成、共同构成。
(1)卫星内部状态(5 维):,其中,c1t 为存储使用率;b1t 为电池电量;分别为飞轮在空间三维方向上的速度;在传统任务规划建模中,对于卫星本体建模一般包含空间位置信息、资源、存储和载荷机动的角度限制等要素[32]。
在本文中将空间位置信息优化入“(3)成像机会信息”中,并将载荷机动的角度限制优化为飞轮在空间三维方向上的速度限制,当卫星载荷机动时,飞轮的速度增加,并设计了相应的飞轮去饱和动作来防止飞轮速度超过限制,以此来保证卫星载荷的机动能力。这样转变的主要目的在于增强模型的泛化性,便于应对不同种类卫星的规划任务。如果在建模中缺少空间位置信息、资源、存储和载荷机动的角度中任意一项,都会导致任务规划的结果“仿真可行,但不可应用于实际工程中”,特别在面对高功耗任务,数据密集型任务等对于资源或存储有较高要求的任务场景时会使规划的任务不可执行或产生风险。
(2)环境状态(2 维):[chstart,chend ],其中,chstart、chend 分别为卫星充电的开始时间和结束时间。
(3)成像机会信息(2n 维):[,···,],其中,n 为目标数量; 为目标 i的目标优先级;为目标 i的成像开始时间,其成像开始时间的更新过程中涉及卫星空间位置的计算。在状态空间中并未单独建立卫星空间位置维度的主要目的是降低状态空间的总维度,如果将每颗卫星的空间位置信息添加,那么会增加 3n 维(n 为卫星数量)的状态维度,这对于算法的训练带来更多负担,降低训练效率。
(4)地面站通信机会(2m 维):[Gstart1,Gend1,Gstart2,Gend2,···,Gstartm,Gendm],其中,m 为地面站数量;Gstartj为地面站 j的数传通信窗口开始时间;Gendj为地面站 j的数传通信窗口结束时间。
(5)归一化任务时间(1 维)t
归一化时间用于刻画仿真在一个训练回合中的推进程度,每执行一步环境更新,该变量随之增加。在回合结束时,该变量重置为起始值,同时系统状态回到初始场景,以便进行下一回合训练。
每一颗卫星(每个智能体)的状态空间总计有(2m+ 2n+ 8)维构成,表示如下:
(2)
式中:i为卫星编号。
组合状态空间如下:
(3)
式中:N 为卫星数量;状态 决定了所有卫星在一定时间的本体状态和轨道上的位置,进而决定了是否会出现故障和其传感器是否能够观测到地球表面的目标。
对于每颗卫星 k,卫星获取到的观测信息即为状态空间中一个分量,即:Ok= S [ k ]。算法采用CTDE 架构。在训练阶段,各卫星基于场景的全局状态信息更新价值网络,从而为策略网络提供更准确的价值评估,保证策略网络能够学习到更加优质的策略。在执行阶段,各卫星的决策完全基于其本地观测 Ok。执行过程中不需要获得其他卫星的状态信息,也不依赖任何全局观测,从而确保决策过程能够在有限通信的条件下独立运行,使得策略在学习阶段能够充分利用环境信息提高稳定性,而在部署阶段又能满足分布式星座系统的通信限制。
2)动作空间 :动作空间定义了每颗卫星在这一步中执行的 4 种离散动作,总计由(n+ 3) 维构成。
(1)动作 :任务观测-卫星将光学成像传感器指向目标区域进行成像,并将图像存储于星载存储器,其中n 为目标数量,每一个目标 i由一维动作 a1t,i表示;
(2)动作 a2t:数传-卫星在能够观测地面站时即时传输已采集的图像数据,并释放存储空间;
(3)动作 a3t:能源补充-当卫星处于合适位置,且与任务不冲突时,调整卫星姿态能够以最大化太阳能吸收效率补充能源消耗;
(4)动作 a4t:动量轮脱饱和-确保作为姿态控制主执行机构的反作用轮始终在安全运行范围内工作。该动作是为了平衡卫星在执行观测动作后,导致的飞轮速度增加来保证卫星具有持续观测能力。
本文所设计的 4 种动作中只有观测动作会产生具体观测奖励,但其他动作的执行是为卫星的持续工作能力提供保障,如果卫星只执行观测动作,会导致能源、存储空间不足,卫星机动能力下降等问题,进而影响卫星未来任务执行情况,甚至会降低卫星载荷的使用寿命。本文在对动作的设计中并未设定具体优先级,卫星对于在一个时间步执行动作的选择策略是通过在学习中不断“试错”得到的,但整体而言因为只有观测动作存在具体收益,卫星将在保证资源、存储和机动能力正常的情况下,尽可能执行观测动作。
每一颗卫星(每个智能体)的动作空间总计由(n+ 3)维构成,表示如下:
(4)
组合动作空间如下:
(5)
动作 a 直接决定了系统的正常运转(能源情况,存储情况和卫星姿态正常,奖励函数中的惩罚项)和规划结果的情况(奖励函数中的奖励项)以及下一时刻的观测能力。
3)转移函数 T:状态转移函数描述了系统从当前状态 st 执行动作 at 后,经过一个时间步长 Δt,演化到下一个状态 st + 1 的动力学过程。
状态转移整体流程从智能体选择并设置动作为起点,逐步推进至新状态的生成,形成一个完整的闭环。具体流程如下(如图 1 所示):
(1)确认智能体当前状态 st和执行的动作 at;
(2)调用卫星总体控制模块解析动作类型,生成控制指令;
(3)调用卫星基础控制模块,根据控制指令更新姿态、资源、存储、归一化时间等物理量的变化;
(4)调用卫星动力学模块,根据控制指令更新卫星空间位置、时间窗口等信息变化;
(5)记录更新后的姿态、位置、资源、存储等信息,得到下一时刻状态 st + 1 并更新状态空间。
整体过程可以使用式(6)来表示
(6)
式中:f(·)为状态的更新过程。
图
1
状态转移过程
Fig.
1
State transition process
4)奖励函数 R:奖励函数是强化学习智能体的学习目标,它量化了在状态 st 下执行动作 at 并转移到 st + 1 后所获得的即时收益。
(7)
式中:pj为基于目标 j的优先级的奖励。
惩罚设置为成功目标捕获的 100 倍,以防止智能体进入失败状态,失败状态定义为
(8)
即当任意卫星资源被完全消耗或者动量轮超出可承受最大范围,即为卫星损坏,且是不可逆过程。
5)折扣因子 γ:折扣因子 γ 定义了智能体对未来奖励的看重程度。
累计回报:
(9)
在多星协同观测任务中,尽管各次观测任务本身具有同等重要性,但由于观测过程具有时序依赖性,且前期已观测区域可能对后续扫描区域产生影响,导致即时收益对整体性能的影响更为显著。因此,为在强化学习框架中合理权衡当前与未来回报,将折扣因子 γ 取值范围设定为(0,1),以适当增强对即时奖励的重视程度,从而提升策略学习的稳定性与任务执行的时效性。
4 强化学习下的多卫星任务规划问题求解
在本章中,首先详细介绍了基于强化学习的多星任务规划算法,阐述了其核心原理与多星场景的结合应用。随后,构建了仿真训练环境,并对验证场景的关键参数进行了详细设置。在此基础上,开展了系统的仿真实验,并对结果进行了多维度的深入分析。实验结果表明,该算法在任务完成率等方面均展现出优越性能,验证了其在解决多卫星任务规划问题上的有效性与巨大潜力。
4.1 算法介绍
在本节中介绍了近端策略优化(Proximal Policy Optimization,PPO)算法和基于 PPO 算法改进的 HAPPO 算法。
4.1.1 PPO 算法
PPO 算法是一种基于策略的强化学习算法,它可以处理连续动作空间的问题,作为一种在线算法,它需要用当前策略产生的数据,并用这些数据更新策略。因此,PPO 算法不能直接使用经验回放,因为经验回放中的数据可能是由不同的策略产生的,这会导致策略梯度的偏差。
为了解决这个问题,PPO 算法使用了重要性采样(Importance Sampling)来将之前的数据进行多步更新。重要性采样的思想是给每个数据加上一个权重,表示目标策略和行为策略的比例。引入后,PPO 算法可以在一定程度上提高数据的利用效率,而不影响策略梯度的正确性。
PPO 算法具有 3 个重要的创新点:重要性采样、剪切机制(Clip)、优势估计技术。
1)重要性采样
策略梯度目标函数为
(10)
式中:A(s|a)为优势函数,衡量动作的相对价值。
PPO 的目标函数引入重要性采样:
(11)
引入重要性采样提高了样本利用率,也保证了训练的稳定性。
2)剪切机制(Clip)
引入 Clip 函数,构建 Clipped 目标函数:
(12)
Clip 机制:限制 rho t(θ)在[ 1-ε,1+ ε ]区间(通常 ε = 0.2),防止策略突变,裁剪后 ρt(θ)具体选择方式见表 1。
表
1
rho t(θ)选择方式
Tab.
1
Selection method of rho t(θ)
3)优势估计技术
PPO 算法使用广义优势估计(Generalized Ad‐vantage Estimation,GAE)计算优势值:
(13)
式中:δt= rt+ γV (st+ 1)-V(st);λ 控制偏差-方差权衡。
它通过结合多步回报来改进优势函数的估计,从而在减少方差的同时尽量保持偏差不变。GAE的核心思想在于平衡偏差和方差之间的关系。通常情况下,单步的优势估计具有较高的方差和较低的偏差,而使用蒙特卡洛方法计算的多步回报虽然偏差较大但是方差较小。GAE 通过引入一个调节参数 γ(折扣因子)和 λ 来权衡这两者,得到一个更稳定的估计值。
引入 PPO 算法,在保证训练稳定的前提下,提高数据的利用效率,单智能体问题可通过该方法高效求解,然而在面对多智能体问题时则表现出明显的局限性。
4.1.2 HAPPO 算法
由于在多智能体系统中存在的异构性、联合空间爆炸以及策略更新的不稳定性等问题,本文采用HAPPO 算法进行问题求解。
HAPPO 算法构建于 PPO 算法的基础之上,并针对其局限性进行了优化。相较于 PPO 算法,HAPPO 算法有 2 个重要改进:“CTDE 架构”和“优势分解,顺序更新”。
1)CTDE 架构
HAPPO 通过中心化的 Critic 和去中心化的Actor 来实现多智能体的协同训练,并采用 PPO 的优势来提高多智能体环境下的学习效率和稳定性。HAPPO 与 PPO 的区别是在 Critic 部分使用全局状态而不是观测作为输入,而且 Critic 的奖励也使用全局的奖励,相当于 Critic 的输入是全局的状态 s 和全局的动作 a。
即 HAPPO 继承了 PPO 的核心思想,并结合了多智能体系统的特点,采用了 CTDE 的架构。
在训练阶段:目标是最小化全局损失 Ltotal(θ),其中 θ 包含所有智能体的参数,损失计算依赖全局状态 s、联合动作 a=(a1,a 2,⋯,an) 和全局奖励 r。
在执行阶段:每个智能体 i 的动作ai= πi(oi;θi),仅依赖自身观测 oi 和私有参数 θi,其中 πi 为智能体 i 在当前观测 oi 和参数 θi 下的执行策略,动作 ai取决于当前策略 πi。
CTDE 架构的使用可以有效提升算法鲁棒性和环境适应性。
2)优势分解,顺序更新
“优势分解,顺序更新”的实现是先将团队的联合优势函数分解为一系列个体优势函数之和,然后考虑任意一个智能体顺序,每个智能体只需选择动作使得它的多智能体优势函数大于 0,累加后的联合动作的优势就会大于 0,最终获得较好的联合动作。这样的“分解-更新”方式保证了最终策略的优异性。该方式如图 2 所示。
图
2
策略更新方式
Fig.
2
Policy update method
最终 HAPPO 的优化目标是:

(14)
其中,

(15)
式中:中的前一项为当前策略与旧策略的比率;后一项为优势函数,是采用 GAE 方法获得的,是优势函数的估计值,用于衡量动作 a 在状态 s 下的优势;ε 为裁剪的阈值,用于控制策略更新的幅度。
HAPPO 算法实现的伪代码[14]见表 2。
关于 HAPPO 算法的收敛性,本文从两方面进行说明。
1)单调性:HAPPO 算法的单调性可以由上述“优势分解,顺序更新”来保证。在每次前置策略更新中的优势函数不小于 0,后续策略更新都会在前置策略更新的基础上继续保持“优势函数不小于 0”的更新,以此保证整体策略的优异。
表
2
HAPPO 算法的伪代码
Tab.
2
Pseudo-code of the HAPPO algorithm
(16)
式中:为智能体 i 的固定策略,这里的固定策略是寻找最优策略的途径;为其他智能体(不包含智能体 i)的联合固定策略;为在其他智能体策略固定不变前提下,使得智能体 i 收益最大化的策略。由于在 i 这里具有任意性,所以保证了整体的策略最优。
综合以上两方面,可以保证 HAPPO 算法的收敛性。
对于算法复杂度,将 HAPPO 算法与模拟退火(Simulated Annealing,SA)、粒子群算法(Particle Swarm Optimization,PSO)、贪婪算法(Greedy Algorithm)进行了复杂度分析,结果见表 3。其中,N 为卫星数量,n 为目标数量。SA、I、K 为算法内置参数;PSO、I、P、D 为算法内置参数;HAPPO、H 为算法内置参数。从算法复杂度来看 SA、PSO、贪婪算法都与 Nn 相关,计算效率会随着卫星数量和目标数量增加而快速降低;在 HAPPO 算法中,计算效率只与卫星数量有关,在多星多目标任务规划中更具优势。
表
3
算法复杂度
Tab.
3
Algorithm complexity
4.2 仿真场景验证
卫星参数设置:卫星数量为 36;目标数量为 36;卫星最大电量为(200,400)W·h 范围内随机取值,初始取值在(50%,80%)范围内随机取值;卫星电量消耗:基础消耗为 10 W·h,观测时载荷功耗为30 W·h,推进器功耗为 80 W·h;卫星最大存储为(300,500)GB 内随机取值,初始取值在(20%,80%)范围内随机取值;观测目标时存储消耗速率为 1 Mbps;数传速率为 4 Mbps;飞轮最大速度限制为(3 000,6 000)内随机取值,单位为 r/min,初始设置在(-50%,50%)内随机取值。
4.3 算法结果演示
本节通过对比实验验证提出算法的有效性和适用性。
4.3.1 实验设置
实验环境设置如下:操作系统为 Ubuntu 22.04,CPU 为 Intel-Core-i7-14650HX,GPU 为 NvidiaGeforce-RTX4060,在 GPU 上对模型进行训练,实验代码基于 Pytorch 深度学习框架编写,基于 Python3.13 和 Pytorch 1.13 实现。采用模型对卫星观测任务规划问题进行求解,训练的超参数设定如下:训练轮次(epoch)为 20,回合长度(episodelength)为1 350,总步长(num_env_steps)为 70 000。
本文采用多层感知机的架构分别来构建 Actor网络和 Crtic 网络,其中 Actor 网络由 2 层 256 个隐藏单元组成,并采用 ReLU 为激活函数;Critc 网络由2 层 256 个隐藏单元组成,并采用 ReLU 为激活函数,Actor 网络的学习率为 7×10-4,Critic 网络的学习率为 7×10-4。
4.3.2 对比结果
在算法验证实验中,本文以 36 颗卫星与 36 个观测目标的场景作为输入。由于篇幅限制,本文随机选取 3 颗代表性卫星——卫星 0(agent0)、卫星16(agent16)和卫星 23(agent23)——进行结果展示与分析。实验内容包括:不同算法在训练过程中的累积奖励对比,以评估性能优劣;HAPPO 算法下策略网络(Actor)与价值网络(Critic)的损失函数收敛情况,用于反映模型训练的稳定性与学习效率;同时,对所选卫星的本体电量消耗、数传水平以及飞轮使用情况动态变化进行了可视化分析,以直观体现其在任务执行过程中的资源演化行为与运行状态。
采用 HAPPO 算法和多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)算法的回报奖励曲线如图 3 所示,横纵坐标分别表示训练步数 Steps及回报奖励 Return。在性能表现方面,MAPPO 虽然整体呈现上升趋势,但其学习曲线存在显著波动,反映出策略更新过程中性能的不稳定性,易出现策略退化现象。而本文采用的 HAPPO算法所获得的累积奖励呈现阶梯式增长,并最终稳定收敛于约240,显著高于采用MAPPO算法时的收敛值(约200),表明 HAPPO所学习到的策略在最终性能上具有明显优势。从学习效率来看,HAPPO的训练曲线在整个过程中始终位于 MAPPO之上,表明在相同训练步数下,HAPPO能够获得更高的奖励以及更优的样本效率,未出现明显的震荡或性能回退,表明其训练过程具备更强的鲁棒性与稳定性,这可能归因于 HAPPO中的“优势分解”与“顺序更新”机制。
图
3
HAPPO 和 MAPPO 算法训练平均奖励曲线
Fig.
3
Average training reward curves of the HAPPO and MAPPO algorithms
训练的策略网络(Actor)损失(图 4(a))和价值网络(Critic)损失(图 4(b)),横纵坐标分别表示训练步数 Steps 及相应损失 loss。如图 3 所示,在训练初始阶段,智能体的策略网络(Actor)尚未经过有效优化,所采取的动作对应的预期回报较低,导致策略损失值较高;同时,价值网络(Critic)对状态价值的估计存在较大偏差,与实际获得的累积回报相差较远,表现为较高的价值损失。随着训练的推进,智能体通过持续的环境交互与参数更新,逐步学习到能够获取更高累积奖励的策略,策略损失随之快速下降并逐渐趋于稳定,表明 Actor已收敛至一个性能良好且稳定的策略。与此同时,价值损失亦显著降低并稳定于较小数值,说明 Critic 网络已具备对当前策略下状态价值的准确评估能力,从而为策略网络的进一步优化提供了可靠的优势估计与梯度指导。
卫星 0、卫星 16 和卫星 23 的充电使用情况如图 5 所示,去饱和使用情况如图 6 所示和数传使用情况如图 7 所示。
图
4
HAPPO 算法训练 Actor 和 Critic 损失曲线
Fig.
4
Loss curves of Actor and Critic by HAPPO training
图
5
卫星 0、卫星 16 和卫星 23 的充电使用情况
Fig.
5
Charge usage of Satellite 0,Satellite 16,and Satellite 23
图
6
卫星 0、卫星 16 和卫星 23 的去饱和使用情况
Fig.
6
Desaturate usage of Satellite 0,Satellite 16,and Satellite 23
图
7
卫星 0、卫星 16 和卫星 23 的数传使用情况
Fig.
7
Downlink usage of Satellite 0,Satellite 16,and Satellite 23
1)在充电使用情况方面,3 颗卫星都表现出相似的“先升后降再平稳”的模式。这表明在训练初期,算法在探索阶段尝试了较高的功耗,随后学习到更节能的策略,最终稳定在一个中等偏高的用电水平。这是为了平衡任务执行(高耗电)和长期续航(低耗电)的需求。
2)在去饱和使用情况方面,在训练初期,智能体的控制策略非常粗糙,导致卫星姿态不稳定,飞轮积累角动量速度很快,因此需要频繁地进行卸载。通过训练,算法学习到了精细的姿态控制策略。智能体能够通过微调使得卫星在完成任务的同时,自身产生的干扰力矩最小化,从而大幅降低了飞轮饱和的速度。曲线最终稳定在低值,表明卫星几乎不会产生冗余动作,飞轮无需频繁卸载降速。
3)在数传使用情况方面,3 颗卫星都表现出持续下降并最终稳定的趋势,说明经过初期高强度盲目的探索,算法学习到了高效的通信调度策略。
5 结束语
5.1 结论
本文提出 CE-MSCMP 框架,旨在解决复杂空间环境下多星系统协同任务分配的问题。在建模层面,该框架系统性地整合了成像任务的关键约束条件,包括任务需求、卫星平台能力以及严格的时空耦合约束,并将上述约束显式地嵌入强化学习的MDP 建模中。在求解层面,CE-MSCMP 基于HAPPO 算法,采用 CTDE 范式:在训练阶段,利用全局状态信息进行策略优化,以提升协同效率;在执行阶段,各卫星仅依赖本地观测进行自主决策,从而在通信受限条件下有效地完成观测任务分配。实验结果表明,相较于基线方法 MAPPO,CEMSCMP 在训练过程中表现出更稳定的收敛特性,并获得显著更高的累积奖励,验证了其在提升多星协同能力与任务分配效能方面的优越性。
5.2 展望
虽然将强化学习算法与卫星任务规划相结合是目前该领域中的热点问题,但在实际工程应用中,传统算法依旧是主流。以 Sentinel-2 任务为例,其公开技术资料表明:载荷数据通过 X 波段下行链路传输,速率约为 560 Mbit/s;机载数据存储容量在设计寿命末期约为 2.4 Tbit[34-35]。此类系统中固定下行带宽、存储空间以及与地面站可见窗下传窗口等严格的物理约束对于任务规划与调度算法提出了硬性工程要求。传统基于规则进行任务规划的方法,因其依赖确定性模型,能够在满足通信与存储资源约束的前提下产生可验证、可靠的调度方案,能够为实际工程应用提供可靠的理论依据。相比之下,近年来基于强化学习的调度方法虽在仿真环境中已表现出高调度效率与响应速度优势。但由于强化学习方法通常依赖大规模训练,不能保证对实际通信、存储、地面链路不稳定性等工程约束具有严谨可证性。因此若用于像 Sentinel-2 这样具有明确定义资源约束的任务,其工程落地可能面临安全性、稳定性与可认证性风险,这也是将来将强化学习算法应用于实际工程中需要面临的重要难题。