摘要
合成孔径雷达(SAR)在对地、海面成像中占据了重要地位,然而,随着电磁环境的日益复杂,SAR 会受到多样式有源干扰的影响,严重制约 SAR 成像效能。通过对 SAR 发射资源的合理调度,可提升 SAR 的主动抗干扰能力。本文针对多样组合干扰条件下的抗干扰问题,提出一种基于近端策略优化的雷达抗干扰策略生成方法。首先建立 SAR 抗干扰模型,提出基于策略梯度的优化方法,通过将状态空间与动作空间扁平化和奖励函数的设计,解决了雷达高维决策空间下策略生成慢、容易收敛到局部最优的问题。仿真结果表明:与双重深度双 Q 网络相比,显著提高了组合干扰样式下雷达多维发射参数高维决策空间下的策略生成速度,最佳脉冲数提升了 2.86 倍。
关键词
Abstract
Synthetic aperture radar (SAR)plays a vital role in surface imaging of terrestrial and maritime environments. However,with the increasing complexity of the electromagnetic environment,SAR systems are vulnerable to various forms of active jamming,which severely degrade the imaging performance of SAR.To enhance the anti-jamming capability of SAR,effective scheduling of transmission resources is essential. To address the antijamming problem under complex and diverse jamming scenarios,in this paper,a proximal policy optimization (PPO)-based anti-jamming strategy generation method for radar is proposed.An anti-jamming model for SAR is established,and a policy gradient-based optimization framework is developed.By flattening the state and action spaces and carefully designing the reward function,the proposed method effectively mitigates the challenges of slow policy generation and convergence to local optima in high-dimensional radar decision spaces. The simulation results demonstrate that,compared with the dueling double deep Q-network (D3QN),the proposed approach significantly accelerates the policy generation under combined jamming conditions,particularly in high-dimensional transmission parameter decision spaces,with the optimal number of pulses increased by 2.86 times.
0 引言
合成孔径雷达(Synthetic Aperture Radar,SAR)具备全天时、全天候的成像能力,因此成为了对地海面不可或缺的侦察工具[1]。然而,随着电磁环境日益复杂和干扰手段的不断丰富,SAR 系统面临的干扰威胁逐渐加剧[2-3],干扰方的手段日益呈现出高度多样化和动态化的特征,干扰策略灵活多变,且能自适应调整,特别是瞬时频率测量技术,干扰系统中的接收机一旦获取到 SAR 的工作频率,能够产生多样组合的干扰[4-5],这对 SAR 成像造成了严重威胁。
针对抗干扰的问题,近年来许多学者提出了多种干扰抑制方法,主要分为接收端处理和发射端处理 2 大类。被动抗干扰主要体现在对接收端回波数据的处理上,在不改变发射行为的前提下,通过后端信号处理手段来抑制或抵消干扰信号的影响,提高有用信号的可检测性与成像质量。BOLLIAN等[6]从 SAR 图像中估计干扰的协方差矩阵,设计相应的最优自适应滤波器抑制压制干扰。主动抗干扰通过对发射参数和系统资源等的实时调控,在系统层面主动规避或抑制干扰源,具备干扰适应能力强、主动规避干扰的优势。雷达发射参数捷变是使用最广泛的主动抗干扰方法之一,然而早期的研究更多关注于捷变方法本身,并没有针对捷变策略进行讨论。针对压制干扰中的扫频干扰或瞄频干扰,雷达选择频率捷变的方式,在每个发射脉冲主动改变载波的频率,使干扰机难以对雷达进行有效的拦截和干扰,被认为具有更有效的电子对抗措施性能[7-8]。针对欺骗干扰,雷达设计复杂的发射波形参数,使干扰机难以复制波形特征[9-10]。
采取固定频率/波形捷变方式的雷达难以适应环境和干扰机的变化,认知雷达可通过与环境交互实时调整雷达发射参数,从而获得更好的对抗效果。一些研究者引入强化学习(Reinforcement Learning,RL)设计认知雷达抗干扰策略。针对传统随机频率捷变方法无法应对智能化动态干扰的问题,KANG 等[11]基于 Q 学习(Q-learning)与深度 Q网络(Deep Q‐Network,DQN)构建了雷达调频模型,有效提升雷达抗干扰效果。LEI 等[12]利用D3QN 生成抗干扰策略,提升策略的鲁棒性和有效性。FAN 等[13]利用逆强化学习推断干扰机的奖励函数,并以此设计雷达的抗干扰策略。QUAN 等[14]提出一种结合载频和脉冲重复频率同时跳变的捷变雷达设计,并通过压缩感知和稀疏优化提升探测性能。干扰场景愈加复杂时,雷达可选择的策略增多,雷达有较多可选频点和波形,决策空间大,导致训练时间增多。ZHANG 等[15]通过专家演示数据对模型进行预训练,减少智能体训练的时间。ZHANG 等[16]通过改变网络相关参数,加快算法的收敛速度,但仍然存在初始阶段性能较差与收敛阶段性能波动的问题。
上述方法主要依靠估计 Q 值来获得最优策略,但在解决高维决策空间问题中,存在策略生成速度较慢的问题。基于策略梯度的方法可在保证策略更新稳定性的同时提升计算效率,其中信赖域策略优化算法(Trust Region Policy Optimization,TRPO)和近端策略优化(Proximal Policy Optimization,PPO)算法使用尤为广泛[17-18]。
因此,本文针对组合干扰场景下抗干扰参数决策空间大、最优策略求解慢的问题,提出一种基于PPO 的雷达抗干扰策略生成方法。同时,设计奖励函数和动作数量挂钩,减少雷达选择频带和波形数量。该方法在复杂的组合干扰环境下,缩短抗干扰策略生成时间,提升大动作空间情况的抗干扰效果。
本文的其他部分组织如下。第 1 节提出捷变抗干扰模型构建,第 2 节提出基于近端策略优化的抗干扰策略生成算法,第 3 节为仿真实验和结果分析,最后在第 4 节总结全文。
1 抗干扰模型和策略生成优化建模
本节分析组合干扰场景中的 3 种干扰的干扰机理以及干扰策略,提出对应的抗干扰方法。组合干扰对抗场景如图 1 所示,在此场景下,雷达需确定每次脉冲传输的波形参数,干扰机则须决定其拦截和传输状态。图 1 中f、p分别代表雷达选择的发射频点和波形,下标 1、2、3 为不同的波形频点,干扰机侦收后选择相同的波形特征进行发射。
图
1
雷达与干扰机对抗
Fig.
1
Confrontation of radar against the jammer
1.1 捷变抗干扰模型构建
在有源干扰威胁中,压制干扰与欺骗干扰是 2类主要干扰形式[19]。压制干扰是一种覆盖式干扰,其核心思想是在雷达接收频带内发射高功率干扰信号[20]。本文考虑的压制干扰主要为瞄频干扰和扫频干扰。瞄频干扰是指在特定的频率范围内发射高功率噪声或干扰信号,在该频带内压制雷达正常接收回波。扫频干扰假定干扰方通过电子情报系统掌握了雷达的全部可用载波频率,干扰机将随机遍历雷达所使用的频点集合,并在每个频点上停留一个雷达脉冲重复周期时间。扫频干扰频率随时间线性变化,其一个周期内的频率变化可表示为
(1)
式中:fj(t)为干扰信号在时间 t的频率;f start为扫频起始频率;β 为扫频速率。
频率捷变技术可通过其灵活的频点切换机制,有效抗压制干扰[21]。2 种压制干扰如图 2 所示,其中f1、f2、f3 分别为雷达和干扰机波形频点,t 轴数字表示时间步。
图
2
2 种压制干扰
Fig.
2
Two types of suppression jamming
欺骗干扰中的距离假目标干扰与压制式干扰的覆盖式策略不同,是利用数字射频存储(Digital Radio Frequency Memory,DRFM)技术[22]生成与真实目标回波高度相似的虚假信号。在干扰机对时延要求不严格的情况下,假目标欺骗干扰通常采用全脉冲转发式干扰,保留完整的受干扰脉冲信号,经调制后再次发射。本文中采取的转发式干扰策略为重复转发,即为干扰机截获雷达的一个脉冲后,按预设的转发次数连续进行转发,随后再进行下一次侦收。假设雷达发射信号为
(2)
式中:A 为信号幅度;f c 为载波频率;ϕ(t) 为调制相位。
转发器的增益为 G 的重复转发式干扰机接收到该信号后,延迟 τ后重新发射,重复转发干扰如图 3 所示。
(3)
图
3
重复转发干扰
Fig.
3
Repetitive retransmission jamming
传统固定波形发射策略难以有效对抗这类干扰。由于 DRFM 的转发干扰机制依赖于对先前截获信号波形的存储与复制,干扰机通常无法在当前周期内实时转发截获的信号,故可通过波形捷变技术来有效抗干扰[23]。
瞄频干扰提高关键频点的干扰强度,可有效降低 SAR 的接收信干比,进而增加成像结果中的目标识别难度;扫频干扰可通过扩大频率覆盖,增加干扰的命中率;转发干扰则通过连续多个脉冲的侦收转发,在 SAR 的成像结果中产生虚假目标,进一步影响雷达对重点区域的侦察。组合干扰在时间、频率和目标空间上形成多维压制,提高抗干扰雷达的资源消耗和判断复杂度。
综上,雷达与组合干扰的对抗如图 4 所示。
图
4
雷达与组合干扰对抗
Fig.
4
Confrontation of radar against composite jamming
1.2 认知成像雷达抗干扰策略优化建模
根据上述对干扰机侦收/发射模式和 SAR 发射模式的建模可知,SAR 抗干扰问题的本质是雷达需学习干扰机侦收/发射干扰的模式,以此来决策发射信号的频点和波形。SAR 认知抗干扰的基本思路为:雷达通过学习干扰机的侦收/发射模式得到抗干扰策略,然后根据抗干扰策略发射不同特征的信号,从而获取最佳的侦察效果。上述认知抗干扰策略生成本质上可表示为马尔科夫决策过程(Markov Decision Process,MDP)模型[24]。SAR 和干扰机的交互过程可表示为一个四元组{,,,}[25],式中 、、 和 分别对应干扰机的侦收/发射模式、雷达的工作模式、干扰侦收/发射模式的转移概率和瞬时奖励。
本文定义 SAR 有不同的波形和频点可以选,因此设动作空间为 ,频点集合为={ f1,f2,⋯,fi},其中 i 为可选频点数量,波形集合为 ={ w1,w2,⋯,wj},其中 j 为可选波形数量,则动作空间定义为频点与波形的笛卡尔积:= × 。每个动作 a ∈ 可唯一映射为一个一维离散动作编号ak ∈{ 0,1,⋯,i ⋅ j-1}。干扰机发射的脉冲集合即状态空间实际上与上式一致。但由于干扰机可在侦收和发射模式之间切换,因此设额外观察状态集合为 ={ o},状态集合为 = × × 。
奖励函数可衡量在 t时刻,SAR 根据当前的干扰机状态 st采取动作 at的好坏。因此,奖励函数的设计决定抗干扰策略生成的效率与质量[14]。SAR 采取动作 at 后,干扰机将从状态 st 切换到 st + 1,同时 SAR 将获得奖励 rt= R(at,st,st + 1)。在本文中,为更有效地引导 SAR 找到最优的抗干扰策略,本文在奖励塑造中引入 2种奖励,以下将对其进行详细说明。
在时刻 t,若雷达动作 at 与干扰机发射波形即环境状态 st 一致,则干扰有效,反之则雷达抗干扰成功,即
(4)
式中:α1 为雷达成功抗干扰的正奖励;α2 为干扰成功的负奖励。
雷达系统的实时性是核心性能指标,频繁的频率捷变和波形捷变会引入显著的硬件重配置延迟和信号处理计算负荷,对硬件来说也是较大的开销。因此,策略应倾向于选择较少的抗干扰的频点和正交波形,最小化不必要的动作切换。本文根据雷达发射波形和频点数量来定义另一种奖励。对于时刻 t,若雷达选择的无意义动作数量增加,则给予负奖励,即
(5)
式中:pt - 1 为 t -1 时刻雷达选择动作数量;pt 为 t 时刻雷达选择动作数量;λ 1 为惩罚系数,鼓励用到较少的动作;λ 2 为鼓励系数,鼓励动作保持稳定,不进行波动。
因此总奖励可表示为
(6)
根据上述的定义,将求解 SAR 抗干扰最优策略问题建模为 MDP 问题,而 RL 是求解 MDP 问题的有效途径。因此,求解最优抗干扰策略转化为 RL任务,将 SAR 看做 RL 任务中的智能体,以此来学习最优的抗干扰策略 π*(at|st)。在 RL 中,智能体的目标是通过与环境持续的交互,最大化累计报酬,即:
(7)
式中:γ 为折扣因子,表示对未来奖励的重视程度,通常为 0.99。
2 基于近端策略优化的抗干扰策略生成算法
求解 RL 问题常用的方法分为基于值的方法和基于策略梯度的方法[26]。基于值的方法需估计状态-动作的价值函数,且利用价值函数指导智能体做出最佳的动作,通过求解最优动作间接求解最优策略的。基于策略梯度的方法直接优化策略参数化的目标函数,通过计算其梯度来迭代改进策略,最终逼近最优策略。由于本文所考虑的 SAR 和干扰机的动作空间数量多,采用 D3QN 这种基于值的方法来求解最优策略的话[27-28],速度较慢极其耗时,因此本文引入近端策略优化(Proximal Policy Optimization,PPO)算法来求解最优策略。PPO 算法是一种基于策略梯度和演员-评论家(Actorcritic)网络更新的强化学习算法。
PPO 通常由 2 个网络组成,策略网络(Actor)负责输出动作概率分布,价值网络(Critic)负责评估状态价值。策略网络从给定状态 st 输出一个概率分布πθ (a|s),表示智能体在该状态下选择动作at 的概率,定义当前策略的行为。
(8)
式中:Ssoftmax 为 softmax 函数;fθ(s) 为策略网络的输出,通过 softmax 输出每个动作的概率。
PPO 的价值函数用于辅助计算策略梯度中的优势函数 Aπ(s,a),进而更新损失函数中的 critic 部分。
PPO 的工作原理是应用梯度上升算法来估计策略的梯度。具体而言,通过在环境中执行策略来获取策略损失 J(θ)及其梯度,然后使用蒙特卡洛方法来估计这些梯度。策略损失可表示为

(9)
式中:π 为策略网络,其参数为 θ;R(st,at) 为 rt 的随机过程。
策略梯度可表示为
(10)
PPO 算法的主要挑战是降低梯度估计值的方差,这可通过用优势函数 Aπ(s,a)来代替式(7)中的R(st,at)来实现。根据优势函数重新表示奖励:
(11)
式中:Qπ(s,a)为状态-动作价值函数;Vπ(s)为表示状态价值函数。
优势函数用于衡量在某一状态下采取某一行动的质量。
PPO 的核心思想在于优化策略,同时限制新策略与旧策略之间的差异,以确保训练过程的稳定性。为解决稳定性的问题,TRPO 引入信赖域的概念,通过对策略更新的范围施加约束,确保每次参数调整的幅度在可控范围内[29]。

(12)
式中:θ old 为更新前的策略参数; 为在旧策略 θ old下的状态分布;为在旧策略下的优势函数;DKL 为库尔贝克-莱布勒散度(Kullback-Leibler divergence,KL 散度);δ 为用于限制策略更新范围的常数。
虽然 TRPO 能有效限制策略更新的范围,提高学习的稳定性,但其计算复杂度较高。求解 TRPO的优化问题需进行复杂的约束优化,通常需使用共轭梯度法等迭代算法,使得 TRPO 在实际应用中效率较低。PPO 通过引入简单的裁剪(PPO-CLIP)机制,避免复杂的约束优化问题,从而在保证学习稳定性的同时,提升计算效率。PPO-CLIP 的目标函数可表示为
(13)
式中:为优势函数的估计值;rt(θ) 为新策略πθ(at|st) 和旧策略 πold(at|st) 的比值即 rt(θ)=,1-ε,1+ ε)为 rt(θ)的大小被约束在 1-ε和 1+ ε之间。
PPO 的两网络协作如图 5 所示,通过引入 clip函数限制目标函数的更新值,该算法试图避免因过度的策略更新而引发的训练不稳定问题。这种方法确保新策略不会偏离旧策略太远,从而保证学习过程的稳定性。此外为提高样本效率,利用旧样本进行多次策略更新。价值函数和优势函数用于评估策略的质量,并提高学习效率,使得所提出的算法能更有效地估计每个状态和动作的价值。为提高数据效率,PPO 算法利用旧策略生成的轨迹来估计目标函数并计算梯度(可视为重要性抽样)。对比值rt(θ)进行裁剪,以防止旧策略和当前策略之间存在过大差异,从而增强算法的稳定性。式(13)中的最小操作使 L(θ) 成为未裁剪函数的下界,如L(θ)提高,未裁剪函数也会得到改善。
图
5
PPO 算法中的两网络协作
Fig.
5
Schematic of dual-network collaboration in the PPO algorithm
3 仿真试验及结果分析
本节通过数值模拟来评估所提出的抗干扰策略生成方法的有效性。首先给出仿真基本参数和网络相关参数,对比分析 PPO 算法和 D3QN 算法[27-28]在3 种不同干扰场景和不同动作空间大小下的性能。随后,对 SAR 的抗干扰策略进行可视化分析。
因 PPO 算法对正向奖励的敏感性,网络初始学习率设置的比较大,随着学习逐渐变小。PPO 策略网络的初始学习率为 0.001 5,价值网络初始学习率为 0.003;折扣因子 γ 为 0.99,注重未来的奖励;广义优势估计(Generalized Advantage Estimation,GAE)的权重 λ为 0.9;clip 系数为 0.15,用于限制策略变化的幅度。其余具体参数见表 1。
3.1 仿真 1:不抗组合干扰策略生成结果
雷达采用 PPO 算法生成策略前后的动作选择情况对比如图 6 所示,验证了 PPO 的策略可达到最优。以 6 种可选波形和 6 个可选频点为例,即 36 个动作空间,分别用频率和波形 2 个维度画图。频率维度的策略生成前后的表现分别如图 6(a)、图 6(b)所示,即扫频干扰和瞄频干扰。由图 6(a)、图 6(b)可知,在策略生成前雷达在时刻 2、7 受到瞄频干扰影响,在时刻 11 受到扫频干扰影响;在策略生成后,雷达完美避开扫频干扰和瞄频干扰,没有受到其影响。同一频点下的波形维度的策略生成前后的表现分别为如图 6(c)、图 6(d)所示,即全转发式干扰。由图 6(c)、图 6(d)可知,在策略生成前,雷达在时刻3、4、10 和 11 受到转发干扰影响;在策略生成后,雷达及时进行波形捷变,没有受到转发干扰影响。综上,基于 PPO 生成的雷达抗干扰策略已达到最优。
表
1
仿真参数
Tab.
1
Parameters for the simulation
图
6
抗干扰策略生成前后雷达动作对比
Fig.
6
Comparison of radar actions before and after the generation of anti-jamming strategies
本文要求雷达使用尽可能少的频点和波形,因此定义最佳脉冲数为雷达可成功抗干扰又较少变动的脉冲数量。仿真对比在转发干扰、扫频干扰和瞄频干扰的组合干扰场景下,对于不同可选频点和波形数量的基于 PPO 和 D3QN 算法生成抗干扰策略的最佳脉冲数,见表 2。
表
2
最佳脉冲数对比
Tab.
2
Comparison of optimal pulse counts
由表 2 可知,随着可选波形和频点变多,基于PPO 的雷达抗干扰策略有着稳定的最佳脉冲数为427 个,而基于 D3QN 的雷达抗干扰策略逐渐下降。且基于 PPO 的雷达抗干扰策略的最佳脉冲数远高于基于 D3QN 的雷达抗干扰策略。
3.2 仿真 2:不同种组合干扰样式对奖励收敛曲线的影响
雷达在可选频点为 6 个、可选波形为 6 个时不同组合干扰场景下的 PPO、D3QN 和随机策略的奖励收敛情况对比如图 7所示。转发式干扰、扫频干扰和瞄频干扰叠加在一起的组合干扰如图 7(a)所示,图 7(b)和图 7(c)为各减少一种干扰类型分别为转发干扰、瞄频干扰和扫频干扰、瞄频干扰。由图 7可知,随着场景变得复杂,D3QN 的奖励曲线越来越震荡且收敛效果逐渐变差,而 PPO 的奖励曲线无论是最后的收敛值,还是收敛速度都未受到场景的影响。
图
7
3 种干扰场景下 PPO 和 D3QN 的奖励收敛对比
Fig.
7
Reward convergence comparison between PPO and D3QN in three jamming scenarios
3.3 仿真 3:不同的可选频点、波形数量对奖励收敛曲线的影响
在实际应用中,雷达的可选频点数与正交波形数通常尽可能多,以进一步增加干扰机实施干扰的决策难度,但这会显著增大雷达的发射参数决策空间。因此在本文仿真中,对比了不同可选频点数、正交波形数下 PPO 与 D3QN 的奖励收敛情况。不同的可选频点、波形数量下 PPO 和 D3QN 奖励的收敛情况对比如图 8 所示。图 8 中对应动作空间数量分别是 36 个、64 个和 100 个。由图 8 可知,随着动作空间数量变大,PPO 的奖励收敛情况没有受到明显的影响,而 D3QN 最终收敛值不断下降,收敛曲线也越来越动荡。
仿真结果表明:在复杂干扰环境也就是高维决策空间的情况下,PPO 奖励的收敛性能优于D3QN。
图
8
3 种不同动作数量场景下 PPO 和 D3QN 的奖励收敛对比
Fig.
8
Reward convergence comparison of PPO and D3QN under three action space scenarios
4 结束语
本文针对组合干扰场景下抗干扰参数多、雷达决策空间大、最优策略生成慢的问题,提出一种基于 PPO 的 SAR 抗干扰策略生成方法,用于在大动作空间下快速生成认知 SAR 抗干扰策略。在 MDP框架内对认知 SAR 进行建模,并使用 PPO 算法指导最优抗干扰策略的搜索。综上,所提的方法能够针对复杂的动作空间生成合适的抗干扰策略,减少最优抗干扰策略的生成时间,最佳脉冲数提升了2.86 倍以上,对提升认知 SAR 抗干扰与自适应能力具有重要价值。在未来的研究中,可将干扰机也进行智能化建模,更加全面地考虑干扰机行为模式,进一步提升认知 SAR 的抗干扰性能。