基于强化学习的载人月球车轨迹跟踪及稳定控制
doi: 10.19328/j.cnki.2096‐8655.2026.01.015
谷程鹏 1, 2 , 张文奇 1, 2 , 寿星 1, 2 , 王卫军 1, 2 , 施飞舟 1
1. 宇航空间机构全国重点实验室,上海 201108
2. 上海宇航系统工程研究所,上海 201109
Path Tracking and Stability Control of Lunar Rover Vehicles Based on Reinforcement Learning
GU Chengpeng 1, 2 , ZHANG Wenqi 1, 2 , SHOU Xing 1, 2 , WANG Weijun 1, 2 , SHI Feizhou 1, 2
1. National Key Laboratory of Aerospace Mechanism, Shanghai 201108, China
2. Shanghai Institute of Aerospace System Engineering, Shanghai 201109, China
摘要
面向载人月球车自动驾驶任务需求,为解决月面低重力、低附着环境下的轨迹跟踪与稳定控制问题,提出一种基于强化学习的线性二次调节控制(LQRC)参数优化策略。首先,基于车辆动力学模型设计线性二次调节(LQR)控制器,对前后轮转向角和附加横摆力矩进行控制,融合预瞄点误差模型以适应月球车转向机构动态响应约束;其次,设计基于柔性动作-评价(SAC)算法的强化学习框架,构造以最优跟踪精度和质心侧偏角为目标的奖励函数,通过训练得到了实时优化 LQR 权重系数和预瞄点距离的智能体;最后,在 Simulink 环境中搭建了整车仿真模型和不同曲率的双移线测试工况。结果表明:强化学习方法相比固定参数控制,其横向位置误差分别减小28.1% 和 59.2%,质心侧偏角分别减小 6.2% 和 29.8%,表示强化学习策略能够显著提升载人月球车跟踪精度和整车稳定性,为在月面复杂环境中实现自动驾驶提供了一种解决方案。
Abstract
To meet the requirements of autonomous driving tasks of lunar rover vehicles and address the issues of path tracking and stability control in the lunar surface environment with low gravity and low adhesion,a strategy for optimizing linear quadratic regulator control (LQRC)parameters based on reinforcement learning is proposed.First,an linear quadratic regulator (LQR)controller is designed based on the vehicle dynamics model to control the front and rear wheel steering angles and additional yaw moment,and the preview point error model is integrated to adapt to the dynamic response constraints of the steering mechanism of lunar rover vehicles. Second,a reinforcement learning framework based on the soft actor-critic (SAC)algorithm is developed,and a reward function for achieving the optimal tracking accuracy and the sideslip angle is constructed.Through training,an intelligent agent capable of optimizing the LQR weight coefficients and preview point distance is obtained.Finally,a full-vehicle simulation model and double lane change test conditions with different curvatures are built in the Simulink environment.The results show that,compared with fixed parameter control,the reinforcement learning method reduces the lateral position errors by 28.1% and 59.2%and the sideslip angles by 6.2% and 29.8%,respectively. This indicates that the reinforcement learning strategy proposed in this paper can significantly improve the path tracking accuracy and stability control of lunar rover vehicles,providing a solution for realizing autonomous driving in the complex lunar surface environment.
0 引言
我国将于 2030 年前实现载人登陆月球,并驾驶载人月球车开展月面探测活动。载人月球车承担航天员快速转移、载荷物资高效运输等任务,具备较高的移动速度[1-2]。为解放航天员操作或在应急情况下携带航天员安全返回,载人月球车需要具备自动驾驶功能,提供准确的轨迹跟踪能力。
由于地月环境差异,载人月球车轨迹跟踪控制存在一定的难度。首先,月面低重力导致轮胎垂直载荷减小,轮胎纵向、侧向输出力降低,而整车惯量不变,导致侧向转向响应变差。其次,月壤松软力学特性导致轮壤附着系数降低,月面轮胎力受限,更容易进入饱和区域,当载人月球车进行高速转向、紧急制动等操作时容易出现侧滑、甩尾等问题,导致车辆偏离期望轨迹。最后,载人月球车为线控转向,且受上行质量约束,转向机构功率较低,转向速度低,动态响应存在一定延迟情况。在跟踪部分曲率较大的目标路径时,转向能力难以匹配实际需求。在上述条件约束下,载人月球车需重点解决跟踪精度和整车稳定性问题。
目前,地面智能车辆轨迹跟踪采用的方法主要有比例-积分-微分(Proportional-integral-derivative,PID)控制[3-4]、模糊控制[5-6]、线性二次调节控制器(Linear Quadratic Regulator Control,LQRC)[7-8]、模型预测控制(Model Predictive Control,MPC)[9-10]等。其中,PID 控制无法处理复杂的控制系统,且不同工况需要对参数进行调整。模糊控制高度依赖专家经验,影响控制效果。LQRC 能够解决线性无约束系统的最优控制问题,兼顾跟踪精度和控制平稳性,但无法直接处理非线性系统。MPC 基于滚动时域的在线优化,能显示处理系统约束,鲁棒性更好,但其需在每个周期内求解有限时域的优化问题,对计算能力要求较高。谢宪毅等[11]通过矩阵分块化改变控制时域步长,降低 MPC 算法的计算时间。吴西涛等[12]在 MPC 控制器中添加横摆稳定性判据,利用贝叶斯优化解决轨迹跟踪控制时无人车的横向稳定性问题。ZHANG 等[13]通过粒子群优化 LQR 的权重矩阵,提高跟踪精度。DENG 等[14]利用遗传算法优化 LQR 轨迹跟踪控制器,计算最佳转向角控制输出。部分学者[15-16]则使用神经网络自动调整 LQR 或MPC 控制器参数,获得了更好的适应性和鲁棒性。
随着人工智能的发展,越来越多的研究将强化学习应用到自动驾驶领域中,相关算法包括深度 Q网络(Deep Q-Network,DQN)[17-18]、深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[19-20]、双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient Algorithm,TD3)[21-22]、柔性动作-评价(Soft ActorCritic,SAC)[23-24]等。部分学者将强化学习算法与传统算法进行融合,优化控制效果[25-27]。汪洪波等[28]设计了基于 DDPG 和 TD3 强化学习的变参数MPC 多目标控制策略,实现智能车辆路径跟踪控制系统的参数自适应整定,能够适应不同曲率、不同路面附着系数的工况。张兴龙等[29]将强化学习与滚动时域优化机制融合,提高了计算效率。KUO等[30]应用模糊控制理论并结合强化学习,创建了模糊近端策略优化控制器(Fuzzy Proximal Policy Optimization Controller,FPPO),在更大程度上降低了路径跟踪误差。部分学者直接应用强化学习算法[31-33],设计了与跟踪精度、稳定性相关的奖励函数,直接输出期望转向角等控制量,实现了较好的控制效果。XIA 等[34]提出一种基于强化学习的自适应跟踪控制器,允许自适应校正来增强网络的稳定性,减小了跟踪误差。WANG 等[35]验证了基于DQN、DDPG、TD3 三种强化学习算法的多目标并行转向协调控制策略,其中 TD3 具备更好的整体性能。
为提高载人月球车在月面自动驾驶时的轨迹跟踪精度和整车稳定性,同时受限于月球车的计算资源及转向能力约束,本文提出一种基于强化学习的 LQRC 参数优化策略。该策略通过融合预瞄轨迹点的 LQR 控制器,对前后轮转向角及附加横摆力矩进行控制,利用 SAC 强化学习算法实时优化LQR 的权重系数及预瞄距离。通过多工况仿真对比,验证了在不同规划路径下,该策略均具备较高的跟踪能力和整车稳定性。
1 整车控制器
1.1 动力学模型
在月面低重力、低附着环境下,载人月球车高速移动时稳定性较差,需要依靠后轮转向及附加横摆力矩提高整车的稳定性。如图 1 所示,建立考虑前后轮转向与横摆力矩控制的 2 自由度模型。
根据受力平衡方程,可以得到关于整车横向距离和航向角的状态方程,即
1 动力学模型
Fig. 1 Dynamics model
y¨=kf+krmvxy˙+(vxkflfkrlrmvx)φ˙+kfmδf+krmδr
(1)
φ¨=krlrkflfIzvxy˙kflf2+krlr2Izvxφ˙+kflfIzδfkrlrIzδr+1IzM
(2)
式中:m 为整车质量;v x 为纵向车速;kfkr 为前后轮的侧偏刚度;lflr 为前后轴距;I z 为整车绕 z 轴的转动惯量;δfδr 为前后轮转向角;M 为附加横摆力矩;y 为横向距离;φ 为航向角。
考虑 e 1 为横向距离误差,e 2 为航向角误差,建立误差模型。
期望横向加速度为
ayd=vxφ˙d
(3)
横向加速度误差为
e¨1=ayayd=y¨+vx(φ˙φ˙d)
(4)
横向速度误差为
e˙1=y˙+vx(φφd)
(5)
航向误差为
e2=φφd
(6)
得到包括横向误差、横向误差率、航向误差、航向误差率的状态方程
X˙=AX+Bu+Cφ˙d
(7)
其中,
A=[01000kf+krmvxkf+krmvxkflfkrlrmvx00010krlrkflfIzvxkflfkrlrIzkflf2+krlr2Izvx]
B=[000kfmkrm0000kflfIzkrlrIz1Iz],C=[0vxkflfkrlrmvx0kflf2+krlr2Izvx]X=[e1e˙1e2e˙2]T,u=[δfδrM]T
式中:φd 为期望航向角;φ˙d 为期望横摆角速度。
1.2 实时误差计算
载人月球车转向机构的转向速度低,动态响应慢。若目标轨迹曲率过大,将导致月球车需要一定的时间来达到较高的转向角度,造成该时间内的位置偏移增大。因此,考虑融合预瞄轨迹点作为跟踪目标点,月球车提前做出转向动作,避免转向延迟情况。如图 2 所示,根据当前实时位置与目标轨迹的关系,以预瞄距离 ΔL 计算实时状态误差。
2 预瞄点状态误差
Fig. 2 State error of the preview point
横向误差为
e1=dycosφddxsinφd
(8)
坐标误差变化率为
dx˙=vxcosφvysinφvxcosφd
(9)
dy˙=vxsinφ+vycosφvxsinφd
(10)
则横向误差率为
e˙1=vxsin(φφd)+vycos(φφd)=vxsine2+vycose2
(11)
航向误差率为
e˙2=φ˙φ˙d=φ˙vxkd
(12)
式中:φ˙为整车实际横摆角速度;φ˙d为期望横摆角速度;k d 为预瞄点的曲率。
1.3 LQR 控制器
考虑到月球车的计算能力限制,整车控制采用 LQRC 算法,能兼顾控制效果和解算速度。其核心是通过最小化“状态偏差+控制输入能耗”组成的二次型性能指标,实现最优控制。控制器目标应使横向跟踪误差和质心侧偏角最小,从而定义状态目标函数
J(X)=q1e12+q2y˙2=q1e12+q2(e˙1vxe2)2=XTQX
(13)
其中,
Q=[q10000q2q2vx00q2vxq2vx200000]
得到 LQRC 最优目标函数
J(X,u)=t=0XTQX+uTRu
(14)
式中:Q 为状态权重系数;R 为控制量权重系数。求解黎卡提方程后得到正定矩阵 P,从而推导出最优控制量为
u=R1BTPX+uff
(15)
式中:uff为前馈控制量,使系统的稳态误差为零。
通过求解稳态公式,同时考虑稳态时附加横摆力矩为零,得到前后轮的稳态转向角为
uff(1)=lfkd+lrmvx2kdkf(lf+lr)
(16)
uff(2)=lrkd+lfmvx2kdkr(lf+lr)
(17)
2 基于强化学习的LQRC参数优化策略
2.1 强化学习算法
强化学习是机器通过与环境交互来实现目标的一种计算方法。机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变,并且将相应的奖励反馈和下一轮状态传回机器。机器智能体通过最大化累积奖励,不断优化动作决策[36]
常用的强化学习算法包括 Q-Learning、DQN、DDPG、TD3、SAC 等。其中,SAC(Soft ActorCritic)是一种先进的强化学习算法,属于策略-评价方法的变体,特别适合处理连续动作空间。结合双Q 网络和目标网络,降低训练波动,并通过引入最大熵强化学习的思想,解决了许多传统算法中的稳定性和探索问题。同时,该算法使用离线经验池,样本学习效率高。SAC 算法流程见表 1
1 SAC 算法流程
Tab. 1 Calculation flow of the SAC algorithm
2.2 策略框架
考虑月面未知环境,载人月球车自动驾驶的目标轨迹存在不同曲率,导致整车控制器的权重系数等参数难以适应多种工况。为了消除载人月球车面对不同规划路径存在的控制器性能下降问题,通过强化学习方法参数整定 LQR 控制器,从而进一步提高月球车轨迹跟踪精度和整车稳定性,其策略如图 3 所示。
强化学习智能体根据整车实时状态,输出 LQR控制器的部分参数,由 LQR 控制器解算出反馈转向角和附加横摆力矩。其中反馈转向角与前馈转向角相加得到最终的期望转向角。构建转向电机的角度响应模型,从而模拟转向执行机构的延迟响应特性。智能体根据整车反馈的奖励情况,不断寻找最优参数,从而实现最小化路径跟踪误差及质心侧偏角。
3 基于强化学习的 LQR 整车控制
Fig. 3 LQR vehicle control based on reinforcement learning
2.3 强化学习设置
2.3.1 状态空间
状态空间除了整车状态参数外,智能体还需要根据目标轨迹曲率情况,制定相应策略。目标轨迹的曲率考虑以未来一段距离内的平均曲率作为状态参数,即取状态空间为 s=(e1,e˙1,e2,e˙2,k¯d)。其中e1,e˙1,e2,e˙2,k¯d分别为横向位置误差、横向速度误差、航向角误差、航向角速度误差、平均轨迹曲率。综合考虑车速及转向机构延迟,取最近轨迹点后 1m 内的平均曲率。
2.3.2 动作空间
动作空间即需要智能体优化的 LQR 控制器参数。考虑到状态权重系数 Q 和预瞄点距离 ΔL 对控制效果的影响更大,故在尽量不影响跟踪性能和稳定性的情况下,取其他参数为固定值,动作空间为a=(q 1q 2,ΔL)。LQR 控制器参数见表 2
2 LQR 控制器参数
Tab. 2 Parameters of the LQR controller
2.3.3 奖励函数
奖励函数用于衡量智能体动作的好坏,最大化累积奖励是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。不同奖励项的权重系数越高,表明该项的重要性越高。因此,设计合理的奖励函数对智能体能否找到最优策略起到至关重要的作用。
在载人月球车自动驾驶过程中,安全是第一要素,首要需确保准确跟踪目标轨迹,从而避免与路径外的障碍物发生碰撞。同时,考虑到航天员的乘坐安全性,需降低质心侧偏角,提高驾驶稳定性。综合考虑上述因素及收敛快速性,奖励函数(reward)设置为k1e14k2β4
目标轨迹的跟踪精度需求为 0.2 m,同时根据地面经验,考虑质心侧偏角约在 5°范围内时具有较好的稳定性。以此考虑 2 个指标的权重,取权重系数 k 2 为 1,权重系数 k 1 为 400 000。
2.3.4 强化学习参数
SAC 智能体训练时的参数见表 3,实际训练时调整相关参数从而获得最佳的训练效果。
3 强化学习参数
Tab. 3 Parameters for reinforcement learning
3 仿真分析
3.1 仿真模型设置
为验证上述基于强化学习的 LQRC 参数优化算法的有效性,在 simulink 环境中搭建控制模型和动力学模型,如图 4 所示。图 4 中,trajref 为目标轨迹,observation 为强化学习的状态空间,action 为动作空间,isdone 表示是否结束单次训练。设置月球车参数,见表 4
3.2 仿真结果
3.2.1 LQR 控制
按照月球车的车速情况,设置双移线测试轨迹,仿真设置是否附加横摆力矩控制及是否融合预瞄点,结果如图 5 所示。
4 整车仿真模型
Fig. 4 Vehicle simulation model
4 整车参数
Tab. 4 Vehicle parameters
图 5 可以看出,无横摆力矩控制时,在前一段路径还能保持较好的跟踪效果,但在后续行驶过程中,横向位置误差逐渐超过 0.4 m,单纯依靠前后轮转向控制已无法支持月球车完成正常的路径跟踪,而且全程质心侧偏角过大,稳定性差。以最近点作为目标点进行跟踪控制时,由于附加了横摆力矩控制,其质心侧偏角同样能保持在较小范围内。但由于转向的滞后性,难以与目标轨迹曲率变化匹配,导致实际轨迹存在一定程度上的延迟,跟踪误差更大。相比之下,采用横摆力矩控制并以 1 m 后的轨迹点作为预瞄点,既能降低质心侧偏角,同时也能实现更小的跟踪误差。
3.2.2 强化学习控制
在同样的双移线测试轨迹下,对比固定控制参数与基于强化学习优化控制参数,结果如图 6 所示。其中,为了选取最优固定控制参数进行对比,取状态系数q 1q 2 约为强化学习输出系数的均值,取预瞄点距离 ΔL 约为大曲率和小曲率工况下强化学习输出距离的均值。通过改变固定控制参数进行仿真对比,确定该组参数为相应工况下较优参数。
5 LQR 轨迹跟踪及稳定控制结果
Fig. 5 Results of path tracking and stability control with the LQR controller
6 基于强化学习的轨迹跟踪及稳定控制结果
Fig. 6 Results of path tracking and stability control based on reinforcement learning
图 6 可以看出,由于均采用了横摆力矩控制,3 种方式下质心侧偏角基本一致。当控制参数固定时,选择 1 m 距离预瞄点时,在所有转向阶段跟踪误差均在 0.1 m 范围内;而选择 1.4 m 距离预瞄点时,尽管能在初始转向阶段减小跟踪误差,但在后续阶段跟踪误差会增大至 0.15 m。从强化学习参数控制结果来看,在直线或小曲率阶段,状态系数q 1 相对较小,预瞄点距离 ΔL 约为零;在需要大曲率转向时,q 1 和 ΔL 均会增大,从而使转向机构与目标曲率相匹配,并显著降低跟踪误差。
考虑进一步增大双移线的曲率,前述固定参数和强化学习智能体则保持不变,对比在新的目标轨迹下的控制性能,结果如图 7 所示。
图 7 可以看出,当目标路径曲率进一步增大后,转向机构需要更早做出动作。此时,选择更远距离预瞄点时,横向跟踪误差会更小,与图 6 结果相反。而从强化学习算法结果来看,相比小曲率的双移线结果,其跟踪误差有所增加,但仍控制在 0.15m 范围内,具有较高的鲁棒性。
7 大曲率双移线控制结果
Fig. 7 Results of path tracking and stability control under the control of double lane change with high curvature
提升控制效果的同时也会带来计算量的增加。在 CPU 主频 3.1 GHz 的计算机上,仿真模型中 LQR控制模块单步需耗时 4 ms,SAC 智能体模块单步需耗时 1 ms,总耗时增加约 25%。目前在工程上,考虑到载人月球车导航避障算法所需的算力资源,整车已使用高性能智能芯片作为处理器,其主频可达1 GHz 以上,采用强化学习的 LQRC 策略计算周期仍能控制在 20 ms 以内,满足工程使用需求。
3.2.3 小结
将上述仿真结果的位置跟踪误差和质心侧偏角数据进行汇总,见表 5
5 位置跟踪误差和质心侧偏角对比
Tab. 5 Comparison of path tracking errors and sideslip angles
表 5 可以看出,当采用横摆力矩控制后,横向位置误差最大值减小了 76%,质心侧偏角最大值减小了 49.8%。相比于最近目标点,融合一定距离预瞄点后,横向位置误差最大值能减小 77.3%,质心侧偏角最大值减小 9.0%。本文提出的基于强化学习的 LQR 控制参数优化策略,相比固定参数,在小曲率双移线工况下,横向位置误差最大值减小 28.1%,质心侧偏角最大值减小 6.2%;在大曲率双移线工况下,横向位置误差最大值减小 59.2%,质心侧偏角最大值减小 29.8%。强化学习方法能够显著提升跟踪精度和整车稳定性,且在难度更大的目标路径下提升效果越明显。
4 结束语
针对载人月球车自动驾驶任务与稳定控制需求,考虑月面低重力、低附着、转向机构响应延迟等条件约束,提出了一种基于强化学习的 LQRC 参数优化策略,实现了在不同规划路径下的轨迹跟踪和稳定控制。通过仿真测试得到以下结论:
1)针对低重力、低附着引起的侧向力下降问题,通过附加横摆力矩控制,能够提升整车的横摆响应,在提升跟踪精度的同时减小质心侧偏角。
2)针对转向机构响应延迟问题,通过融合预瞄点误差,提前做出转向动作,提高了转向时的跟踪精度。
3)强化学习参数优化相比固定参数,轨迹跟踪精度和质心侧偏角均有显著提升,且更能适应不同路径工况,在月面复杂环境中应用的可行性更高。
1 动力学模型
Fig. 1 Dynamics model
2 预瞄点状态误差
Fig. 2 State error of the preview point
3 基于强化学习的 LQR 整车控制
Fig. 3 LQR vehicle control based on reinforcement learning
4 整车仿真模型
Fig. 4 Vehicle simulation model
5 LQR 轨迹跟踪及稳定控制结果
Fig. 5 Results of path tracking and stability control with the LQR controller
6 基于强化学习的轨迹跟踪及稳定控制结果
Fig. 6 Results of path tracking and stability control based on reinforcement learning
7 大曲率双移线控制结果
Fig. 7 Results of path tracking and stability control under the control of double lane change with high curvature
1 SAC 算法流程
Tab. 1 Calculation flow of the SAC algorithm
2 LQR 控制器参数
Tab. 2 Parameters of the LQR controller
3 强化学习参数
Tab. 3 Parameters for reinforcement learning
4 整车参数
Tab. 4 Vehicle parameters
5 位置跟踪误差和质心侧偏角对比
Tab. 5 Comparison of path tracking errors and sideslip angles
罗小桃, 张崇峰, 胡震宇, 等. 我国首次载人月球车任务需求分析[J]. 载人航天, 2019, 25(5): 693-698.
LUO X T, ZHANG C F, HU Z Y, et al. Requirement analysis of the first manned lunar rover in China[J]. Manned Spaceflight, 2019, 25(5): 693-698.
谷程鹏, 张文奇, 韩亮亮, 等. 面向载人月球探测的航天员-多机异构群联合探测方案[J]. 载人航天, 2024, 30(5): 693-702.
GU C P, ZHANG W Q, HAN L L, et al. The conception of astronaut and multi-robots heterogeneous group for joint exploration in manned lunar surface exploration[J]. Manned Spaceflight, 2024, 30(5): 693-702.
ZHENG S, HUANG Z Y, ZHANG E H. Finite-time disturbance observer based parameter self-tuning PID path-following controller design [C]//2021 IEEE International Conference on Unmanned Systems (ICUS). Beijing: IEEE, 2021: 735-740.
ZHANG J Q, ZHANG T, LI G, et al. Path following control based on fuzzy adaptive PID for unmanned vehicle[C]//2020 4th CAA International Conference on Vehicular Control and Intelligence (CVCI). Hangzhou: IEEE, 2021: 502-507.
MA H X, CHEN M, FENG G, et al. Disturbanceobserver-based adaptive fuzzy tracking control for unmanned autonomous helicopter with flight boundary constraints[J]. IEEE Transactions on Fuzzy Systems, 2023, 31(1): 184-198.
WANG Y Y, JIANG B, WU Z G, et al. Adaptive sliding mode fault-tolerant fuzzy tracking control with application to unmanned marine vehicles[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 51(11): 6691-6700.
MENG Y, GAN X, WANG Y, et al. LQR-GA controller for articulated dump truck path tracking system[J]. Journal of Shanghai Jiaotong University (Science), 2019, 24(1): 78-85.
TAN S Q, ZHAO X X, YANG J, et al. A path tracking algorithm for articulated vehicle: development and simulations[C]//2017 IEEE Transportation Electrification Conference and Expo, Asia Pacific (ITEC Asia-Pacific). Harbin: IEEE, 2017: 1-6.
SONG J R, TAO G, ZANG Z, et al. Nonlinear dynamics based trajectory tracking robust control of unmanned ground vehicle [C]//2022 6th CAA International Conference on Vehicular Control and Intelligence (CVCI). Nanjing: IEEE, 2022: 1-6.
XIN P, WANG Z W, SUN H T, et al. Model predictive control of unmanned mine vehicle trajectory tracking[C]//2021 40th Chinese Control Conference (CCC). Shanghai: IEEE, 2021: 4757-4762.
谢宪毅, 王禹涵, 金立生, 等. 基于改变控制时域时间步长的智能车轨迹跟踪控制[J]. 吉林大学学报(工学版), 2024, 54(3): 620-630.
XIE X Y, WANG Y H, JIN L S, et al. Intelligent vehicle trajectory tracking control based on adjusting step size of control horizon [J]. Journal of Jilin University (Engineering and Technology Edition), 2024, 54(3): 620-630.
吴西涛, 魏超, 翟建坤, 等. 考虑横摆稳定性的无人车轨迹跟踪控制优化研究[J]. 机械工程学报, 2022, 58(6): 130-142.
WU X T, WEI C, ZHAI J K, et al. Study on the optimization of autonomous vehicle on path-following considering yaw stability[J]. Journal of Mechanical Engineering, 2022, 58(6): 130-142.
ZHANG Y, GAO F, ZHAO F K. Research on path planning and tracking control of autonomous vehicles based on improved RRT* and PSO-LQR [J]. Processes, 2023, 11(6): 1841.
DENG Z X, ZHANG Y R, ZHAO S E. Distributed intelligent vehicle path tracking and stability cooperative control [J]. World Electric Vehicle Journal, 2024, 15(3): 89.
HUANG Y G, LUO W G, HUANG D, et al. Cascade optimization control of unmanned vehicle path tracking under harsh driving conditions[J]. Journal of Shanghai Jiaotong University (Science), 2023, 28(1): 114-125.
付翔, 刘毅, 万佳琦, 等. 基于 MPC 的轮毂电机驱动车辆轨迹跟踪控制[J]. 汽车工程学报, 2025, 15(1): 81-94.
FU X, LIU Y, WAN J Q, et al. MPC-based trajectory tracking control for vehicles with in-wheel motors[J]. Chinese Journal of Automotive Engineering, 2025, 15(1): 81-94.
林歆悠, 叶卓明, 周斌豪. 基于 DQN 强化学习的自动驾驶转向控制策略[J]. 机械工程学报, 2023, 59(16): 316-324.
LIN X Y, YE Z M, ZHOU B H. DQN Reinforcement learning-based steering control strategy for autonomous driving[J]. Journal of Mechanical Engineering, 2023, 59(16): 316-324.
YANG S G, CHO E H, KIM J, et al. Design of DQNbased path tracking algorithm for robust autonomous driving[C]//2024 5th International Conference on Information and Communication Technology Convergence (ICTC). Nanjing: IEEE, 2024: 1560-1561.
温佳, 梁喜凤, 王永维. 基于 DDPG+MPC 的水稻授粉机器人路径跟踪控制[J]. 农机化研究, 2025, 47(6): 18-25.
WEN J, LIANG X F, WANG Y W. Path tracking control of rice pollination robot based on DDPG+MPC[J]. Journal of Agricultural Mechanization Research, 2025, 47 (6): 18-25.
BASILE G, LECCESE S, PETRILLO A, et al. Sustainable DDPG-based path tracking for connected autonomous electric vehicles in extra-urban scenarios[J]. IEEE Transactions on Industry Applications, 2024, 60(6): 9237-9250.
谢宪毅, 赵鑫, 金立生, 等. 融合深度强化学习与滚动时域优化的智能车辆轨迹跟踪控制[J]. 交通运输工程学报, 2024, 24(6): 259-272.
XIE X Y, ZHAO X, JIN L S, et al. Trajectory tracking control of intelligent vehicles based on deep reinforcement learning and rolling horizon optimization[J]. Journal of Traffic and Transportation Engineering, 2024, 24(6): 259-272.
张炳力, 舍亚飞. 基于深度强化学习的轨迹跟踪横向控制研究[J]. 合肥工业大学学报(自然科学版), 2023, 46(7): 865-872.
ZHANG B L, SHE Y F. Research on lateral control of trajectory tracking based on deep reinforcement learning[J] Journal of Hefei University of Technology(Natural Science), 2023, 46(7): 865-872.
陈良发, 宋绪杰, 肖礼明, 等. 依托平滑强化学习的铰接车轨迹跟踪方法[J]. 哈尔滨工业大学学报, 2024, 56(12): 116-123.
CHEN L F, SONG X J, XIAO L M, et al. Smooth reinforcement learning-based trajectory tracking for articulated vehicles[J]. Journal of Harbin Institute of Technology, 2024, 56(12): 116-123.
HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actorcritic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//International conference on machine learning. Stockholm: Pmlr, 2018: 1861-1870.
XU X, CHEN H, LIAN C, et al. Learning-based predictive control for discrete-time nonlinear systems with stochastic disturbances[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(12): 6202-6213.
PUTHUMANAILLAM G, VORA M, ORNIK M. ComTraQ-MPC: meta-trained DQN-MPC integration for trajectory tracking with limited active localization updates [C]//2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Abu Dhabi: IEEE, 2024: 13592-13598.
KIM T, KIM H J. Path tracking control and identification of tire parameters using on-line modelbased reinforcement learning [C]//2016 16th International Conference on Control, Automation and Systems (ICCAS). Gyeongju: IEEE, 2016: 215-219.
汪洪波, 王春阳, 赵林峰, 等. 基于强化学习的智能车辆路径跟踪变参数 MPC 多目标控制[J]. 中国公路学报, 2024, 37(3): 157-169.
WANG H B, WANG C Y, ZHAO L F, et al. Variableparameter MPC multi-objective control for intelligent vehicle path tracking based on reinforcement learning[J]. China Journal of Highway Transport, 2024, 37(3): 157-169.
张兴龙, 陆阳, 李文璋, 等. 基于滚动时域强化学习的智能车辆侧向控制算法[J]. 自动化学报, 2023, 49(12): 2481-2492.
ZHANG X L, LU Y, LI W Z, et al. Receding horizon reinforcement learning algorithm for lateral control of intelligent vehicles[J]. Acta Automatica Sinica, 2023, 49(12): 2481-2492.
KUO P H, CHEN S Y, FENG P H, et al. Reinforcement learning-based fuzzy controller for autonomous guided vehicle path tracking[J]. Advanced Engineering Informatics, 2025, 65(1): 103180.
焦龙飞, 谷志茹, 舒小华, 等. 自动驾驶路径优化的 RFDDPG 车辆控制算法研究[J]. 湖南工业大学学报, 2024, 38(1): 62-69.
JIAO L F, GU Z R, SHU X H, et al. Research on RFDDPG vehicle control algorithm for autonomous driving path optimization [J]. Journal of Hunan University of Technology, 2024, 38(1): 62-69.
李新凯, 虎晓诚, 马萍, 等. 基于改进 DDPG 的无人驾驶避障跟踪控制[J]. 华南理工大学学报(自然科学版), 2023, 51(11): 44-55.
LI X K, HU X C, MA P, et al. Driverless obstacle avoidance and tracking control based on improved DDPG [J]. Journal of South China University of Technology (Natural Science Edition), 2023, 51(11): 44-55.
贺伊琳, 宋若旸, 马建. 基于强化学习 DDPG 的智能车辆轨迹跟踪控制[J]. 中国公路学报, 2021, 34(11): 336-348.
HE Y L, SONG R Y, MA J. Trajectory tracking control of intelligent vehicle based on DDPG method of reinforcement learning[J]. China Journal of Highway Transport, 2021, 34(11): 336-348.
XIA Q, CHEN P, XU G Y, et al. Adaptive pathtracking controller embedded with reinforcement learning and preview model or autonomous driving[J]. IEEE Transactions on Vehicular Technology, 2025, 74(3): 3736-3750.
WANG H, FENG L, LI S, et al. Multi-objective parallel human-machine steering coordination control strategy of intelligent vehicles path tracking based on deep reinforcement learning [J]. Chinese Journal of Mechanical Engineering, 2025, 38(1): 63.
张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 北京: 人民邮电出版社, 2022: 2-4.
ZHANG W N, SHEN J, YU Y. Hands-on reinforcement learning[M]. Beijing: Posts & Telecom Press, 2022: 2-4.