摘要
面向载人月球车自动驾驶任务需求,为解决月面低重力、低附着环境下的轨迹跟踪与稳定控制问题,提出一种基于强化学习的线性二次调节控制(LQRC)参数优化策略。首先,基于车辆动力学模型设计线性二次调节(LQR)控制器,对前后轮转向角和附加横摆力矩进行控制,融合预瞄点误差模型以适应月球车转向机构动态响应约束;其次,设计基于柔性动作-评价(SAC)算法的强化学习框架,构造以最优跟踪精度和质心侧偏角为目标的奖励函数,通过训练得到了实时优化 LQR 权重系数和预瞄点距离的智能体;最后,在 Simulink 环境中搭建了整车仿真模型和不同曲率的双移线测试工况。结果表明:强化学习方法相比固定参数控制,其横向位置误差分别减小28.1% 和 59.2%,质心侧偏角分别减小 6.2% 和 29.8%,表示强化学习策略能够显著提升载人月球车跟踪精度和整车稳定性,为在月面复杂环境中实现自动驾驶提供了一种解决方案。
关键词
Abstract
To meet the requirements of autonomous driving tasks of lunar rover vehicles and address the issues of path tracking and stability control in the lunar surface environment with low gravity and low adhesion,a strategy for optimizing linear quadratic regulator control (LQRC)parameters based on reinforcement learning is proposed.First,an linear quadratic regulator (LQR)controller is designed based on the vehicle dynamics model to control the front and rear wheel steering angles and additional yaw moment,and the preview point error model is integrated to adapt to the dynamic response constraints of the steering mechanism of lunar rover vehicles. Second,a reinforcement learning framework based on the soft actor-critic (SAC)algorithm is developed,and a reward function for achieving the optimal tracking accuracy and the sideslip angle is constructed.Through training,an intelligent agent capable of optimizing the LQR weight coefficients and preview point distance is obtained.Finally,a full-vehicle simulation model and double lane change test conditions with different curvatures are built in the Simulink environment.The results show that,compared with fixed parameter control,the reinforcement learning method reduces the lateral position errors by 28.1% and 59.2%and the sideslip angles by 6.2% and 29.8%,respectively. This indicates that the reinforcement learning strategy proposed in this paper can significantly improve the path tracking accuracy and stability control of lunar rover vehicles,providing a solution for realizing autonomous driving in the complex lunar surface environment.
0 引言
我国将于 2030 年前实现载人登陆月球,并驾驶载人月球车开展月面探测活动。载人月球车承担航天员快速转移、载荷物资高效运输等任务,具备较高的移动速度[1-2]。为解放航天员操作或在应急情况下携带航天员安全返回,载人月球车需要具备自动驾驶功能,提供准确的轨迹跟踪能力。
由于地月环境差异,载人月球车轨迹跟踪控制存在一定的难度。首先,月面低重力导致轮胎垂直载荷减小,轮胎纵向、侧向输出力降低,而整车惯量不变,导致侧向转向响应变差。其次,月壤松软力学特性导致轮壤附着系数降低,月面轮胎力受限,更容易进入饱和区域,当载人月球车进行高速转向、紧急制动等操作时容易出现侧滑、甩尾等问题,导致车辆偏离期望轨迹。最后,载人月球车为线控转向,且受上行质量约束,转向机构功率较低,转向速度低,动态响应存在一定延迟情况。在跟踪部分曲率较大的目标路径时,转向能力难以匹配实际需求。在上述条件约束下,载人月球车需重点解决跟踪精度和整车稳定性问题。
目前,地面智能车辆轨迹跟踪采用的方法主要有比例-积分-微分(Proportional-integral-derivative,PID)控制[3-4]、模糊控制[5-6]、线性二次调节控制器(Linear Quadratic Regulator Control,LQRC)[7-8]、模型预测控制(Model Predictive Control,MPC)[9-10]等。其中,PID 控制无法处理复杂的控制系统,且不同工况需要对参数进行调整。模糊控制高度依赖专家经验,影响控制效果。LQRC 能够解决线性无约束系统的最优控制问题,兼顾跟踪精度和控制平稳性,但无法直接处理非线性系统。MPC 基于滚动时域的在线优化,能显示处理系统约束,鲁棒性更好,但其需在每个周期内求解有限时域的优化问题,对计算能力要求较高。谢宪毅等[11]通过矩阵分块化改变控制时域步长,降低 MPC 算法的计算时间。吴西涛等[12]在 MPC 控制器中添加横摆稳定性判据,利用贝叶斯优化解决轨迹跟踪控制时无人车的横向稳定性问题。ZHANG 等[13]通过粒子群优化 LQR 的权重矩阵,提高跟踪精度。DENG 等[14]利用遗传算法优化 LQR 轨迹跟踪控制器,计算最佳转向角控制输出。部分学者[15-16]则使用神经网络自动调整 LQR 或MPC 控制器参数,获得了更好的适应性和鲁棒性。
随着人工智能的发展,越来越多的研究将强化学习应用到自动驾驶领域中,相关算法包括深度 Q网络(Deep Q-Network,DQN)[17-18]、深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[19-20]、双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient Algorithm,TD3)[21-22]、柔性动作-评价(Soft ActorCritic,SAC)[23-24]等。部分学者将强化学习算法与传统算法进行融合,优化控制效果[25-27]。汪洪波等[28]设计了基于 DDPG 和 TD3 强化学习的变参数MPC 多目标控制策略,实现智能车辆路径跟踪控制系统的参数自适应整定,能够适应不同曲率、不同路面附着系数的工况。张兴龙等[29]将强化学习与滚动时域优化机制融合,提高了计算效率。KUO等[30]应用模糊控制理论并结合强化学习,创建了模糊近端策略优化控制器(Fuzzy Proximal Policy Optimization Controller,FPPO),在更大程度上降低了路径跟踪误差。部分学者直接应用强化学习算法[31-33],设计了与跟踪精度、稳定性相关的奖励函数,直接输出期望转向角等控制量,实现了较好的控制效果。XIA 等[34]提出一种基于强化学习的自适应跟踪控制器,允许自适应校正来增强网络的稳定性,减小了跟踪误差。WANG 等[35]验证了基于DQN、DDPG、TD3 三种强化学习算法的多目标并行转向协调控制策略,其中 TD3 具备更好的整体性能。
为提高载人月球车在月面自动驾驶时的轨迹跟踪精度和整车稳定性,同时受限于月球车的计算资源及转向能力约束,本文提出一种基于强化学习的 LQRC 参数优化策略。该策略通过融合预瞄轨迹点的 LQR 控制器,对前后轮转向角及附加横摆力矩进行控制,利用 SAC 强化学习算法实时优化LQR 的权重系数及预瞄距离。通过多工况仿真对比,验证了在不同规划路径下,该策略均具备较高的跟踪能力和整车稳定性。
1 整车控制器
1.1 动力学模型
在月面低重力、低附着环境下,载人月球车高速移动时稳定性较差,需要依靠后轮转向及附加横摆力矩提高整车的稳定性。如图 1 所示,建立考虑前后轮转向与横摆力矩控制的 2 自由度模型。
根据受力平衡方程,可以得到关于整车横向距离和航向角的状态方程,即
图
1
动力学模型
Fig.
1
Dynamics model
(1)
(2)
式中:m 为整车质量;v x 为纵向车速;kf、kr 为前后轮的侧偏刚度;lf、lr 为前后轴距;I z 为整车绕 z 轴的转动惯量;δf、δr 为前后轮转向角;M 为附加横摆力矩;y 为横向距离;φ 为航向角。
考虑 e 1 为横向距离误差,e 2 为航向角误差,建立误差模型。
期望横向加速度为
(3)
横向加速度误差为
(4)
横向速度误差为
(5)
航向误差为
(6)
得到包括横向误差、横向误差率、航向误差、航向误差率的状态方程
(7)
其中,
式中:φd 为期望航向角; 为期望横摆角速度。
1.2 实时误差计算
载人月球车转向机构的转向速度低,动态响应慢。若目标轨迹曲率过大,将导致月球车需要一定的时间来达到较高的转向角度,造成该时间内的位置偏移增大。因此,考虑融合预瞄轨迹点作为跟踪目标点,月球车提前做出转向动作,避免转向延迟情况。如图 2 所示,根据当前实时位置与目标轨迹的关系,以预瞄距离 ΔL 计算实时状态误差。
图
2
预瞄点状态误差
Fig.
2
State error of the preview point
横向误差为
(8)
坐标误差变化率为
(9)
(10)
则横向误差率为
(11)
航向误差率为
(12)
式中:为整车实际横摆角速度;为期望横摆角速度;k d 为预瞄点的曲率。
1.3 LQR 控制器
考虑到月球车的计算能力限制,整车控制采用 LQRC 算法,能兼顾控制效果和解算速度。其核心是通过最小化“状态偏差+控制输入能耗”组成的二次型性能指标,实现最优控制。控制器目标应使横向跟踪误差和质心侧偏角最小,从而定义状态目标函数
(13)
其中,
得到 LQRC 最优目标函数
(14)
式中:Q 为状态权重系数;R 为控制量权重系数。求解黎卡提方程后得到正定矩阵 P,从而推导出最优控制量为
(15)
式中:uff为前馈控制量,使系统的稳态误差为零。
通过求解稳态公式,同时考虑稳态时附加横摆力矩为零,得到前后轮的稳态转向角为
(16)
(17)
2 基于强化学习的LQRC参数优化策略
2.1 强化学习算法
强化学习是机器通过与环境交互来实现目标的一种计算方法。机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变,并且将相应的奖励反馈和下一轮状态传回机器。机器智能体通过最大化累积奖励,不断优化动作决策[36]。
常用的强化学习算法包括 Q-Learning、DQN、DDPG、TD3、SAC 等。其中,SAC(Soft ActorCritic)是一种先进的强化学习算法,属于策略-评价方法的变体,特别适合处理连续动作空间。结合双Q 网络和目标网络,降低训练波动,并通过引入最大熵强化学习的思想,解决了许多传统算法中的稳定性和探索问题。同时,该算法使用离线经验池,样本学习效率高。SAC 算法流程见表 1。
表
1
SAC 算法流程
Tab.
1
Calculation flow of the SAC algorithm
2.2 策略框架
考虑月面未知环境,载人月球车自动驾驶的目标轨迹存在不同曲率,导致整车控制器的权重系数等参数难以适应多种工况。为了消除载人月球车面对不同规划路径存在的控制器性能下降问题,通过强化学习方法参数整定 LQR 控制器,从而进一步提高月球车轨迹跟踪精度和整车稳定性,其策略如图 3 所示。
强化学习智能体根据整车实时状态,输出 LQR控制器的部分参数,由 LQR 控制器解算出反馈转向角和附加横摆力矩。其中反馈转向角与前馈转向角相加得到最终的期望转向角。构建转向电机的角度响应模型,从而模拟转向执行机构的延迟响应特性。智能体根据整车反馈的奖励情况,不断寻找最优参数,从而实现最小化路径跟踪误差及质心侧偏角。
图
3
基于强化学习的 LQR 整车控制
Fig.
3
LQR vehicle control based on reinforcement learning
2.3 强化学习设置
2.3.1 状态空间
状态空间除了整车状态参数外,智能体还需要根据目标轨迹曲率情况,制定相应策略。目标轨迹的曲率考虑以未来一段距离内的平均曲率作为状态参数,即取状态空间为 。其中分别为横向位置误差、横向速度误差、航向角误差、航向角速度误差、平均轨迹曲率。综合考虑车速及转向机构延迟,取最近轨迹点后 1m 内的平均曲率。
2.3.2 动作空间
动作空间即需要智能体优化的 LQR 控制器参数。考虑到状态权重系数 Q 和预瞄点距离 ΔL 对控制效果的影响更大,故在尽量不影响跟踪性能和稳定性的情况下,取其他参数为固定值,动作空间为a=(q 1,q 2,ΔL)。LQR 控制器参数见表 2。
表
2
LQR 控制器参数
Tab.
2
Parameters of the LQR controller
2.3.3 奖励函数
奖励函数用于衡量智能体动作的好坏,最大化累积奖励是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。不同奖励项的权重系数越高,表明该项的重要性越高。因此,设计合理的奖励函数对智能体能否找到最优策略起到至关重要的作用。
在载人月球车自动驾驶过程中,安全是第一要素,首要需确保准确跟踪目标轨迹,从而避免与路径外的障碍物发生碰撞。同时,考虑到航天员的乘坐安全性,需降低质心侧偏角,提高驾驶稳定性。综合考虑上述因素及收敛快速性,奖励函数(reward)设置为。
目标轨迹的跟踪精度需求为 0.2 m,同时根据地面经验,考虑质心侧偏角约在 5°范围内时具有较好的稳定性。以此考虑 2 个指标的权重,取权重系数 k 2 为 1,权重系数 k 1 为 400 000。
2.3.4 强化学习参数
SAC 智能体训练时的参数见表 3,实际训练时调整相关参数从而获得最佳的训练效果。
表
3
强化学习参数
Tab.
3
Parameters for reinforcement learning
3 仿真分析
3.1 仿真模型设置
为验证上述基于强化学习的 LQRC 参数优化算法的有效性,在 simulink 环境中搭建控制模型和动力学模型,如图 4 所示。图 4 中,trajref 为目标轨迹,observation 为强化学习的状态空间,action 为动作空间,isdone 表示是否结束单次训练。设置月球车参数,见表 4。
3.2 仿真结果
3.2.1 LQR 控制
按照月球车的车速情况,设置双移线测试轨迹,仿真设置是否附加横摆力矩控制及是否融合预瞄点,结果如图 5 所示。
图
4
整车仿真模型
Fig.
4
Vehicle simulation model
表
4
整车参数
Tab.
4
Vehicle parameters
由图 5 可以看出,无横摆力矩控制时,在前一段路径还能保持较好的跟踪效果,但在后续行驶过程中,横向位置误差逐渐超过 0.4 m,单纯依靠前后轮转向控制已无法支持月球车完成正常的路径跟踪,而且全程质心侧偏角过大,稳定性差。以最近点作为目标点进行跟踪控制时,由于附加了横摆力矩控制,其质心侧偏角同样能保持在较小范围内。但由于转向的滞后性,难以与目标轨迹曲率变化匹配,导致实际轨迹存在一定程度上的延迟,跟踪误差更大。相比之下,采用横摆力矩控制并以 1 m 后的轨迹点作为预瞄点,既能降低质心侧偏角,同时也能实现更小的跟踪误差。
3.2.2 强化学习控制
在同样的双移线测试轨迹下,对比固定控制参数与基于强化学习优化控制参数,结果如图 6 所示。其中,为了选取最优固定控制参数进行对比,取状态系数q 1 和 q 2 约为强化学习输出系数的均值,取预瞄点距离 ΔL 约为大曲率和小曲率工况下强化学习输出距离的均值。通过改变固定控制参数进行仿真对比,确定该组参数为相应工况下较优参数。
图
5
LQR 轨迹跟踪及稳定控制结果
Fig.
5
Results of path tracking and stability control with the LQR controller
图
6
基于强化学习的轨迹跟踪及稳定控制结果
Fig.
6
Results of path tracking and stability control based on reinforcement learning
由图 6 可以看出,由于均采用了横摆力矩控制,3 种方式下质心侧偏角基本一致。当控制参数固定时,选择 1 m 距离预瞄点时,在所有转向阶段跟踪误差均在 0.1 m 范围内;而选择 1.4 m 距离预瞄点时,尽管能在初始转向阶段减小跟踪误差,但在后续阶段跟踪误差会增大至 0.15 m。从强化学习参数控制结果来看,在直线或小曲率阶段,状态系数q 1 相对较小,预瞄点距离 ΔL 约为零;在需要大曲率转向时,q 1 和 ΔL 均会增大,从而使转向机构与目标曲率相匹配,并显著降低跟踪误差。
考虑进一步增大双移线的曲率,前述固定参数和强化学习智能体则保持不变,对比在新的目标轨迹下的控制性能,结果如图 7 所示。
由图 7 可以看出,当目标路径曲率进一步增大后,转向机构需要更早做出动作。此时,选择更远距离预瞄点时,横向跟踪误差会更小,与图 6 结果相反。而从强化学习算法结果来看,相比小曲率的双移线结果,其跟踪误差有所增加,但仍控制在 0.15m 范围内,具有较高的鲁棒性。
图
7
大曲率双移线控制结果
Fig.
7
Results of path tracking and stability control under the control of double lane change with high curvature
提升控制效果的同时也会带来计算量的增加。在 CPU 主频 3.1 GHz 的计算机上,仿真模型中 LQR控制模块单步需耗时 4 ms,SAC 智能体模块单步需耗时 1 ms,总耗时增加约 25%。目前在工程上,考虑到载人月球车导航避障算法所需的算力资源,整车已使用高性能智能芯片作为处理器,其主频可达1 GHz 以上,采用强化学习的 LQRC 策略计算周期仍能控制在 20 ms 以内,满足工程使用需求。
3.2.3 小结
将上述仿真结果的位置跟踪误差和质心侧偏角数据进行汇总,见表 5。
表
5
位置跟踪误差和质心侧偏角对比
Tab.
5
Comparison of path tracking errors and sideslip angles
由表 5 可以看出,当采用横摆力矩控制后,横向位置误差最大值减小了 76%,质心侧偏角最大值减小了 49.8%。相比于最近目标点,融合一定距离预瞄点后,横向位置误差最大值能减小 77.3%,质心侧偏角最大值减小 9.0%。本文提出的基于强化学习的 LQR 控制参数优化策略,相比固定参数,在小曲率双移线工况下,横向位置误差最大值减小 28.1%,质心侧偏角最大值减小 6.2%;在大曲率双移线工况下,横向位置误差最大值减小 59.2%,质心侧偏角最大值减小 29.8%。强化学习方法能够显著提升跟踪精度和整车稳定性,且在难度更大的目标路径下提升效果越明显。
4 结束语
针对载人月球车自动驾驶任务与稳定控制需求,考虑月面低重力、低附着、转向机构响应延迟等条件约束,提出了一种基于强化学习的 LQRC 参数优化策略,实现了在不同规划路径下的轨迹跟踪和稳定控制。通过仿真测试得到以下结论:
1)针对低重力、低附着引起的侧向力下降问题,通过附加横摆力矩控制,能够提升整车的横摆响应,在提升跟踪精度的同时减小质心侧偏角。
2)针对转向机构响应延迟问题,通过融合预瞄点误差,提前做出转向动作,提高了转向时的跟踪精度。
3)强化学习参数优化相比固定参数,轨迹跟踪精度和质心侧偏角均有显著提升,且更能适应不同路径工况,在月面复杂环境中应用的可行性更高。