引用本文:赵琛钰,胥彪,宋勋,赵启伦,李爽.跨域拦截弹数据驱动的在线强化学习姿态控制方法[J].上海航天,2024,41(6):39-45.
【打印本页】   【下载PDF全文】     
本文已被:浏览 73次   下载 54
分享到: 微信 更多
跨域拦截弹数据驱动的在线强化学习姿态控制方法
赵琛钰1,2,3,胥彪1,2,宋勋4,赵启伦4,李爽1
1.南京航空航天大学 航天学院,江苏 南京 211106;2.南京航空航天大学 空间光电探测与感知工业和信息化部重点实验室,江苏 南京 211106;3.上海民用航空电子系统有限公司,上海 201100;4.北京电子工程总体研究所,北京 100854
摘要:
针对跨域拦截弹在宽速域、大空域飞行面临动力学建模较难、模型未知的问题,提出一种基于数据驱动的在线强化学习姿态控制方法。受零和博弈的启发,将干扰也当作是系统输入的一部分设计性能指标函数。实际拦截弹控制量输入的目的是最小化性能指标函数,提高系统性能,而干扰的作用则相反。然后,通过构建评价网络在线学习获得相应的近似解,并通过更新权值来动态地处理不确定性。与传统依赖模型的在线强化学习求解方法不同,数据驱动的强化学习方法不再需要拦截弹系统的动态模型信息,而是仅通过系统的输入输出数据来驱动网络进行权值在线学习更新。最终,通过仿真验证了该方法的有效性。
(1.College of Astronautics,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,Jiangsu,China;2.Key Laboratory of Space Photoelectric Detection and Perception,Nanjing 211106,Jiangsu,China;3.Shanghai AVICAS Avionics Systems Co.Ltd.,Shanghai 201100,China;4.Beijing Institute of Electronic System Engineering,Beijing 100854,China)

分享按钮