Học tăng cường PPO để điều khiển mượt mà xe hai bánh
Bài báo này đề xuất một phương pháp học tăng cường (RL) để cải thiện khả năng theo dõi quỹ đạo ở robot di động hai bánh, vốn khó điều khiển do động lực học phi tuyến và các ràng buộc không toàn phương.



