Học tăng cường PPO để điều khiển mượt mà xe hai bánh

Bài báo này đề xuất một phương pháp học tăng cường (RL) để cải thiện khả năng theo dõi quỹ đạo ở robot di động hai bánh, vốn khó điều khiển do động lực học phi tuyến và các ràng buộc không toàn phương.

15:58 | 05/05/2026

Không giống như các phương pháp truyền thống như điều khiển trượt (SMC), chiến lược được đề xuất sử dụng thuật toán tối ưu hóa chính sách gần đúng (PPO) để ánh xạ trực tiếp vị trí, hướng và sai số theo dõi của robot thành các lệnh vận tốc. Hàm thưởng khuyến khích độ chính xác, chuyển động mượt mà và hiệu quả năng lượng.

Ảnh minh họa

Kết quả mô phỏng cho thấy bộ điều khiển RL đạt được độ chính xác tương đương với bộ điều khiển trượt (SMC) cơ bản trong khi tạo ra đầu vào mượt mà hơn và tránh hiện tượng rung giật. Nó cũng có khả năng khái quát hóa tốt trên nhiều quỹ đạo khác nhau mà không cần hiệu chỉnh lại. Điều này chứng minh RL là một giải pháp thay thế mạnh mẽ, thích ứng cho các phương pháp phụ thuộc vào mô hình, với công việc trong tương lai hướng đến thử nghiệm phần cứng và thiết kế điều khiển kết hợp RL-cổ điển.

Xem chi tiết bài viết tại đây

Đường dẫn bài viết: https://tudonghoangaynay.vn/hoc-tang-cuong-ppo-de-dieu-khien-muot-ma-xe-hai-banh-21137.htmlIn bài viết