Ахмад Авс
Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет) (МГТУ им. Н.Э. Баумана), кафедра Робототехнические системы и мехатроника, аспирант, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Ющенко Аркадий Семенович
д.т.н., профессор, МГТУ им. Баумана, заместитель заведующего кафедрой «Робототехнические системы и мехатроника, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Соловьев Владимир Игоревич
д.э.н., профессор, ООО «ЦИАРС», генеральный директор, 143914, Московская обл., г. Балашиха, ул. Центральная, д. 31; Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования «Московский технический университет связи и информатики» (МТУСИ), заведующий кафедрой «Прикладной искусственный интеллект», Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Материал поступил в редакцию 12 сентября 2023 года.
Аннотация
Статья посвящена разработке и исследованию алгоритмов управления позиционированием автономного необитаемого подводного аппарата (АНПА) с волнообразным движителем с применением методов сквозного глубокого обучения с подкреплением (end-to-end Reinforcement Learning). Проводится обзор и анализ работ, в которых рассматриваются методы обучения с подкреплением, такие как Actor-only, Critic-only и Actorcritic. Подробно рассматривается метод Deep Deterministic Policy Gradient и его внедрение с использованием глубоких нейронных сетей для обучения агента методом Actorcritic. В архитектуре агента были использованы буфер воспроизведения и так называемые целевые нейронные сети для исключения проблемы корреляции наборов данных, которая вызывает нестабильность обучения. В работе предложена адаптивная архитектура для обучения агента перемещению робота из начальной точки в любую целевую, а также добавлен генератор случайных целевых точек на этапе обучения, чтобы избежать необходимости обучить агента заново при изменении целевой точки. Целью обучения является оптимизация стратегии агента путем оптимизации критики и максимизации функции вознаграждения, которая определяется расстоянием от центра масс робота до целевых точек. Таким образом, вознаграждение, которое получает агент, увеличивается, когда робот приближается к целевой точке, и становится максимальным, когда целевая точка достигается с допустимой ошибкой. Приводятся экспериментальные результаты обучения агента при движении на плоскости с применением нелинейной динамической модели робота. Проведенные исследования подтверждают эффективность применения сквозного алгоритма обучения с подкреплением для решения задачи управления автономным подводным аппаратом. В частности, алгоритм показал свою работоспособность в случаях, когда робот обучался с погрешностью более 0,25 метра. Однако, при достижении погрешности менее 0,25 метра, робот достигал целевой точки, но не останавливался, а начинал совершать колебательные движения в её окрестности.
Ключевые слова
Автономный необитаемый подводный аппарат (АНПА), сквозное глубокое обучение с подкреплением, обучение с подкреплением (Reinforcement Learning), функция вознаграждения, буфер воспроизведения, волнообразное движение.
DOI
10.31776/RTCJ.12105
Индекс УДК
004.89:004.4:629.58
Библиографическое описание
Авс Ахмад. Управление положением подводного робота с волнообразным движителем с использованием сквозного глубокого обучения с подкреплением / Авс Ахмад, А.С. Ющенко, В.И. Соловьев // Робототехника и техническая кибернетика. – Т. 12. - № 1. – Санкт-Петербург : ЦНИИ РТК. – 2024. – С. 36-45. – Текст : непосредственный.
Литература