Безопасность цифровых технологий

БЕЗОПАСНОСТЬ ЦИФРОВЫХ ТЕХНОЛОГИЙ

БЕЗОПАСНОСТЬ
ЦИФРОВЫХ ТЕХНОЛОГИЙ

English | Русский

Последний выпуск
№1(116) Январь - Март 2025

ПРИМЕНЕНИЕ АЛГОРИТМОВ DEEP Q-LEARNING И DOUBLE DEEP Q-LEARNING К ЗАДАЧЕ УПРАВЛЕНИЯ ПЕРЕВЕРНУТЫМ МАЯТНИКОМ

Выпуск № 1-2 (97) Январь - Июнь 2020
Авторы:

Евсеенко Алла Александровна,
Романников Дмитрий Олегович
DOI: http://dx.doi.org/10.17212/2307-6879-2020-1-2-7-25
Аннотация

На сегодняшний день в мире бурно развивается такой раздел науки, как «искусственный интеллект». Системы, построенные на основе методов искусственного интеллекта, обладают свойством выполнять функции, которые традиционно считаются прерогативой человека. Искусственный интеллект обладает широким спектром областей исследований. Одной из таких областей является машинное обучение. В данной статье рассматриваются алгоритмы одного из подходов машинного обучения – обучение с подкреплением (англ. reinforcement learning или RL), по которому осуществляются много исследований и разработок в течении последних семи лет. Разработки и исследования по данному подходу в основном осуществляются для решения задач в играх Atari 2600 или в других подобных. В данной статье обучение с подкреплением будет применятся к одному из динамических объектов -  перевернутому маятнику. В качестве модели указанного объекта рассматривается модель перевернутого маятника на тележке, взятая из библиотеки gym, в которой находятся много моделей, которые используются для тестирования и анализа алгоритмов обучения с подкреплением. В статье приводится реализация и исследование двух алгоритмов из данного подхода Deep Q-learning и Double Deep Q-learning. В качестве результата представлены графики обучения, тестирования и времени обучения для каждого алгоритма, на основе которых делается вывод, что желательно использовать алгоритм Double Deep Q-learning, потому что время обучения составляет приблизительно 2 минуты и осуществляет наилучшее управление моделью перевернутого маятника на тележке.


Ключевые слова: нейронные сети, искусственный интеллект, модель перевернутого маятника, python, gym, pytorch, deep q-learning (DQN), double deep q-learning (DDQN), обучение с подкреплением (reinforcement learning или RL).
Для цитирования:

Евсеенко А.А., Романников Д.О. Применение алгоритмов Deep Q-learning и Double Deep Q-learning к задаче управления перевернутым маятником // Сборник научных тру-дов НГТУ. – 2020 – № 1–2 (97). – С. 7–25. – DOI: 10.17212/2307-6879-2020-1-2-7-25.

For citation:

Evseenko A.A., Romannikov D.O. Primenenie algoritmov Deep Q-learning i Double Deep Q-learning k zadache upravleniya perevernutym mayatnikom [Application of Deep Q-learning and Double Deep Q-learning algorithms to the task of control an inverted pendu-lum]. Sbornik nauchnykh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universi-teta = Transaction of scientific papers of the Novosibirsk state technical university, 2020, no. 1–2 (97), pp. 7–25. DOI: 10.17212/2307-6879-2020-1-2-7-25.

Просмотров: 2191