На сегодняшний день в мире бурно развивается такой раздел науки, как «искусственный интеллект». Системы, построенные на основе методов искусственного интеллекта, обладают свойством выполнять функции, которые традиционно считаются прерогативой человека. Искусственный интеллект обладает широким спектром областей исследований. Одной из таких областей является машинное обучение. В данной статье рассматриваются алгоритмы одного из подходов машинного обучения – обучение с подкреплением (англ. reinforcement learning или RL), по которому осуществляются много исследований и разработок в течении последних семи лет. Разработки и исследования по данному подходу в основном осуществляются для решения задач в играх Atari 2600 или в других подобных. В данной статье обучение с подкреплением будет применятся к одному из динамических объектов - перевернутому маятнику. В качестве модели указанного объекта рассматривается модель перевернутого маятника на тележке, взятая из библиотеки gym, в которой находятся много моделей, которые используются для тестирования и анализа алгоритмов обучения с подкреплением. В статье приводится реализация и исследование двух алгоритмов из данного подхода Deep Q-learning и Double Deep Q-learning. В качестве результата представлены графики обучения, тестирования и времени обучения для каждого алгоритма, на основе которых делается вывод, что желательно использовать алгоритм Double Deep Q-learning, потому что время обучения составляет приблизительно 2 минуты и осуществляет наилучшее управление моделью перевернутого маятника на тележке.
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller. Playing Atari with Deep Reinforcement Learning. – URL: https://arxiv.org/abs/1312.5602 (дата обращения: 21.03.2020).
Gym // Официальный сайт проекта Gym [Электронный ресурс]. – URL: http://gym.openai.com/html (дата обращения: 21.03.2020).
Перевернутый маятник [Электронный ресурс]. – URL: http://www.100byte.ru/python/cartPole/cartPole.html (дата обращения: 21.03.2020).
CartPole-v0 // OpenAI Wiki [Электронный ресурс]. – URL: https://github.com/openai/gym/wiki/CartPole-v0 (дата обращения: 21.03.2020).
A. G. Barto, R. S. Sutton, and C. W. Anderson. Neuronlike adaptive elements that can solve difficult learning control problems. – URL: http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf (дата обращения: 21.03.2020).
Hado van Hasselt, Arthur Guez, David Silver. Deep Reinforcement Learning with Double Q-learning. – URL: https://arxiv.org/abs/1509.06461 (дата обращения: 22.03.2020).
Python // Официальный сайт Python [Электронный ресурс]. – URL: https://www.python.org/ (дата обращения: 22.03.2020).
PyTorch // Официальный сайт PyTorch [Электронный ресурс]. – URL: https://pytorch.org/ (дата обращения: 22.03.2020).
Нильсон Н. Искусственный интеллект. — М.: Мир, 1973. — 273 с.
Саймон Хайкин. Нейронные сети: полный курс, 2-е издание. : Пер. с англ. – М.: Издательский дом «Вильямс», 2006. – 1104 с. : ил. – Парал. тит. англ.
Diederik P.Kingma, Jimmy Lei Ba. ADAM: A Method for Stochastic Optimization. – URL: https://arxiv.org/pdf/1412.6980.pdf (дата обращения: 23.03.2020).
R. S. Sutton and A. G. Barto. Introduction to reinforcement learning. MIT Press, 1998.
Видеокарта MSI GeForce GTX 1050 Ti // Официальный сайт msi [Электронный ресурс]. – URL: https://ru.msi.com/Graphics-card/support/GeForce-GTX-1050-Ti-GAMING-4G (дата обращения: 25.03.2020).
Cuda // DEVELOPER ZONE NVIDIA [Электронный ресурс]. – URL: https://docs.nvidia.com/cuda/ (дата обращения: 25.03.2020).
Evseenko A. A. Analysis of the applicability of artificial intelligence methods to solving problems of stabilization of dynamic systems / A. A. Evseenko ; research adviser D. O. Romannikov, language adviser R. A. Chesnokova // Progress through Innovations : тр. 8 междунар. науч.-практ. конф. аспирантов и магистрантов, Новосибирск, 28 марта 2019 г. – Новосибирск : Изд-во НГТУ, 2019. – С. 55–57. – 130 copy. – ISBN 978-5-7782-3848-0.
Романников Д.О. Исследование работы нейронных сетей на примере задачи управления перевернутым маятником // Сборник научных трудов НГТУ. – 2018. – № 1 (91). – С. 95–103.
Евсеенко А.А., Романников Д.О. Применение алгоритмов Deep Q-learning и Double Deep Q-learning к задаче управления перевернутым маятником // Сборник научных тру-дов НГТУ. – 2020 – № 1–2 (97). – С. 7–25. – DOI: 10.17212/2307-6879-2020-1-2-7-25.
Evseenko A.A., Romannikov D.O. Primenenie algoritmov Deep Q-learning i Double Deep Q-learning k zadache upravleniya perevernutym mayatnikom [Application of Deep Q-learning and Double Deep Q-learning algorithms to the task of control an inverted pendu-lum]. Sbornik nauchnykh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universi-teta = Transaction of scientific papers of the Novosibirsk state technical university, 2020, no. 1–2 (97), pp. 7–25. DOI: 10.17212/2307-6879-2020-1-2-7-25.