Что происходит
- Новый метод назвали SAC-RND. Он использует две основные идеи, Soft Actor-Critic (SAC) и Random Network Distillation (RND), и эффективно их комбинирует. Результаты исследования представили в июле 2023 года на Международной конференции по машинному обучению на Гавайях, они были признаны мировым научным сообществом.
- Как объясняет Владимир Васильев, академический руководитель программы онлайн-магистратуры Skillfactory и Томского государственного университета «Анализ естественного языка в лингвистике и IT», SAC — это алгоритм обучения с подкреплением, который позволяет агенту обучаться на основе оценки того, насколько хорошо для него определенное состояние или действие. Агент принимает решения на основе того, какие действия приведут к наибольшей награде. RND — метод обучения, который использует две нейросети: случайную и основную. Вторая предсказывает поведение первой. Это позволяет агенту обучаться на основе новизны и исследовать окружающую среду.
- Ранее считалось, что метод RND не подходит для офлайн-обучения роботов с подкреплением, но исследователи Tinkoff Research это опровергли. При RND важно, чтобы у основной сети было больше слоев, чем у случайной, чтобы она могла смоделировать ее поведение. В Tinkoff Research обнаружили, что в прошлых исследованиях случайная сеть состояла из четырех слоев, а основная — из двух. Они исправили глубины сетей, и метод смог различать данные.
- Алгоритм тестировали на робототехнических симуляторах, которые смогли обучиться в 20 раз быстрее, чем по существующим методикам. Помимо этого, качество обучения возросло на 10%.
Что это значит
Обучение роботов с подкреплением (RL) сегодня считается очень перспективным, оно позволяет машинам учиться с помощью проб и ошибок, менять на ходу поведение. RL востребовано во всех сферах: от расследования преступлений до обычных стриминговых сервисов.
Обучение искусственного интеллекта требует больших ресурсов, финансовых и временных, поэтому SAC-RND даст толчок для развития робототехники. Исследователи считают, что благодаря оптимизации обучения можно будет упростить логистику, складские процессы, улучшить экологическую обстановку, сделать беспилотные транспортные средства более безопасными. Кроме того, это открытие поможет быстрее создать универсального робота.
По словам Владимира Васильева, RL-модули сегодня используются в больших языковых моделях. Например, без них ChatGPT и другие нейросети не были бы так развиты и не впечатляли бы пользователей своим прогрессом. А это важно с точки зрения развития общего искусственного интеллекта.
Владимир Васильев:
«Изучение подходов к обучению с подкреплением сегодня актуально. Исследователи данных и технологические компании много экспериментируют в этом направлении. К примеру, мы в программе онлайн-магистратуры по анализу естественного языка планируем затрагивать блок с RL при обучении студентов, поскольку эта область знаний важна для профессионалов в области Data Science по всему миру».