Быстрее в 20 раз: ученые открыли новый алгоритм машинного обучения

Фото: Freepik
Фото: Freepik
В исследовательской лаборатории Tinkoff Research открыли новый метод, по которому роботов можно будет обучать в 20 раз быстрее, чем сейчас. «РБК Тренды» разбирались, что это значит для будущего искусственного интеллекта

Что происходит

  • Новый метод назвали SAC-RND. Он использует две основные идеи, Soft Actor-Critic (SAC) и Random Network Distillation (RND), и эффективно их комбинирует. Результаты исследования представили в июле 2023 года на Международной конференции по машинному обучению на Гавайях, они были признаны мировым научным сообществом.
  • Как объясняет Владимир Васильев, академический руководитель программы онлайн-магистратуры Skillfactory и Томского государственного университета «Анализ естественного языка в лингвистике и IT», SAC — это алгоритм обучения с подкреплением, который позволяет агенту обучаться на основе оценки того, насколько хорошо для него определенное состояние или действие. Агент принимает решения на основе того, какие действия приведут к наибольшей награде. RND — метод обучения, который использует две нейросети: случайную и основную. Вторая предсказывает поведение первой. Это позволяет агенту обучаться на основе новизны и исследовать окружающую среду.
  • Ранее считалось, что метод RND не подходит для офлайн-обучения роботов с подкреплением, но исследователи Tinkoff Research это опровергли. При RND важно, чтобы у основной сети было больше слоев, чем у случайной, чтобы она могла смоделировать ее поведение. В Tinkoff Research обнаружили, что в прошлых исследованиях случайная сеть состояла из четырех слоев, а основная — из двух. Они исправили глубины сетей, и метод смог различать данные.
  • Алгоритм тестировали на робототехнических симуляторах, которые смогли обучиться в 20 раз быстрее, чем по существующим методикам. Помимо этого, качество обучения возросло на 10%.

Фото:Unsplash
Индустрия 4.0 Что такое машинное обучение и как оно работает

Что это значит

Обучение роботов с подкреплением (RL) сегодня считается очень перспективным, оно позволяет машинам учиться с помощью проб и ошибок, менять на ходу поведение. RL востребовано во всех сферах: от расследования преступлений до обычных стриминговых сервисов.

Обучение искусственного интеллекта требует больших ресурсов, финансовых и временных, поэтому SAC-RND даст толчок для развития робототехники. Исследователи считают, что благодаря оптимизации обучения можно будет упростить логистику, складские процессы, улучшить экологическую обстановку, сделать беспилотные транспортные средства более безопасными. Кроме того, это открытие поможет быстрее создать универсального робота.

По словам Владимира Васильева, RL-модули сегодня используются в больших языковых моделях. Например, без них ChatGPT и другие нейросети не были бы так развиты и не впечатляли бы пользователей своим прогрессом. А это важно с точки зрения развития общего искусственного интеллекта.

Владимир Васильев:

«Изучение подходов к обучению с подкреплением сегодня актуально. Исследователи данных и технологические компании много экспериментируют в этом направлении. К примеру, мы в программе онлайн-магистратуры по анализу естественного языка планируем затрагивать блок с RL при обучении студентов, поскольку эта область знаний важна для профессионалов в области Data Science по всему миру».

Обновлено 15.08.2023
Главная Лента Подписаться Поделиться
Закрыть