Как стать ML-исследователем: карьерные треки в науке
Об эксперте: Артем Бабенко, руководитель Yandex Research.
Что такое машинное обучение и что в нем делают ученые
Машинное обучение (ML) — это направление искусственного интеллекта, которое занимается созданием алгоритмов и моделей, способных обучаться на данных и принимать решения без явного вмешательства программистов.
Сервисы, построенные на ML, могут быстрее и точнее выполнять задачи, которые раньше требовали много времени и усилий. Сюда относятся, например, различные генеративные модели, создающие текст, изображения или звук, инструменты прогнозирования и рекомендательные системы. Компании используют возможности искусственного интеллекта в том числе для оптимизации своих внутренних процессов: поддержки клиентов, продаж, подбора персонала, работы с документами и маркетинга.
В основе этих сервисов лежат математические модели, которые разрабатывают ученые-исследователи в научных лабораториях: университетах, институтах или профильных отделах крупных IT-компаний. Основная задача ученых — продуцировать научный результат, который позволит улучшить качество моделей машинного обучения. Большую часть их работы занимают непосредственно исследования: поиск новых архитектур нейросетей, решение тех или иных математических задач, возникающих в процессе обучения моделей. Параллельно с этим ученые изучают уже существующие научные статьи по теме и публикуются сами. Еще одна часть задач — улучшение качества готовых продуктов и внедрение в них новых решений и подходов.
Внутри научной сферы в ML можно выделить две специальности — исследовательскую и инженерную.
Research Scientist
Задача ученых-исследователей — формировать научную повестку. Эти специалисты определяют, в какие исследовательские направления будут вкладываться ресурсы, какие задачи будут решаться и каким образом. Здесь требуется визионерский подход и мышление на перспективу. Ученый должен не просто решить ту или иную математическую проблему, а найти подход, который дальше будет полезен в индустрии или для научного сообщества.
Research Engineer
В современном ML критическую роль играет постановка и проведение экспериментов. Проверка научных гипотез требует больших вычислительных мощностей, а время работы суперкомпьютеров обходится дорого. На фоне этого возникла потребность в ML-инженерах: в их зону ответственности входит разработка кода и постановка экспериментов.
Что нужно, чтобы стать исследователем
Работа исследователя — не та специальность, которую можно освоить, пройдя несколько курсов. Она требует и практических навыков, и определенного склада ума.
Что необходимо специалисту:
- Математика. Это база, без нее невозможно разобраться в сложных технических концепциях современных научных исследований.
- Программирование. В МL обычно используют Python. Работа исследователя не состоит из программирования понятных, четко поставленных задач, но сам навык все равно необходим для проверки гипотез и понимания продукта.
- Английский язык. Это универсальный язык общения в науке — он понадобится для чтения и написания научных статей по теме исследования, а еще для общения на конференциях, которые тоже являются частью работы ученого. Сфера меняется очень быстро, поэтому важно следить за новыми публикациями.
- Навыки написания статей и общения с рецензентами. Даже самое качественное исследование может остаться незамеченным, если его не представить должным образом. Умение грамотно описать свои результаты и донести их до коллег — важный аспект научной работы.
При этом техническими навыками требования к исследователю не ограничиваются. В идеале для такой работы нужны:
- Проактивность и отсутствие исполнительского мышления. Важно проявлять инициативу и самостоятельно искать решения. Наука — это область, где нет четких инструкций, поэтому необходимо умение действовать без руководства.
- Умение работать в команде. Современная наука, особенно в сфере ML, это коллективный труд. Поскольку идей у ученых много, а проведение экспериментов — дорогое удовольствие, важно уметь работать вместе, советоваться и распределять задачи. Все заметные научные статьи последнего времени создавались целым коллективом авторов.
- Готовность к неопределенности. Работа в науке сталкивает с задачами, которые никто прежде не решал. Некоторых могут напугать такие вводные, но для других этот фактор наоборот будет вдохновляющим вызовом.
Наука в индустрии vs академическая
Исследования в области машинного обучения (ML) ведутся как в университетах и научных институтах, так и в специализированных отделах крупных компаний. Примером такого индустриального исследовательского отдела является Yandex Research, аналогичные отделы есть, например, в Google (DeepMind) или Microsoft (Microsoft Research). И хотя наука традиционно развивается при университетах (в европейских странах) и научных институтах (в России), сейчас лидирующую роль в исследованиях по искусственному интеллекту все чаще играет именно крупный бизнес. Для этого есть несколько причин:
- Технические ресурсы. Для исследований в ML нужны значительные вычислительные мощности, а стоит это довольно дорого. Цена складывается из стоимости самого оборудования (те же видеокарты, которые постоянно растут в цене) и его обслуживания. В большинстве случае у крупных компаний больше ресурсов для этого.
- Доступ к данным. В ML требуется большой объем данных, на которых модель будет обучаться — бизнес может использовать собственные массивы, которых нет у университетов и научных организаций.
- Актуальность задач. Тесная связка с бизнесом позволяет находить актуальные задачи. Это дает возможность проводить исследования, которые не оторваны от реальности и со временем найдут реальное применение.
С чего начать карьеру ML
С ростом IT-индустрии возникают и вопросы — как войти в эту сферу и быстро получить специальность. Однако путь исследователя занимает в среднем от 4 до 10 лет. Обычно он начинается с получения степени бакалавра в области компьютерных наук или смежной дисциплины, а затем продолжается в магистратуре и аспирантуре. В идеале необходимо образование в сфере прикладной математики и информатики, хотя в профессии (как среди ученых, так и среди разработчиков) можно часто встретить математиков, физиков и людей других технических специальностей.
При этом нужно сразу готовиться к «игре в долгую». Если после бакалавриата и нескольких месяцев стажировки талантливый человек уже может стать неплохим разработчиком, то путь исследователя занимает больше времени.
Начинать карьеру в этой сфере имеет смысл еще во время получения образования. Стоит искать возможности для прохождения стажировок в технологических компаниях, участвовать в тематических проектах во время учебы. При выборе лаборатории для исследований важно обращать внимание на ее влияние на мировое сообщество ML и ИИ: стоит учитывать количество и качество статей, опубликованных на международных конференциях их специалистами, а также на то, как эти исследования трансформируются в реальные продукты.
В научной деятельности необходимо менторство, поэтому самая удачная стратегия — найти научного руководителя, который направит и скорректирует вашу задачу. При этом важно встретить ментора, который поможет студенту вырасти в самостоятельного исследователя, а не просто исполнителя. Но несмотря на эти сложности, наука — сфера, где практически нет ограничений в плане роста, а любой новичок со временем может стать ученым с мировым именем.