Почему область Data Science в России развивается медленнее, чем на Западе
Об авторе: Евгений Бурнаев, доцент Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных (CDISE), руководитель научной группы ADASE.
Серьезный дефицит специалистов по машинному обучению сейчас наблюдается во всем мире: спрос на них как никогда высок, программы подготовки не успевают с ним справляться и порой не могут угнаться за быстро развивающейся отраслью. Хорошее свидетельство этого неудовлетворенного спроса и одновременно колоссального интереса к области в России — первое место страны в недавнем Coursera Global Skills Index в области data science.
Data Science — относительно новая отрасль как в России, так и в странах СНГ, в Средней Азии: в том же Казахстане еще лет пять назад почти никто не знал о ней. Зачем в этих условиях специалисту знать больше необходимого минимума в теме машинного обучения? Затем, что для решения многих важных прикладных задач, например, в области оптимизации процессов производства, не всегда подходят стандартные методы, реализованные в общепринятых программных библиотеках. Разработчику требуется четко понимать границы применимости используемых методов.
Недостаточно просто пройти тренинг по тому, как запускать обучение моделей того или иного типа и с помощью обученных моделей строить прогнозы. Требуется понимать основные принципы работы используемых алгоритмов. Кроме того, регулярно появляются новые методы машинного обучения, которые могут решать насущные практические задачи более эффективно, что, в свою очередь, положительно сказывается на основанных на этих методах бизнес-решениях.
Как область Data Science развивается в России и СНГ
В нашей стране небольшое, но сильное сообщество инженеров-ученых, которые занимаются машинным обучением, уже вполне сформировалось. В России в науки о данных традиционно идут выпускники математических и инженерных или ИТ-факультетов основных технических вузов страны. Это и не удивительно — ребята имеют хорошую базовую математическую подготовку по вычислительным методам, теории вероятности и математической статистике, оптимизации, которая необходима для работы в этой области на высоком уровне.
Есть спрос на специалистов такого рода, есть интересные прикладные задачи — все это способствует росту сообщества. Значительная часть молодых специалистов устраивается на работу в компании в соответствующие отделы, но есть и «фанаты», которым интереснее заниматься исследованиями. К счастью, сейчас есть определенные возможности и в академической среде, чтобы развиваться в области наук о данных, занимаясь наукой как в исследовательских отделах крупных компаний, так и в лабораториях при университетах и институтах РАН.
Похожая ситуация наблюдается в Белоруссии и Казахстане: уровень математической подготовки студентов достаточно высок, есть хорошие университеты, команды школьников и студентов часто занимают высокие места на международных олимпиадах. Есть и пространство для индустриальных приложений: например, в Белоруссии ситуация в последние годы очень сильно изменилась, в стране зародился целый ряд всемирно известных компаний, использующих машинное обучение и большие данные, от Viber до Masquerade Technologies, и сейчас продолжают появляться интересные стартапы.
Более того, появилось неформальное сетевое сообщество в области наук о данных — open data science, объединяющее в себе русскоговорящих любителей и профессионалов из России, стран СНГ и Средней Азии. Это сообщество уже насчитывает более 30 тысяч участников, которые общаются на тему науки, технологий и приложений машинного обучения.
Почему мы догоняем, а не опережаем
Часто приходится слышать и отвечать на вопросы о догоняющем развитии отрасли в стране по сравнению с остальным миром. Я считаю, что сейчас важно сконцентрироваться на том, чтобы стать «локальным» лидером в каких-то отдельных типах приложений, областях научных исследований.
Это реализуемо: если в России появятся центры притяжения и научные группы определенных специализаций, как прикладного, так и фундаментального плана, если их количество будет расти, то такое лидерство возможно.
Например, такой областью могут стать приложения машинного обучения в задачах индустриальной инженерии и управления производством. С одной стороны, в России есть достаточное количество хорошо автоматизированных производств, внедрение на которых автоматизации управления на основе машинного обучения могло бы повысить их эффективность. Есть и компании, кто может на себя взять различного рода инженерные задачи, связанные с интеграцией, внедрением решений в бизнес-процессы. С другой стороны, есть молодые коллективы, которые активно развивают новые методы, их промышленную реализацию и решают конкретные прикладные задачи.
Например, международная летняя школа Сколтеха по машинному обучению SMILES как раз ставит своей задачей привлечь тех, кому интересны более фундаментальные аспекты машинного обучения — потенциально те самые точки локального лидерства. Молодому специалисту трудно ориентироваться в этой огромной научной области, и школа должна помочь понять участникам будущие тренды развития машинного обучения и его приложений.
Спрос на специалистов с конкурентоспособной на мировом уровне подготовкой тоже есть. Не только в России, но и в Белоруссии и Казахстане есть и поддержка науки и научных исследований, и рост автоматизации даже в отраслях так называемой «старой школы», от металлургии до сельского хозяйства. Во всех таких компаниях есть потребность в инженерах с высоким уровнем подготовки — рынок растет и требует людей, возникает возможность работать над интересными задачами. А некоторые специалисты смогут уйти и в предпринимательство, создавая стартапы для развития совершенно новых инструментов и приложений. Все это, разумеется, требует уже глубоких знаний, но и сегодня в России есть места, где такие знания можно получить.
Кроме «Яндекса», который довольно рано осознал недостаток в России учебных программ по машинному обучению и стал вкладываться в эту область еще в 2006-2007 годах, своеобразными ядрами кристаллизации профессионального сообщества стали Mail.ru Group, Ozon и другие компании. Они заинтересованы в привлечении сотрудников с такими компетенциями и понимают, что иногда этих сотрудников бывает проще обучить на своей же площадке. Среди университетов можно отметить Сколтех, НИУ ВШЭ, Университет Иннополис, МФТИ. При этом компании и академическое сообщество активно взаимодействуют: программы сезонных стажировок по специальности есть не только в Сколтехе, но и в других учебных заведениях.
Что делать и на кого равняться
Но на ведущих международных конференциях по машинному обучению Россия пока представлена не очень хорошо: у кого-то нет финансирования, необходимого для участия, не все понимают, что это нужно, достаточно мало пишется статей высокого уровня. Количество посетителей конференций из России растет, но их все равно не очень много. Для изменения этой ситуации нужно развивать культуру участия в такого рода мероприятиях. Эта системная проблема решается организационными усилиями, но это не вопрос одного года.
Ситуация с качеством специалистов по машинному обучению в индустрии в целом неплохая, в науке же пока явно не хватает организационной поддержки, в том числе от ее администраторов. Конечно, бизнес тоже мог бы еще активнее поддерживать фундаментальную науку: на западе многие компании вкладываются в совместные лаборатории при университетах и программы обучения, с одной стороны, заранее ориентируя образовательные организации на подготовку нужных специалистов, а с другой, помогая финансировать фундаментальные исследования, которые найдут свое прикладное применение лишь спустя какое-то время.
Например, во Франции даже есть вариант индустриальной аспирантуры. Идея ее в том, что в компании, которой в ее непосредственной работе требуются наукоемкие технологии, формулируются проекты, где присутствует значительная научная новизна, требуется развитие новых методов. Аспирант, поступивший на программу, по сути, работает научным сотрудником в компании и делает исследование с приложениями в интересах этой компании. При этом «наставляет» аспиранта профессор из университета. От такой схемы, как мне представляется, выигрывают все стороны: и аспирант, который решает важную для отрасли задачу, и компания, у которой в результате работы появляется научный задел, и профессор, который может получать от компании дополнительное финансирование для своей научной группы.
Кроме того, господдержка отрасли в рамках программ по развитию технологий искусственного интеллекта может сыграть довольно важную роль, если эта поддержка будет оперативной и доступной, и если она будет включать меры стимулирования к созданию новых научных групп и формированию коллективов. Ведь даже в машинном обучении важнее всего именно человеческие ресурсы и их потенциал.
Во-первых, необходима поддержка на конкурсной основе талантливых аспирантов с тем, чтобы они могли сосредоточиться на научных исследованиях. Речь идет как о стипендиях, так и обеспечении возможности посещать передовые научные конференции. Во-вторых, опять-таки, на конкурсной основе можно было бы выделять финансирование на формирование научных коллективов под руководством молодых научных сотрудников. Важна тут продолжительность такого финансирования — на построение устойчивой научной группы при университете обычно требуется минимум 4-5 лет.
И, конечно, требуется обеспечение вычислительными ресурсами: современное машинное обучение требует значительных вычислительных мощностей, современной инфраструктуры. Если же речь идет о, например, приложениях в области компьютерного зрения или робототехники, то необходимо еще и дорогостоящее оборудование — различного рода сенсоры для измерения визуальных данных, и другое аппаратное оборудование.