Что случилось
Прогнозирование сворачивания белков — главная задача на пути понимания того, как тяжелые заболевания распространяются и влияют на организм человека. Решив ее, медики смогут точно предсказать и блокировать распространение инфекции или исправлять ошибки в сворачивании, которые приводят к нейродегенеративным и когнитивным расстройствам.
Чтобы в точности смоделировать процесс, нужны огромные объемы данных и вычислительные мощности, аналогичные 200 графическим процессорам. Искусственный интеллект AlphaFold от DeepMind за несколько дней вычислений может предсказать, как аминокислотные последовательности сложатся в объемные белковые структуры, с точностью до атома. Для этого алгоритм нейросети обучили на 170 тыс. последовательностях белков и их форм.
Прорыв DeepMind открывает новые возможности для открытий в медицине и разработки жизненно важных лекарств. Это актуально в разгар пандемии коронавируса: с помощью ИИ удалось определить структуру нескольких белков SARS-CoV-2 и выявить, какие изменения происходят после попадания их в организм. Это поможет в разработке противовирусных препаратов.
Что известно про сворачивание белка
Белки — сложные молекулы, которые служат строительным материалом для клеток, а еще — катализаторами почти всех биохимических реакций и жизненных процессов. Например, сокращения мышц, усваивания пищи или восприятия света. Сейчас нам известно около 200 млн белков, еще 30 млн ученые открывают каждый год.
Белки синтезируются в результате трансляции: молекула белка считывает информацию с матричной РНК, которая представляет собой копию гена, полученную из ДНК. В результате формируется линейная цепочка аминокислотных остатков, которая затем сворачивается в трехмерную структуру особым образом — в зависимости от химических свойств аминокислот и их взаимодействия друг с другом. Причем состав может заметно отличаться от исходных генов. Это происходит спонтанно и занимает доли секунды.
Саму последовательность аминокислот определить несложно. Обычно это делается с помощью рентгеноструктурного анализа или ядерного магнитного резонанса. Методы достаточно эффективные, но требуют много времени и ресурсов. А вот с механизмом сворачивания все намного сложнее. Например, 101 аминокислота и 100 связей между ними с тремя разными состояниями у каждой — это 3,1 тыс. вариантов структуры белка. Чтобы перебрать их все, понадобится несколько тысяч лет.
Как исследуется структура белка
Впервые о важности структуры белка заявил американский биохимик Кристиан Анфинсен, получивший за это Нобелевскую премию по химии в 1972 году. Он предположил, что аминокислотная последовательность белка должна полностью определять его структуру. С тех пор прошло полвека, и ученые пытались предсказать трехмерную структуру белка на основе его аминокислотной последовательности, в том числе — с помощью компьютера.
Чтобы стимулировать исследования в этой области, в 1994 году был учрежден масштабный двухгодичный конкурс под названием «Эксперимент сообщества по критической оценке методов предсказания структуры белка» (CASP, Critical Assessment of protein Structure Prediction), который раз в два года тестирует новые методы и оценивает их.
Для оценки точности используется тест глобального расстояния (GDT) — процент аминокислотных остатков, которые были спрогнозированы верно. Он варьируется от 0 до 100, при этом точность в 90 GDT считается равноценной научным экспериментальным методам. Алгоритм AlphaFold уже оценили как самый точный — у него 92,4 балла.
Как работает AlphaFold
DeepMind работает над AlphaFold четыре года. Впервые компания показала нейросеть в 2018 году. На входе алгоритм принимает генетическую последовательность аминокислот, а на выходе выдает расстояние и углы связей между ними, что позволяет восстановить всю структуру белка.
В этом году представили новую версию алгоритма — AlphaFold 2. В его основе — нейросеть с блоком внимания, которая определяет связи между аминокислотными остатками с учетом уже известных похожих белков. После этого алгоритм моделирует трехмерную структуру белка.
AlphaFold строит модели с нуля, а не на основе готовых шаблонов белков. На основе прогноза алгоритм строит трехмерные модели с помощью двух методов, основанных на глубоких нейронных сетях. Первая нейросеть вычисляет расстояния между парами аминокислот и углов между химическими связями, которые их соединяют. Вторая — сравнивает полученные результаты, оптимизирует и уточняет их при помощи математического анализа.
На обучение, совместно с экспертами в области структурной биологии, физики и машинного обучения, ушло несколько недель. Сейчас в DeepMind работают над тем, чтобы предоставить широкий доступ к технологии и масштабировать ее. Следом предстоит понять, как белки образуют сложные комплексы, взаимодействуют с ДНК, РНК или небольшими молекулами, а также — определить точное местоположение всех боковых цепей аминокислот.
Разработчики готовы сотрудничать с другими командами. Они надеются, что это поможет в лечении многих заболеваний: болезни Альцгеймера, Паркинсона и Хантингтона, кистозного фиброза. А также — в исследованиях редких и малоизученных структур белков, изучении окружающей среды.
Чем еще занимается DeepMind
Компанию DeepMind основали в 2010 году Демис Хассабис, Шейн Легг и Мустафа Сулейман.
Демис Хассабис — вундеркинд, выпускник Кембриджа, Гарварда и MIT. Пятикратный чемпион всемирных интеллектуальных игр, победитель международных шахматных турниров, разработчик игр. С 2018 года он передал основные управленческие задачи Лайле Ибрагим, чтобы посвятить половину своего времени исследованиям.
Они хотели заниматься разработками в области ИИ, используя междисциплинарный подход, то есть, объединяя достижения в области машинного обучения, нейробиологии, инженерии, математики, моделирования и вычислительной инфраструктуры. Все эти эксперты работают в рамках научного центра DeepMind, которым руководит Пашмит Коли — бывший директор Microsoft Research. Среди инвесторов были Horizons Ventures и Илон Маск. В 2014 компанию купила Google, сумма сделки оценивается от $400 млн до $650 млн.
Особых успехов DeepMind добилась в области игр, где в качестве соперника выступал ИИ. Самая известная — AlphaGo, которой удалось победить лучших игроков в Го в мире.
Другая система — AlphaZero — умеет играть в Го, сеги и шахматы. Нейросети, созданные DeepMind, используют обучение с подкреплением (RL, Reinforcement Learning): когда алгоритм непрерывно тренируется на миллионах комбинаций, запоминая наиболее успешные.
Также компания создала нейросеть WaveNet, способную синтезировать голос и музыку. Но пока что подобные алгоритмы слишком несовершенны.
Еще один прорыв — DNC, дифференцируемые нейронные компьютеры. В них нейросети объединены с системами памяти для создания машин. В результате они обладают динамической памятью, то есть, хранят и обрабатывают данные как мощные компьютеры.
Это позволяет системам отвечать даже на те запросы, которые предполагают использование сложных структурированных данных: например, найти оптимальный маршрут на схеме метро или определить родственные связи на основе родословной. С помощью специального контроллера, аналогичного процессору, системы сами оптимизируют и перераспределяют память, если в хранилище не хватает места.
Генерирующая сеть запросов (GQN) — система, которая учит нейросети воспринимать окружение, осмысливая наблюдения за окружающим миром. Дело в том, что мы, воспринимая что-либо зрением, опираемся на имеющиеся представления о предметах и бессознательно достраиваем и преобразуем картинку. Нейросети воспринимают только то, что видят, и поэтому их нужно дополнительно обучить недостающим данным.
Подразделение DeepMind Health обвиняли в том, что она незаконно хранит данные, которые получила с помощью Google от Национальной службы здравоохранения Великобритании в 2016 году.
В 2016 году DeepMind и Google разработали систему рекомендаций на основе ИИ, которая помогает экономить энергию в центрах обработки данных Google и снизить вредные выбросы.
В сотрудничестве с с офтальмологической клиникой Moorfields NHS Foundation Trust DeepMind запустили проект, который призван помочь в лечении диабетической ретинопатии и возрастной дегенерации желтого пятна (ВДЖП). Это может предотвратить до 98% случаев за счет ранней диагностики на базе машинного обучения.
В DeepMind также действует стипендиальная программа, которая направлена на поддержку студентов из малообеспеченных семей. Они получают возможность учиться в ведущих университетах и работать с исследователями и инженерами DeepMind.
Но главной заслугой DeepMind считаются не отдельные проекты, а общий вклад в продуктивность разработок в области ИИ. В последние годы в этой сфере ведется множество разработок, задействованы сотни лучших исследователей, но все это не дает фундаментальных сдвигов. То же происходит и с другими наукоемкими областями — такими, как фармацевтика и биомедицина. Здесь исследования обходятся в миллиарды, и никто не хочет ими рисковать. При этом средняя отдача инвестиций составляет около 3,2%. На этом фоне прорывы, которые совершает DeepMind, дают надежду на успешный симбиоз ИИ и науки.
Подписывайтесь также на Telegram-канал РБК Тренды и будьте в курсе актуальных тенденций и прогнозов о будущем технологий, эко-номики, образования и инноваций.