Чипы для искусственного интеллекта: история стартапа Cerebras

Фото: Cerebras
Фото: Cerebras
Создатели Cerebras считают, что будущее — за специализированными микросхемами, которые ускорят вывод новых моделей ИИ на рынок

Американский стартап Cerebras, который занимается разработкой чипов для технологий искусственного интеллекта, в конце сентября 2024 года объявил о выходе на IPO. Рассказываем историю компании, которая собирается составить конкуренцию крупнейшим IT-гигантами, таким как Nvidia.

Как появился Cerebras

В 2015 году Cerebras основали бывшие организаторы другого стартапа по производству серверов SeaMicro Эндрю Фельдман, Гэри Лаутербах, Майкл Джеймс, Шон Ли и Жан-Филипп Фрикер. Свое первое детище они продали производителю чипов AMD в 2012 году за $334 млн.

В мае 2016 года Cerebras привлек $27 млн в рамках раунда финансирования серии А под руководством Benchmark Foundation Capital и Eclipse Ventures. Спустя два года, в ноябре 2018-го, стартап завершил раунд серии D с $88 млн, превратившись в единорога.

Фото:Shutterstock
Индустрия 4.0 Как стартапу стать «единорогом»: советы экспертов и подводные камни

В 2020 году стартап объявил об открытии офиса в Японии и партнерстве с Tokyo Electron Devices. В ходе раунда финансирования в 2021 году Cerebras привлек $250 млн, а оценка проекта превысила $4 млрд.

Сейчас  у Cerebras есть офисы в Кремниевой долине, Сан-Диего, Торонто и Токио. В число его инвесторов входят глава OpenAI Сэм Альтман и сооснователь Sun Microsystems Энди Бехтольсхайм. Стартап вошел в топ-100 самых влиятельных компаний по версии Time в 2024 году, а также рейтинг Forbes AI 50.

Технология Cerebras

Основатели Cerebras хотели создать компьютер, который идеально соответствовал бы характеру современных рабочих нагрузок ИИ. Они определяются несколькими факторами: нужно быстро перемещать большие объемы данных, требуется память рядом с ядром их обработки, а самим ядрам не нужно работать с данными, которые обрабатывают соседние. В итоге в Cerebras решили использовать тысячи небольших ядер для выполнения соответствующих вычислений нейронных сетей вместо ядер общего назначения. Их работу объединили микросхемой, которая перемещает данные быстро и с низким энергопотреблением. Самым простым решением стало размещение всех элементов на одной кремниевой плате, то есть создание очень большого чипа.

Cerebras Wafer Scale Engine (WSE) — это единый интегрированный процессор площадью более 46 тыс. мм² (в 50 раз больше любого другого процессорного чипа), который включает вычислительные ресурсы, память и матрицу соединений. Его представили в 2019 году.

Как выглядит Cerebras Wafer Scale Engine
Как выглядит Cerebras Wafer Scale Engine (Фото: spectrum.ieee.org)

WSE первого поколения стал основой для компьютера с искусственным интеллектом Cerebras CS-1. Эта система предназначена для обучения ИИ и поддержки вычислений на основе нейросетей в центрах обработки данных. CS-1 включал в себя один центральный процессор WSE с 400 тыс. процессорных ядер, 1,2 трлн транзисторов и 18 Гбайт оперативной памяти. Он также поддерживал 12 соединений 100-гигабитного Ethernet для передачи данных. Внешне компьютер ничем не отличался от обычного, если не учитывать площадь ИИ-чипа, которая составляла 46 255 мм². Тогда в Cerebras заявляли, что кластер TPU2 от Google AI потребляет в пять раз больше энергии и занимает в 30 раз больше места, обеспечивая всего одну треть производительности компьютера с WSE. Стартап отмечал, что Wafer Scale Engine позволяет обрабатывать информацию быстрее, чем другие ускорители ИИ, сокращая работу по обучению с месяцев до минут. Кроме того, чип способен выполнять классификацию одного изображения за микросекунды, ускоряя вывод моделей.

Особенность CS-1 также заключалась в том, что его программное обеспечение позволяло пользователям писать свои модели машинного обучения с использованием стандартных фреймворков, таких как PyTorch и TensorFlow. Затем программа сама выделяет ресурсы чипа для разных слоев нейронной сети, чтобы все они завершали свою работу примерно с одинаковой скоростью. Программное обеспечение может выполнять эту задачу даже на нескольких компьютерах, позволяя их кластеру работать подобно одной большой машине.

Фото:Kandinsky
Индустрия 4.0 Google представила чип Willow: это новый этап в квантовых вычислениях

Дальнейшие разработки

В апреле 2021 года Cerebras анонсировал систему искусственного интеллекта CS-2, основанную на процессоре WSE 2-го поколения. Этот процессор получил уже 850 тыс. ядер и 2,6 трлн транзисторов, а также объем памяти до 40 Гбайт. Этого удалось достичь за счет использования более продвинутого 7-нм техпроцесса, чтобы увеличить плотность транзисторов на пластине того же размера. Чип изготовили совместно с производителем электроники Taiwan Semiconductor Manufacturing Company. Как заявили в Cerebras, один CS-2 заменяет кластеры из сотен или тысяч графических процессоров.

Процессор WSE 2 и обычный графический процессор
Процессор WSE 2 и обычный графический процессор (Фото: venturebeat.com)

В 2022 году Cerebras заявил о создании собственного суперкомпьютера Andromeda на базе WSE-2. Его основу составляют 13,5 млн ядер, а производительность при запуске ИИ-приложений может превосходить один экзафлопс в секунду.

FLOPS (также flops, flop/s, флопс или флоп/с; акроним от англ. FLoating-point OPerations per Second) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет вычислительная система.

Для сравнения — производительность мощнейшей системы Frontier Окриджской национальной лаборатории в США составляет 1,102 экзафлопс в секунду. Экзафлопс — это квинтиллион (1018) операций с плавающей запятой в секунду. По утверждению Cerebras, Andromeda позволит обучать масштабные языковые модели.

В марте 2024 года стартап представил суперчип WSE-3 с 4 трлн транзисторов, 900 тыс. ядер и 44 Гбайт памяти. Он выпускается с использованием 5-нм техпроцесса TSMC. Один WSE-3 составляет основу для новой вычислительной платформы Cerebras CS-3, которая обеспечивает вдвое более высокую производительность, чем, а CS-2 при том же энергопотреблении. Пропускная способность Cerebras CS-3 составляет 21 Пбайт/с, тогда как у ускорителей Nvidia H100 — 3,9 Тбайт/с. По сравнению с H100 платформа физически в 57 раз больше и примерно в 62 раза производительнее. Клиенты могут использовать до 2048 CS-3 в одном ИИ-кластере.

WSE-3
WSE-3 (Фото: cerebras.ai)

Первые клиенты

Пока технология в основном остается нишевой. Чипы WSE уже используют Аргоннская национальная лаборатория, Ливерморская национальная лаборатория Лоуренса, Питтсбургский суперкомпьютерный центр (PSC) для своего суперкомпьютера Neocortex AI, суперкомпьютерный центр в Эдинбургском университете EPCC, фармацевтическая компания GlaxoSmithKline и другие клиенты.

В GlaxoSmithKline применяют CS-1 для моделирования нейронных сетей, чтобы ускорить генетические и геномные исследования. В компании отмечали, что им удалось сократить время обучения ИИ в 80 раз. Еще один гигант фармацевтической отрасли AstraZeneca смогла сократить время обучения с двух недель на кластере графических процессоров до двух дней с помощью системы CS-1.

Аргоннская национальная лаборатория применяет CS-1 в исследованиях COVID-19 и раковых опухолей на основе крупнейшей в мире базы данных по лечению рака. Чип сократил время выполнения экспериментов на моделях более чем в 300 раз.

В Национальной лаборатории Лоуренса CS-1 используют для задач физического моделирования.

Фото:Shutterstock
Футурология «Виртуальное сольется с реальным»: прогнозы главы Nvidia Дженсена Хуанга

Выход на IPO

В конце сентября 2024 года Cerebras подал заявку на первичное размещение акций и опубликовал финансовые результаты. По оценкам Bloomberg, стартап может привлечь от $750 млн до $1 млрд при капитализации $7–8 млрд.

Финансовые результаты Cerebras демонстрируют быстрый рост бизнеса. В январе — июне 2024 года объем продаж составил $136,4 млн, что почти в 16 раз больше, чем годом ранее — $8,7 млн. Чистый убыток Cerebras за полугодие составил $66,6 млн против $77,8 млн годом ранее.

Однако отчетность раскрыла также, что стартап сильно зависит от одного клиента — G42 из Абу-Даби. В этого разработчика в области искусственного интеллекта инвестирует Microsoft. На заказы G42 пришлось 87% продаж Cerebras за первое полугодие. До соглашения с клиентом продажи стартапа падали: еще в 2022 году было реализовано 10 машин, а в 2023-м — всего одна. Теперь финансовое положение Cerebras стало лучше, но оно зависит от решений правительства США по экспорту систем CS-2 в ОАЭ. Пока все проданные системы, включая уже заказанные, будут развернуты в дата-центрах в США. Однако в отчетности говорится, что власти США могут наложить ограничения, которые покажутся неприемлемыми ему или клиентам.

Перспективы технологии

Сегодня на рынке обучения ИИ лидирует Nvidia. Компания выпускает специализированные графические процессоры (GPU) со множеством ядер, которые способны одновременно выполнять множество низкоуровневых вычислений. Это позволяет использовать ускорители для алгоритмов глубокого обучения.

Однако в Cerebras считают, что необходимо создавать чипы, которые превосходят GPU в приложениях глубокого обучения. Как отмечал Эндрю Фельдман, графические процессоры изначально были созданы для генерации графики, а не обучения ИИ: «Я не думаю, что графический процессор очень хорош для машинного обучения. Он просто лучше, чем центральный процессор». По его словам, идея стартапа состоит в том, что обучение ИИ можно ускорить до нескольких часов вместо нескольких недель, а это позволит «проверить и запустить тысячи идей».

В августе 2024 года стартап представил технологию Cerebras inference — самое быстрое решение для вывода ИИ в мире. Она работает с Wafer Scale Engine 3-го поколения, обладающим памятью в 44 ГБ на одном чипе, устраняя необходимость в использовании внешней памяти. WSE-3 обеспечивает 21 петабайт/с совокупной пропускной способности памяти — это в 7000 раз больше, чем у ИИ-ускорителя H100 от Nvidia. Это пока единственный чип ИИ с вычислительной мощностью и пропускной способностью памяти петабайтного масштаба. Он предназначен для обслуживания моделей с миллиардами и триллионами параметров.

Как работает обучение с Cerebras inference
Как работает обучение с Cerebras inference (Фото: cerebras.ai)

В Cerebras уже помогли Meta (признана экстремистской и запрещена в России) поставить рекорд вывода языковой модели семейства Llama с открытым исходным кодом. Llama 3 8B с 8 млрд параметров обучили и выпустили в открытый доступ всего за несколько часов. При этом она генерирует 1800 токенов в секунду, что в 20 раз быстрее работы решений на базе GPU. Стоимость генерации составляет всего 10 центов за миллион токенов. Более крупная модель Llama 3 70B с 70 млрд параметров генерирует 450 токенов в секунду, а стоимость генерации составляет 60 центов за 1 млн токенов. При этом они демонстрируют более высокую производительность в многопоточных разговорах, математике и задачах на рассуждения.

Как отметили в Cerebras, вывод — это самый быстрорастущий сегмент вычислений ИИ, на который приходится примерно 40% от общего рынка оборудования. Появление высокоскоростного вывода, уверены в стартапе, открывает новые возможности для приложений ИИ, в том числе позволяет обучать ИИ-агентов.

Cerebras уже работает над внедрением CS-3 в состав своего суперкластера Condor Galaxy AI для решения задач с применением ИИ. Проект поддержала компания G42. В рамках него планируют создать девять суперкомпьютеров в разных частях мира, а две первые системы уже собрали в 2023 году. В каждой из них содержится по 64 платформы Cerebras CS-2 с совокупной ИИ-производительностью 4 экзафлопса.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 27.01.2025
Главная Лента Подписаться Поделиться
Закрыть