В марте 2023 года компания Databricks представила мощную открытую модель искусственного интеллекта DBRX, которая может превзойти аналоги с открытым исходным кодом. Ее уже сравнивают с чат-ботом ChatGPT от OpenAI. «РБК Тренды» рассказывают, как компания пришла к успеху.
Databricks: что за компания
Databricks — это компания по обработке данных, аналитике и искусственному интеллекту. Она предоставляет организациям облачную платформу, которая помогает им создавать, масштабировать и управлять данными и ИИ, включая модели генеративного искусственного интеллекта. Это позволяет компаниям готовить данные для аналитики, расширять возможности принятия решений на основе данных и внедрять машинное обучение. Сама Databricks называет своей главной целью демократизацию науки о данных и искусственного интеллекта.
Основные факты:
- штаб-квартира расположена в Сан-Франциско, но есть также представительства в Канаде, Великобритании, Нидерландах, Сингапуре, Австралии, Германии, Франции, Японии, Китае, Южной Корее, Индии, Бразилии, Швейцарии, Коста-Рике и Сербии;
- обслуживает 9 тыс. организаций по всему миру, в том числе ABN AMRO, Condé Nast, USPS и Shell, сотрудничает с Microsoft, Amazon и другими;
- число сотрудников — 6 тыс. человек;
- стоимость — $43 млрд;
- доход — $1,6 млрд;
- занимает второе место в топ-100 облачных компаний по версии Forbes;
- трижды становилась лидером рейтинга Gartner Magic Quadrant для систем управления облачными базами данных;
- вошла в топ-10 самых инновационных компаний в области науки о данных за 2022 год по версии Fast Company;
- входит в рейтинг 50 новаторов в области искусственного интеллекта Fortune;
- вошла в рейтинг AI 50 Forbes в 2023 году;
- стала одним из лучших воркспейсов в сфере технологий по версии Fortune;
- выступает соорганизатором конференции для сообщества разработчиков Data + AI Summit.
Чем занимается Databricks
Компания стала пионером в создании data lakes, или «озера данных», — платформы, которая позволяет организациям управлять и использовать как структурированные, так и неструктурированные данные для бизнес-аналитики и задач искусственного интеллекта. Она предлагает механизм анализа, который распознает специфические данные компании и позволяет ей внедрять собственные методы для управления ими. Платформа позволяет разрабатывать разнообразные модели машинного обучения, а также развивать инициативы в области ИИ. «Озеро данных» работает на базе платформы для распределенной разработки Apache Spark с открытым исходным кодом. В октябре 2022 года его одобрили для использования федеральным правительством США и его подрядчиками.
Databricks в рамках своей платформы предлагает:
- опцию Delta Sharing с открытым исходным кодом для обмена данных в сфере аналитики и ИИ. Клиенты могут обмениваться данными в реальном времени между разными платформами, облаками и регионами;
- каталог Unity для управления данными и искусственным интеллектом с соблюдением требований безопасности. Он позволяет управлять структурированными и неструктурированными данными, моделями машинного обучения, блокнотами, дашбордами и файлами в любом облаке или на платформе;
- Mosaic AI — унифицированные инструменты для создания, развертывания и мониторинга решений искусственного интеллекта и машинного обучения. Они позволяют в том числе создавать новейшие модели генеративного ИИ и большие языковые модели;
- DBRX — открытую большую языковую модель общего назначения, которую могут использовать сообщества и предприятия, создающие свои собственные модели. По оценкам Databricks, она превосходит GPT-3.5 и конкурирует с Gemini 1.0 Pro, а также со специализированным ИИ для программирования, таким как CodeLLaMA-70B (принадлежит Meta, которая признана экстремистской и запрещена в России).
Кроме того, платформа включает инструменты преобразования разных типов данных, аналитики в реальном времени, хранилище, встроенные средства проверки качества данных, среды для их обработки и визуализации.
Помимо платформы, компания предлагает:
- Databricks Marketplace — открытый маркетплейс данных, аналитики и искусственного интеллекта, основанный на фирменном стандарте с открытым исходным кодом;
- поддержку интегрированных сред разработки (IDE), чтобы разработчики могли использовать инструменты компании в собственных средах;
- Partner Connect для поиска и интеграции данных партнеров компании.
Наконец, Databricks поддерживает проекты с исходным кодом Apache Spark, Delta Lake, MLflow, Redash и Delta Sharing — они охватывают инженерию данных, науку о данных и машинное обучение.
Основатели Databricks
Компания Databricks была основана в 2013 году. У ее истоков стояли семь профессоров и выпускников Калифорнийского университета в Беркли: Али Годси (генеральный директор), Ион Стойка (исполнительный председатель), Матей Захария (главный технолог), Патрик Венделл (вице-президент по проектированию), Рейнольд Синь (главный архитектор), Энди Конвински (ныне советник) и Арсалан Таваколи-Ширажи (старший вице-президент по инженерии). По сути, компания выросла из проекта AMPLab Калифорнийского университета, который участвовал в создании Apache Spark, среды распределенных вычислений с открытым исходным кодом.
Годси и его семья бежали из Ирана в 1984 году из-за революции в стране. Они обосновались в Швеции, где Али провел детство и увлекся компьютерами, став программистом-самоучкой. В 2009 году Годси приехал в Соединенные Штаты по приглашению Калифорнийского университета. Там он присоединился к Матею Захарии, в то время доктору философии. Они начали работать над проектом по созданию программы для обработки данных под названием Spark. Этот проект в 2014 году установил мировой рекорд по скорости сортировки данных и принес Захарии награду за лучшую диссертацию года по информатике.
В ходе серии встреч в индийских ресторанах, начавшихся в 2012 году, семь ученых договорились объединиться и основать Databricks. Они консультировались с профессорами Захарии, Скоттом Шенкером и Ионом Стойкой. Первый уже тогда был гендиректором сетевой компании Nicira, проданной в 2012 году VMware, а второй руководил стартапом стриминга видео Conviva.
В 2013 году Databricks провела раунд финансирования серии A и привлекла $13,9 млн от венчурного инвестора Андриссена Горовица. В нее также вкладывались Microsoft, Amazon Web Services и Salesforce Ventures.
История компании
Databricks появилась благодаря работе над проектом Spark, поэтому история компании фактически начинается с его зарождения.
2009–2013 годы
Проект Spark организовали в AMPLab Калифорнийского университета в Беркли. Он представлял собой совместную работу студентов, исследователей и преподавателей, занимающихся анализом больших данных. Проект был задуман как часть исследования по созданию среды кластерных вычислений, которая могла бы обрабатывать рабочие нагрузки больших данных быстрее и эффективнее, чем существующая в то время среда обработки больших данных Hadoop MapReduce.
Матей Захария разработал Spark, чтобы преодолеть ограничения MapReduce, в частности низкую производительность при работе с алгоритмами и задачами интерактивного анализа данных. Он представил концепцию вычислительного механизма в памяти, который значительно повысил скорость выполнения задач обработки данных, особенно алгоритмов, которые распространены в машинном обучении. Исследовательский проект Spark официально заработал в 2010 году, а затем в 2013 году перешел в управление организации Apache Software Foundation и был переименован в Apache Spark.
2013–2023 годы
Команда объявила об основании Databricks — компании, которая была призвана решить проблемы, связанные с открытостью модели Apache Spark. Она должна была предоставить коммерческую поддержку и услуги клиентам для полного внедрения новой технологии, а также более надежный и безопасный код, технологии упрощенного развертывания и масштабирования.
Благодаря растущей популярности Apache Spark у Databricks быстро появились клиенты. Компании увидели потенциал в способности Spark быстро обрабатывать большие объемы данных и стремились использовать технологию с дополнительной поддержкой от Databricks.
В 2014 году компания запустила свою облачную платформу Databricks Cloud (теперь известную как Databricks Unified Analytics Platform). Она интегрирована с Apache Spark, что упрощает процесс создания и развертывания приложений. Чтобы повысить квалификацию специалистов, работающих с Apache Spark, Databricks в 2014 году также запустила программу сертификации и обучающие курсы.
В 2015 году Databricks заключила партнерские отношения с крупными поставщиками облачных услуг, такими как Amazon Web Services, чтобы реализовать возможности своей технологии на облачной платформе. Аналогичное партнерство было заключено с Microsoft Azure в 2016 году. К этому моменту у Databricks было несколько известных клиентов, в том числе Shell, HP и Salesforce.
В 2017 году компания запустила Databricks Delta (теперь известную как Delta Lake) — решение, предназначенное для повышения надежности и качества работы с данными в пространстве big data. После этого она начала развивать Delta Lake, чтобы решить проблемы работы с поврежденными и противоречивыми данными, соблюдением правил конфиденциальности и трудности одновременной обработки как пакетных данных, так и информации в реальном времени.
Идея Delta Lake принадлежит Доминику Брезински и Майклу Армбрусту. Первый работал в Apple, и ему нужно было обрабатывать петабайты данных и разрабатывать модели машинного обучения, которые могут использовать данные в реальном времени.
Delta Lake позволила снять ограничения традиционных систем хранения и управления данными, так как те были разработаны для обработки структурированных данных. «Озера данных» давали больше возможностей для масштабирования такой работы за счет экономии вычислительных ресурсов на обработке информации. В 2022 году Databricks полностью открыла исходный код Delta Lake.
В последние годы компания также провела ряд поглощений. В 2020 году она приобрела Redash — инструмент с открытым исходным кодом, который позволяет ученым и аналитикам визуализировать и создавать интерактивные панели данных. В 2021 году Databricks выкупила немецкую 8080 Labs — создателя no-code инструментов для исследования данных. В 2023 году она приобрела сразу три стартапа: Okera, занимающийся безопасностью данных, MosaicML, который разрабатывает генеративный ИИ с открытым исходным кодом, а также стартап по репликации данных Arcion.
В том же году Databricks сообщила о рекордной выручке в $1,6 млрд, это вдвое больше, чем в 2022 году. В сентябре 2023 года компания привлекла $500 млн инвестиций при оценке в $43 млрд.
Достижения Databricks
Проект Spark, который развивали основатели Databricks, был востребованным среди крупных компаний, таких как Yahoo, Airbnb, ClearStory Data и других. Именно поэтому Databricks довольно быстро начала развивать интеграции с крупными представителями IT-сектора.
- 2017 год — продукт Databricks стал основным сервисом облачной платформы Microsoft Azure;
- 2019 год — компания выпустила Delta Lake для решения проблем качества и надежности данных при обработке больших данных;
- 2021 год — Databricks объявила об интеграции со службой кластеров Google Kubernetes Engine и сервисом больших данных Google BigQuery;
- 2022 год — Databricks вошла в объединение Data Cloud Alliance, которое будет работать над облегчением переноса данных между разными платформами и упрощения доступа к ним для разных бизнес-систем. Участниками альянса также стали Google Cloud, Accenture, Confluent, Deloitte, MongoDB и другие;
- 2023 год — компания представила языковую модель с открытым исходным кодом Dolly, которую разработчики могут использовать для создания собственных чат-ботов. Она использует меньше параметров для обучения, чем ChatGPT.
Перспективы компании
Databricks работает с растущей отраслью данных, поэтому ее востребованность также увеличивается. Еще в 2023 году мировой рынок больших данных и бизнес-аналитики оценивался в $225,3 млрд, а к 2033 году, по прогнозам, он достигнет $665,7 млрд. При этом рынок «озер данных» в 2021 году оценивался в $11,7 млрд, а к 2029 году он превысит отметку в $61 млрд.
Аналитики отмечают также, что на фоне растущей популярности искусственного интеллекта платформа Databricks стала одной из основных, где компании могут хранить и обрабатывать огромные массивы данных.
Дхармеш Таккер, генеральный партнер Battery Ventures, который был одним из первых инвесторов компании, считает, что она только начинает свою деятельность. «Нам посчастливилось стать одними из первых инвесторов в Databricks и поддержать генерального директора Али Годси на его пути к почти 100-кратному росту выручки с момента нашего инвестирования. Тем не менее даже при выручке $1,6 млрд создается впечатление, что компания находится на ранних стадиях роста, исходя из более широкого рынка и конкурентной позиции», — отмечает он.
С учетом того, что в последнем раунде в Databricks инвестировал Morgan Stanley, который обычно поддерживает компании перед IPO, вероятно, она скоро станет публичной.