В начале января 2024 года американский стартап Rabbit представил устройство под названием R1, которое с помощью технологий искусственного интеллекта позволит управлять различными приложениями голосом. Гаджет позиционируют как более продвинутую альтернативу голосовых помощников. «РБК Тренды» разбираются, как устроен и работает R1, а также какие у него перспективы.
Что такое Rabbit R1
Rabbit R1 — это гаджет с микрофоном, с помощью которого можно пользоваться разными сервисами, отдавая голосовые команды на естественном языке. Встроенный искусственный интеллект, учитывая контекст, интерпретирует фразы пользователя и выполняет команды. Например, R1 можно задать запрос: «Вызови Uber домой и сообщи родным, что я опоздаю». ИИ сам определит геолокацию пользователя и подберет оптимальный вариант такси, а затем отправит уведомления членам его семьи из списка контактов. Если же навести камеру устройства на полки холодильника с продуктами и спросить, какое блюдо из них можно приготовить, то оно подберет варианты и предложит рецепты.
С помощью R1 можно также снимать фото и видео. Он вызывает некоторые ассоциации с ИИ-помощниками вроде «Д.Ж.А.Р.В.И.С.» Тони Старка из вселенной Marvel, хотя, конечно, ему далеко до осознанной и самостоятельной системы. Пока непонятно, как разработчик его позиционирует: несмотря на поддержку сим-карт, возможность совершать аудио- и видеозвонки, Rabbit R1 не является смартфоном, но и к классическим голосовым помощникам его тоже отнести не получается. Для чего именно нужен этот «посредник» между пользователем и сервисами, которыми он пользуется, пока не до конца ясно. Однако молодой стартап уже прошел два раунда финансирования.
Как выглядит Rabbit R1
Rabbit R1 — это автономное устройство размером с ладонь и весом чуть более 100 г, которое оснащено 2,88-дюймовым сенсорным дисплеем с клавиатурой, вращающейся камерой для съемки фотографий и видео, двумя микрофонами и динамиком. Еще у него есть колесо прокрутки для навигации по меню и общения со встроенным ИИ-помощником устройства, а также отдельная кнопка включения микрофона, при нажатии на которую можно продиктовать свой запрос.
Дизайн R1 в ярко-оранжевом корпусе разработала студия Teenage Engineering, которая ранее работала над устройствами компании Nothing и выпускала собственные музыкальные гаджеты. Rabbit R1 работает на процессоре MediaTek, он получил 4 ГБ оперативной памяти и встроенный накопитель на 128 ГБ. Как утверждают разработчики, встроенного аккумулятора хватает на день работы, а на корпусе есть слот для сим-карты. Rabbit R1 поддерживает Bluetooth 5.0, Wi-Fi и 4G LTE. Устройство оснащено акселерометром, навигатором и гироскопом.
Особенности работы Rabbit R1
Устройство использует собственную операционную систему Rabbit OS, в которую встроены алгоритмы искусственного интеллекта. Для управления приложениями оно запускает «большую модель действий» (Large Action Model, или LAM), работа которой напоминает голосовых помощников Alexa и Google Assistant. Если LLM генерирует текст, опираясь на запрос пользователя, то LAM сразу создает последовательность шагов для его выполнения. Например, если попросить устройство заказать еду в определенном приложении, то модель сама сгенерирует шаги и выполнит их. В случае с ChatGPT подобное тоже возможно, но для этого разработчики приложения для заказа еды должны сначала встроить чат-бота в свой сервис.
LAM обучается путем демонстрации: алгоритм «наблюдает» за человеком, использующим определенное приложение, а потом воспроизводит его действия, даже если интерфейс сервиса отличается. Со временем модель накапливает все больше знаний и глубже «понимает» разные аспекты взаимодействия с сервисом.
Еще одна особенность Rabbit R1 в том, что Rabbit OS предлагает единый интерфейс для управления музыкой, заказа такси и доставки продуктов, отправки сообщений и многого другого. На экране выводятся наборы карточек по разным категориям: музыка, транспорт, видеочаты и так далее. Это позволяет контролировать работу устройства. Создатели утверждают, что гаджет «не прослушивает» пользователя в неактивном режиме, а также автоматически переходит в этот режим, если лежит дисплеем вниз (R1 «понимает» свое положение в пространстве благодаря работе встроенного гироскопа).
Модель, на которой работает устройство, запускается через облачную платформу Rabbit Hole. Там пользователям предварительно понадобится авторизоваться во всех приложениях, с которыми они хотят работать. Вся информация будет храниться в приватном облаке, оттуда же можно будет запрашивать историю своих взаимодействий с сервисами. В Rabbit обещают, что не получат персональные данные пользователей, такие как имя, номер телефона или платежную информацию, а также не будут делиться иными данными, если клиент не даст на это своего согласия.
Помимо прочего на Rabbit Hole можно вручную настроить схемы сложных действий или работу с редкими приложениями. Для этого не обязательно иметь навыки программирования или разбираться в работе нейросетей — достаточно открыть простой визуальный редактор. Например, устройство можно обучить удалению водяных знаков с картинок в Photoshop. Для этого понадобится загрузить с портала на свой компьютер одну из виртуальных машин Rabbit и ввести внутри нее алгоритм действий, чтобы в дальнейшем не использовать для работы собственное устройство и программное обеспечение.
В настоящее время устройство работает на английском языке, но скоро ожидается поддержка арабского, китайского, французского, немецкого, хинди, японского, корейского, испанского и шведского. Кроме того, R1 поддерживает двунаправленный перевод с более чем 50 языков (среди них есть русский). В будущем, как обещают разработчики, Rabbit OS сможет работать одновременно на нескольких языках.
Перспективы Rabbit R1
Разработчики утверждают, что со временем LAM сможет решать сложные задачи, охватывающие несколько приложений, в том числе те, которые уже работают с генеративным искусственным интеллектом. Также модель можно будет использовать для задач, связанных с конфиденциальными данными, например для решения финансовых вопросов. По словам разработчиков, каждый пользователь, по сути, будет работать со своей собственной версией LAM, которая будет предупреждать его о чувствительных операциях — транзакциях и так далее, а затем отчитываться об их выполнении. Также ИИ-ассистент будет запрашивать дополнительное разрешение на такие операции и не сохранит никакие пароли.
Генеральный директор Rabbit Джесси Лю на презентации устройства подчеркнул, что его разработчики не стремятся заменить смартфоны. С помощью R1 нельзя звонить, проигрывать ролики YouTube, проверять социальные сети или выполнять действия с электронной почтой. Кроме того, устройство не предполагает наличия обратной связи с другими владельцами Rabbit или смартфонов.
Однако обозреватели отмечают, что R1 нельзя назвать просто голосовым помощником. По их мнению, его функциональность больше напоминает суперприложение будущего. В ходе презентации Лю показал, как R1 отвечает на философские вопросы, проверяет цены на акции, ищет информацию о фильмах, включает музыку на Spotify, бронирует такси в Uber, заказывает пиццу и планирует отпуск. Также разработчики продемонстрировали, как Rabbit R1 учится создавать изображения с помощью нейросети Midjourney, а затем воспроизводит этот процесс самостоятельно. Таким образом, устройство, возможно, заменит «умных» помощников вроде ChatGPT, Google Bard и других. Не исключено также, что в ближайшие месяцы ведущие компании обновят свои голосовые помощники аналогичными функциями ИИ, чтобы они работали по принципу Rabbit R1, полагают скептики. Но даже они признают, что стартап сумел эффектно продемонстрировать возможности мультимодального ИИ, указав на вектор его будущего развития.
Rabbit выпустит R1 в марте 2024 года. За первые сутки после презентации покупатели оформили предзаказ на 10 тыс. устройств: они стоят $199.