Хотя во многих реальных сценариях GPT-4 все еще уступает людям, на различных профессиональных и академических тестах модель демонстрирует производительность на уровне человека. Например, GPT-4 сдает симуляционный адвокатский экзамен со средним баллом, находящимся примерно в верхней десятке тестировщиков, в то время как результат GPT-3.5 находился в нижней десятке.
Компания потратила полгода на совершенствование GPT-4, используя опыт, полученный из своей программы адверсариального тестирования и ChatGPT. Новая модель показала лучшие результаты в плане управляемости и точности исполнения запросов.
Адверсариальное тестирование (adversarial testing) — это методика тестирования искусственного интеллекта, направленная на выявление уязвимостей модели, связанных с возможностью обмануть ее. В рамках такого тестирования создают искусственно сконструированные входные данные (например, изображения или тексты) специально для того, чтобы обмануть модель ИИ и получить неверный результат. Например, для изображения, которое похоже на кошку, создаются шумы или искажения, которые могут заставить модель распознать его как собаку.
OpenAI также сообщает, что за последние два года компания полностью перестроила свой стек глубокого обучения и совместно с Azure разработала суперкомпьютер специально для работы с нейронными сетями. Год назад состоялся «пробный запуск» GPT-3.5, который позволил устранить ошибки и улучшить теоретические основы. В результате тренировки GPT-4, компания получила устойчивую модель, результаты которой можно было предсказать. Сейчас компания сотрудничает с неким партнером, который поможет расширить возможности обработки графических данных. Новый продукт будет доступен через API и ChatGPT.
Кроме того, OpenAI открыла OpenAI Evals, собственный фреймворк для автоматической оценки производительности моделей искусственного интеллекта, чтобы любой желающий мог сообщить об ошибках в их моделях и помочь компании улучшить их.
Возможности GPT-4
Разработчик заявляет, что возможности GPT-4 значительно превосходят возможности GPT-3.5, но, несмотря на это, разница может быть незаметной в обычных разговорах с ИИ (например, в чате). Она проявляется, когда задача достигает достаточного порога сложности. GPT-4 более надежен, креативен и способен обрабатывать более тонкие инструкции, чем GPT-3.5. Модель GPT-4 также может обрабатывать графические данные, что открывает новые возможности для использования искусственного интеллекта в различных областях.
«Мы использовали GPT-4 внутри компании, и это оказало большое влияние на такие области, как поддержка, продажи, модерация контента и программирование».
GPT-4 принимает запросы в виде текстов и изображений. Например, новая модель может работать с документами, на которых есть не только текст, но и фото, диаграммы или скриншоты. В ответ он способен выдавать ответы на естественном языке, в виде программного кода и т. д.). В настоящее время запросы с изображениями находятся на стадии исследования и тестирования и не доступны широкой публике.
Запрос: «Что забавного в этом изображении? Опиши кадр за кадром».
GPT-4: «На изображении показан набор из трех картинок об адаптере Lightning.
Картинка 1: Смартфон с кабелем VGA (большой, голубой, 15-контактный штекер, обычно используемый для мониторов компьютеров), вставленным в его разъем зарядки.
Картинка 2: Упаковка от адаптера Lightning с изображением кабеля VGA на ней.
Картинка 3: Увеличенное изображение кабеля VGA с небольшим штекером Lightning (используется для зарядки iPhone и других устройств Apple) на конце.
Забава в этой картинке заключается в абсурдности вставки большого устаревшего кабеля VGA в небольшой современный разъем зарядки смартфона».
GPT-4 в подписке ChatGPT Plus
Подписчики ChatGPT Plus получили доступ к GPT-4 на chat.openai.com с ограниченным использованием — не более 100 запросов в 4 часа. Компания будет регулировать использование в зависимости от спроса и производительности системы на практике, но ожидает значительных ограничений в доступности (хотя компания и будет увеличивать масштаб и оптимизировать производительность в ближайшие месяцы). В зависимости от трафика, компания может ввести новый уровень подписки для более интенсивной работы GPT-4.
В будущем компания планирует предоставить и некоторое количество бесплатных запросов GPT-4, чтобы те, кто не подписан на услугу, могли попробовать ее.