Что такое компьютерное зрение?
Об эксперте: Роман Коновалов, президент группы компаний «СиДиСи».
Компьютерное зрение (Computer Vision, CV) — это область искусственного интеллекта, связанная с анализом изображений и видео. Она включает в себя набор методов, которые наделяют компьютер способностью «видеть» и извлекать информацию из увиденного.
Системы состоят из фото- или видеокамеры и специализированного программного обеспечения, которое идентифицирует и классифицирует объекты. Они способны анализировать образы (фотографии, картинки, видео, штрих-коды), а также лица и эмоции.
Чтобы научить компьютер «видеть», используются технологии машинного обучения. Собирается множество данных, которые позволяют выделить признаки и комбинации признаков для дальнейшей идентификации похожих объектов.
По данным исследования TAdviser, с 2018 по 2023 год объем отечественного рынка решений в этой сфере увеличится в пять раз до 38 млрд рублей. Наибольшую долю в нем занимают решения в области видеонаблюдения и безопасности — 32%, промышленности — 17%, медицины — 14%, торговли — 10%.
Для чего бизнесу компьютерное зрение?
- Безопасность. Практически во всех сферах применимы системы контроля доступа на основе распознавания лиц: от бизнес-центров и офисов компаний до банков и ресторанов.
- Сервис. За счет быстрой идентификации по лицу можно сократить время обслуживания клиента и предложить персональные услуги.
- Усиление человеческих возможностей. Компьютерное зрение позволяет увидеть то, что человек может не заметить. Особенно актуально это в медицине (анализ рентгеновских и других снимков) и промышленности (обнаружение брака).
- Сокращение времени на рутинные задачи. Распознавание, как правило, занимает несколько секунд.Человек будет рассматривать полку в магазине на предмет правильности выкладки товаров намного дольше.
- Автономность. Без компьютерного зрения невозможно развитие беспилотного транспорта и роботов.
В чем проблема?
Для дальнейшего распространения систем компьютерного зрения в бизнес-среде разработчики решают проблему быстродействия и стабильности систем.
Сейчас камеры передают данные на сервер, где с помощью специального ПО происходит распознавание. Системе нужен постоянный доступ к высокоскоростному интернету. Передача данных на сервер замедляет процесс. Проблемы с Сетью вообще останавливают его.
Поэтому появляются автономные решения. Например, резидент «Сколково», компания «ИРЦЭ», совместно с ГК «СиДиСи» разработали «ядро», способное распознавать образы прямо в мобильном устройстве без обмена информацией с серверами. При этом точность распознавания доведена до 98%. На основе этого «движка» может быть создано решение для разных отраслей и целей.
Главные тренды последних лет в компьютерном зрении
На конференции OpenTalks AI, посвященной искусственному интеллекту, эксперты обозначили главные тренды в CV:
- На первый план выходят генеративно-состязательные модели нейросетей. Такие, как GAN — это генеративно-состязательная нейросеть, которая состоит из генератора и дискриминатора. Ян Лекун, директор Facebook по исследованиям искусственного интеллекта, назвал ее «самой интересной идеей в машинном обучении за последние десять лет». Генераторы в GAN генерирует входные данные, а дискриминаторы оценивают их подлинность и классифицируют по категориям, используя определенный набор признаков.
- Развитие генеративно-состязательных сетей позволило совершить качественный скачок в распознавании и генерации человеческих лиц. Те же GAN создают максимально реалистичные изображения, которые неотличимы от реальных фото или живописи. Правда, с изображениями животных дела пока обстоят намного хуже.
- Помимо статичных изображений все большее распространение получают нейроаватары — движущиеся изображения на основе 1-32 фото, таймплампсы на основе фото пейзажа и моделирование 3D-сцен на основе панорамных фотографий. Следующий шаг — анимирование фотографий с помощью специальных алгоритмов.
Что такое моделирование 3D сцен?
Еще в 2009 году Дэвид Маккиннон из Технологического университета в Квинсленде (Австралия) разработал программу 3DSee, которая генерирует 3D-модели на основе 5-15 фотографий. Важное условие: все фотографии должны пересекаться как минимум на 80-90%. На разработку у Маккиннона ушло восемь лет. Следующий шаг — автоматическая генерация 3D-моделей в высоком разрешении, как в сцене с пулями из «Матрицы».
Создание 3D-сцен востребовано в строительстве, дизайне интерьера, военном деле, анимации. В Голливуде уже используют эту технологию, чтобы с точностью воспроизвести освещение, расположение актеров и декораций — для экономии средств на технически сложных съемках. Производители обучают на таких 3D-моделях роботов, которым нужно передвигаться в пространстве по определенному маршруту и преодолевать препятствия. 3D-сканеры подходят для аутентификации личности, виртуальной примерки одежды и многих других вещей. Уже сейчас с помощью смартфона можно отснять человека с разных ракурсов и получить 3D-аватар.
Виктор Лемпицкий, глава Samsung AI Center, профессор Skoltech, в своем докладе на OpenTalks AI отметил, что именно моделирование 3D-сцен было в центре внимания специалистов по CV в 2020 году. Пока что нейросетям сложно в деталях воспроизводить некоторые текстуры — такие, как листва деревьев или прическа — и создавать полноценные модели в 360°. Но в ближайшем будущем они заменят 3D-дизайнеров и аниматоров: смогут сами создавать рендеры зданий и интерьеров, анимированные презентации и VR-симуляции объектов. К примеру, технология NeRF от Google уже генерирует реалистичные объемные изображения, которые используют для создания AR и VR-среды.
Поиск плагиата при помощи компьютерного зрения
С помощью алгоритма Eora Mage можно за пять секунд найти похожий логотип. Это удобно, если вы только выбираете изображение и не хотите: чтобы кто-то из конкурентов подал на вас в суд.
Технологию использует в своей работе патентное бюро «Интэлс», которое регистрирует логотипы и товарные знаки. На этапе регистрации специалистам нужно убедиться, что такой товарный знак еще не регистрировали, и у клиента не будет юридических проблем. Раньше патентовед почти месяц вручную перебирал всю базу и готовил отчет, куда включал до 100 похожих изображений. Теперь на это уходят секунды, а точность алгоритма — от 80%.
Компьютерное зрение в ретейле: умные весы и оплата улыбкой
Поставщики товаров в крупные торговые сети начали снабжать мерчендайзеров планшетами со специальным ПО для распознавания фотографий. Вместо того чтобы проверять наличие товаров, его расстановку и актуальность ценников вручную, торговый представитель просто фотографирует полку. Система сравнивает ее с планограммой и выдает рекомендации: какого товара не хватает, что стоит не на своем месте, где перепутаны ценники или не указана текущая акция. Анализируя полки конкурентов, система мониторит долю полки в динамике.
Например, корпорация Mars реализовала пилотный проект внедрения такой системы в своем подразделении в Казахстане. По итогам пилота принято решение о масштабировании проекта еще в десяти странах присутствия компании.
Запущены пилотные проекты в России, когда системы распознавания и видеоаналитики используются для анализа посещаемости торговых точек, перемещения покупателей, среднего времени пребывания в очереди. Это позволяет оптимизировать рабочий график персонала и сделать пребывание в магазине более комфортным, а обслуживание — быстрым.
В апреле этого года X5 Retail Group объявила о разработке «умных весов», которые с помощью технологии компьютерного зрения идентифицируют товар при взвешивании на кассе. Ритейлер планирует установить 500 таких весов в 100 магазинах сети «Пятерочка». Инновация должна ускорить обслуживание покупателей на кассах.
Платить за покупку улыбкой, выявлять недовольных обслуживанием клиентов, таргетировать рекламу в торговом зале исходя из возраста и пола человека, примерять вещи в виртуальной примерочной — такие проекты уже есть. Пока единичные, но в перспективе пяти-десяти лет они станут повсеместными.
Например, платежная система Alipay начала тестировать систему оплаты на основе компьютерного зрения в 2017 году, реализовав пилотный проект в одном из китайских ресторанов KFC. И теперь в Китае оплата «улыбкой» не является чем-то сверхъестественным, а в борьбу за этот рынок вступила платежная система WeChat Pay. Оплатить покупки, просто улыбнувшись в камеру у кассы, можно в супермаркетах CP Lotus в Пекине и сотнях других магазинов по всей стране.
Международная сеть WalMart тестировала систему, которая при обнаружении покупателя с несчастным лицом оповещала об этом сотрудников магазина. Два года назад эксперимент с распознаванием эмоций покупателей провели в «ДоДо-Пицца». Это позволило компании оценить качество работы сотрудников, мотивировать их «собирать улыбки».
Компьютерное зрение в промышленности: надень каску!
Кроме систем контроля доступа технологии распознавания используются для обеспечения безопасности работников. Например, системы видеоаналитики следят за ношением средств индивидуальной защиты на опасных производствах: если на человеке нет каски, маски, перчаток, яркого жилета, он получает уведомление. Сигнал отправляется и его руководству.
На пультах центрального управления, где важно соблюдать высокий уровень концентрации и не отвлекаться, системы распознавания лиц следят за состоянием специалистов. Если у человека снижается внимание или он засыпает, пользуется телефоном или отходит от своего поста, он и вся команда получают предупреждение.
CV-технологии начинают применяться для контроля качества производимых изделий: видят дефекты, помогая на ранней стадии отсеять брак, проверяют размеры, определяют верные расстояния, считывают маркировку компонентов при сборке на конвейере. Экономия достигается за счет минимизации ошибок и брака.
Компьютерное зрение в финансах: получить кредит лицом
Благодаря компьютерному зрению лицо становится новым ID человека. В том числе для получения финансовых услуг. Пока бумажный паспорт никто не отменял, но идентификация по лицу позволяет обеспечить 100% защиты от мошенников, предъявляющих чужой документ.
Развивается технология подтверждения лицом операций в мобильном приложении. Системами распознавания скоро будут оборудованы и банкоматы.
Компьютерное зрение в медицине: окровавленные губки
Компьютерное зрение становится виртуальным помощником врача. Технологии анализируют медицинские изображения — рентгеновские снимки, МРТ и УЗИ, помогая повысить точность диагностики заболеваний. Например, проект Microsoft InnerEye помогает быстро и точно найти опухоли на снимках МРТ. Компания из Калифорнии Gauss Surgical разработала систему, позволяющую принимать решения о необходимости переливания крови: она анализируют ее потерю по наполняемости хирургических губок во время операции или во время родов. Разработка также ведет учет губок для того, чтобы врач случайно не забыл их внутри (такое происходит в одной из 5,5 тыс. операций, по данным компании).
Без компьютерного зрения не смогут «работать» и роботы-хирурги, которые скоро выйдут во многие операционные. Эпидемия коронавируса уже стала толчком для развития телемедицины. Здесь системы распознавания помогут провести первичную диагностику некоторых заболеваний по фотографии.
Нейросетевые алгоритмы также помогают улучшить качество снимков рентгена и КТ, убрав лишние шумы и искажения. Это позволяет пациентам меньше времени находиться в аппарате и снизить дозу облучения до 25% от обычной. В будущем компьютеры на базе ИИ смогут полностью заменить КТ и рентген-аппараты, чтобы сразу получать высококачественные снимки с минимальной дозой облучения. Для так называемого НДКТ-скрининга достаточно и 10% данных от КТ. Такие технологии применяют в Philips и компании «Третье Мнение» при разработке ИИ-решений для медицины.
Компьютерное зрение в смартфонах
В современных моделях смартфонов используют технологии, которые помогают обрабатывать изображение еще в процессе съемки. Среди них — LiDAR в iPhone, суперзум в Huawei или Pixel в Google. Специальные алгоритмы делают несколько снимков, сопоставляют их и выводят идеальное по цвету и качеству изображение. При этом они рассчитывают световые потоки, строят объемные модели и производят другие вычисления на базе компьютерного зрения. С помощью камеры смартфона можно даже создать 3D-модель пространства, предмета или человека.
Подробнее — в материале «Что такое вычислительная фотография»
Однако это не единственное, на что способно CV. В Google создали приложение для смартфона Project Guideline, позволяющее слепым заниматься бегом. Оно работает на Android и iOS, озвучивает подсказки, текст и изображения, а также поддерживает голосовой ввод. Так приложение помогает бегуну понять, что за объекты его окружают и как ему строить свой маршрут. Оно даже распознает эмоции на лицах людей, которые встречаются на пути.
Компьютерное зрение на транспорте: взглядом беспилотника
Компьютерное зрение — необходимый компонент для развития автономного наземного, воздушного, морского транспорта. Технологии помогают машинам ориентироваться в пространстве. Системы распознавания лиц используются для обеспечения безопасности на объектах транспортной инфраструктуры: вокзалах, аэропортах, станциях метро. В будущем лицо станет и билетом на любой вид пассажирского транспорта. Однако пока это невозможно из-за действующего законодательства: регистрироваться на самолет можно только по паспорту.
Технологии компьютерного зрения способны анализировать заполняемость парковок, давая информацию об оптимизации системы городского транспорта.
Компьютерное зрение в сельском хозяйстве: на поиски саранчи
В агробизнесе будущего большую роль сыграют технологии, позволяющие автоматизировать основные процессы и повысить их качество. Например, системы распознавания образов способны диагностировать болезни растений и замечать вредных насекомых, определять высоту и объем сельхозкультур в поле, сверять их с идеальными показателями и помогать принимать решение об уборке урожая.
Например, дрон, разработанный американской компанией Taranis, изучает поля с высоты и определяет наличие болезней и вредителей до того, как это может заметить человек. Подобные разработки ведет компания FarmView совместно с Carnegie Mellon University. В Норвегии стартап Aquabyte разработал систему обнаружения морских вшей, которые приносят убытки рыбным хозяйствам.
В теплицах и на полях смогут трудится роботы, которые благодаря машинному зрению будут собирать лучшие плоды и делать это очень осторожно. Компания «Dogtooth Technologies» разработала робота для сбора клубники, который с помощью компьютерного зрения определяет спелые ягоды. Полностью автоматизированные фермы, где компьютерное зрение выбирает лучшие и наиболее спелые плоды для сбора, «видит» вредителей и любые проблемы у растения на этапе их зарождения, развивает компания 80 Acres Farms.
Компьютерное зрение в сфере досуга: проход на трибуны
Системы распознавания лиц уже установлены на спортивных аренах не только в мире, но и в России. Они не пускают болельщиков, которым запрещено по решению суда посещать матчи, помогают подтверждать личность владельца абонемента, ускоряют проход на мероприятия.
Лицо как входной билет — это уже вполне реальные возможности для сферы развлечений.
Компьютерное зрение в образовании: экзамен без подстав
Компьютерное зрение позволит развиваться системе онлайн-образования. Например, подтверждать личность во время дистанционной сдачи экзамена: именно «подмена» учащегося является проблемой при удаленном тестировании. Такие системы уже используются в некоторых университетах мира, например, Cambridge Boxhill Language Assessments в Мельбурне. Этим летом, как писали СМИ, многие российские вузы проводили сессии с помощью систем прокторинга. В некоторых из них используется технология компьютерного зрения для сравнения экзаменуемого с фотографией из базы, а также контроля его действий во время экзамена. Рособрнадзор планирует внедрить в школах систему выявления нарушителей при сдаче ЕГЭ: компьютерное зрение определяет подозрительные действия учеников, отправляя эти отрезки видео для проверки наблюдателям.
Системы распознавания применяются в аудиториях для контроля вовлеченности студентов в образовательный процесс. В Университете Сан-Паулу такой трекер следит за глазами студентов, что позволяет оценивать, насколько они внимательны и хорошо ли усваивают материал. Подобные исследования и эксперименты проводят и в российских вузах. Например, в Казанском государственном университете, Финансовом университете при Правительстве РФ.