Решение проблем видеонаблюдения с помощью крупномасштабных AI-моделей Dahua Xinghan

Снаружи работа любой системы искусственного интеллекта может казаться «черным ящиком», который выдает результаты магическим образом. Новые крупномасштабные AI-модели Dahua Xinghan — не исключение.

Эта статья посвящена «магии» — реальным преимуществам, которые Xinghan дает в сценариях физической безопасности. Xinghan знаменует собой значительный скачок вперед — от предыдущих поколений ИИ на основе сверточных нейронных сетей (CNN), анализирующих визуальные импульсы, к крупномасштабному ИИ, который может обрабатывать визуальную информацию, контекст и язык одновременно.

Новый ИИ от Dahua представлен тремя различными сериями — Модели зрения Xinghan (Vision Models), Мультимодальные модели (Multimodal Models) и Языковые модели Xinghan (Language Models). Хотя названия предполагают сложность, их влияние очевидно во всех основных областях, где ИИ движет инновациями — от лучшего обнаружения до более умных решений и интуитивного управления.

Упаковывая новый ИИ в три модели, Dahua гарантирует, что каждая из них преуспевает в своей области и эффективно работает на соответствующем оборудовании. Камеры, NVR, IVSS и IVD загружают только соответствующую модель, которая им нужна, поэтому оконечные устройства остаются отзывчивыми, в то время как оборудование бэк-энда системы сосредотачиваются на более глубоком анализе.

Такой ориентированный на практику подход показывает, что расширение возможностей новых рабочих процессов безопасности было центральной задачей в разработке Xinghan. Каждое техническое новшество позволяет совершить прорыв на практике:

От Точности к Прецизионности
От Разрозненности к Централизованным Приложениям
От Распознавания к Пониманию
От Статической Реакции к Динамической Адаптации
Расширенные Языковые и Мультимодальные Возможности

Визуальные улучшения

Xinghan может распознавать людей и объекты, которые меньше, дальше или частично перекрыты — задачи, которые часто ставят в тупик более старые AI-модели на основе CNN. Модели зрения Dahua Xinghan решают эту проблему с помощью архитектуры на основе Transformer, которая обеспечивает на 50% большую по сравнению с предыдущими моделями максимальную дальность обнаружения, при гарантированной точности 98%.

Используя возможности крупномасштабных AI-моделей Xinghan, устройства Dahua могут автоматически идентифицировать сцену на изображении и определять, активировать или деактивировать WDR на основе изменений в картинке. Это исключает необходимость ручной регулировки, обеспечивая четкое изображение и снижая операционную нагрузку на пользователя.

Однако, дополнительная «видимость» — это не только возможность заметить больше. Это также означает меньше ложных тревог благодаря более точному пониманию визуального контекста происходящего. Ключевая часть этого — лучшее различие угроза/не угроза: например, отличие собаки от человека или движение кустов из-за ветра от реальной попытки проникновения. Xinghan сокращает количество ложных тревог на 92%.

Эти улучшения важны во всех средах, где необходимо защищать периметр — от промышленных зон и шахт до объектов критической инфраструктуры, правительственных учреждений и многих других.

Анализ множества объектов одновременно

Отслеживание в общественных пространствах — еще одна область, в которой преуспевают модели ИИ-зрения Xinghan. Отслеживание конкретных людей в таких сценариях для старой технологии ИИ представляло большие трудности, особенно когда конкретные люди проходят за объектами или их пути пересекаются с другими.

Благодаря технологии WizTracking, Модели зрения Xinghan сохраняют стабильность сопровождения, даже когда люди частично перекрыты, поскольку новый ИИ может анализировать последовательности кадров и восстанавливать траектории движения на основе временной логики. Это особенно полезно при наблюдении за общественными пространствами и в сценариях социального управления — от общественных парков до парковок, а также на заводах. Эта технология обеспечивает лучшее, более детальное понимание сцены и тем самым ускоряет рабочий процесс служб безопасности.

С Xinghan способность справляться с наблюдением за толпой в дождливые дни, когда большинство людей носят зонты, также значительно возрастает. В таких сценариях точность улучшается на 80%.

Особенно полезная в часы пик на транспортных узлах или публичных мероприятиях, другая функция Xinghan — Crowd Map — помогает анализировать плотность и потоки на уровне зоны, отмечая превышение порогов скопления людей или заполняемости.

Интуитивное взаимодействие

Инновации, которые приносят крупномасштабные AI-модели Dahua Xinghan, выходят далеко за пределы визуальной сферы. Добавляя следующий уровень интеллекта к AI, ориентированному на видео, Мультимодальные модели Xinghan позволяют пользователям интуитивно взаимодействовать со своей системой безопасности.

Одной из центральных технологий Мультимодальных моделей Xinghan является WizSeek, благодаря которой пользователям больше не нужно ориентироваться в жестких границах меню для поиска ключевых записей. Вместо этого они могут просто ввести запрос, например, «мужчина в синей куртке у ворот», и мгновенно получить соответствующую запись.

WizSeek значительно упрощает рабочий процесс служб безопасности, делая часто используемую функцию такой же интуитивной, как просьба о помощи к коллеге.

Текстовые оповещения (Text-defined alarms), с другой стороны, позволяют пользователям создавать пользовательские правила обнаружения, просто вводя инструкции на естественном языке. Вместо трудоемкого обучения алгоритмов они могут, например, напечатать: «предупреди меня, когда кто-то войдет в запретную зону с рюкзаком». Мультимодальные модели Xinghan немедленно развертывают правило, сокращая время настройки сигнализации с недель до менее минуты.

Мультимодальные модели Xinghan помогают в решении множества задач. Например, в наблюдении за трафиком WizSeek помогает путем фильтрации записей восстанавливать инциденты, такие как столкновения или движение в запрещенном направлении. В промышленных зонах или на электростанциях службы безопасности могут пользоваться ускоренным поиском в записях проверок нарушений правил безопасности или упрощенной настройки пользовательских оповещений о инцидентах.