Компания Dahua заняла 1 место в двух тестах ReCTS

Компания Dahua Technology, известный во всем мире китайский производитель видеорешений и поставщик услуг в сфере IoT, заняла первое место в двух основных тестах  искусственного интеллекта по надежному чтению текста на вывесках Robust Reading Competition on Reading Chinese Texts on Signboard — ReCTS. Система от Dahua оказалась лучшей в категориях распознания символов и распознания строк.

Надежное чтение (Robust Reading) — это область исследований, которая занимается обнаружением и распознанием текстовой информации на изображениях при их неограниченном изменении. С 2011 года проводятся регулярные соревнования в этой дисциплине, охватывающие широкий спектр реальных жизненных сценариев. Каждый тест строится вокруг различных задач.

В набор данных теста ReCTS входит 25 000 помеченных изображений, собранных камерами обычных телефонов в неконтролируемых условиях. В основном там встречаются китайские тексты на вывесках ресторанов. Коллекция делится на обучающий набор из 20 000 фото и тестовый, включающий 5 000 фото. В этом году система от компании Dahua показала лучший результат в двух основных задачах  ReCTS.

 Компания Dahua заняла 1 место в двух тестах ReCTS

ReCTS, задача 1.  Распознание символов на вывеске.

В рамках первой задачи требуется распознание отдельных символов на обрезанном изображении вывески. В качестве нейросети для решения этой задачи команда Dahua использовала технологию EfficientNet, обученную с разной глубиной и шириной. Кроме того, для обучения применялись различные синтетические образцы, сгенерированные собственным алгоритмом. Чтобы привести данные к общему виду, образцы были обработаны с помощью методов сглаживания, вырезания и вращения. В этом тесте алгоритм Dahua показала точность 97.73% и вышел на первое место.

 Компания Dahua заняла 1 место в двух тестах ReCTS. Изображение 2

ReCTS, задача 2.  Распознание строк на вывеске.

Вторая задача — это распознание строк на вывеске. Исходные данные для задачи — это обрезанные изображения вывесок, либо изображения с указанными координатами ограничивающих вывеску многоугольников. Распознание текста выполнялось на основе фреймворка CRNN с различными структурами многомасштабной магистрали извлечения функций вроде  SAResNET. Кроме того, для предсказания окончательного результата применялось многомодельное слияние. Для тренировки нейросети использовались наборы данных  ReCTS, LSVT, RCTW, ART, а так же высококачественные синтетические изображения. В тесте система Dahua показала результат 96.93% и заняла первое место.

Автоматическое детектирование и распознание текстов в естественных условиях  привлекает все большее внимание, так как может использоваться во множестве реальных приложений. Так же это требуется во многих задачах автоматического анализа содержимого изображений. Победа в тестах ReCTS стала результатом многолетнего непрерывного внедрения инноваций в сфере искусственного интеллекта и служит доказательством приверженности компании к развитию технологий.