
Компания Dahua Technology, известный во всем мире китайский производитель видеорешений и поставщик услуг в сфере IoT, заняла первое место в двух основных тестах искусственного интеллекта по надежному чтению текста на вывесках Robust Reading Competition on Reading Chinese Texts on Signboard — ReCTS. Система от Dahua оказалась лучшей в категориях распознания символов и распознания строк.
Надежное чтение (Robust Reading) — это область исследований, которая занимается обнаружением и распознанием текстовой информации на изображениях при их неограниченном изменении. С 2011 года проводятся регулярные соревнования в этой дисциплине, охватывающие широкий спектр реальных жизненных сценариев. Каждый тест строится вокруг различных задач.
В набор данных теста ReCTS входит 25 000 помеченных изображений, собранных камерами обычных телефонов в неконтролируемых условиях. В основном там встречаются китайские тексты на вывесках ресторанов. Коллекция делится на обучающий набор из 20 000 фото и тестовый, включающий 5 000 фото. В этом году система от компании Dahua показала лучший результат в двух основных задачах ReCTS.
ReCTS, задача 1. Распознание символов на вывеске.
В рамках первой задачи требуется распознание отдельных символов на обрезанном изображении вывески. В качестве нейросети для решения этой задачи команда Dahua использовала технологию EfficientNet, обученную с разной глубиной и шириной. Кроме того, для обучения применялись различные синтетические образцы, сгенерированные собственным алгоритмом. Чтобы привести данные к общему виду, образцы были обработаны с помощью методов сглаживания, вырезания и вращения. В этом тесте алгоритм Dahua показала точность 97.73% и вышел на первое место.
ReCTS, задача 2. Распознание строк на вывеске.
Вторая задача — это распознание строк на вывеске. Исходные данные для задачи — это обрезанные изображения вывесок, либо изображения с указанными координатами ограничивающих вывеску многоугольников. Распознание текста выполнялось на основе фреймворка CRNN с различными структурами многомасштабной магистрали извлечения функций вроде SAResNET. Кроме того, для предсказания окончательного результата применялось многомодельное слияние. Для тренировки нейросети использовались наборы данных ReCTS, LSVT, RCTW, ART, а так же высококачественные синтетические изображения. В тесте система Dahua показала результат 96.93% и заняла первое место.
Автоматическое детектирование и распознание текстов в естественных условиях привлекает все большее внимание, так как может использоваться во множестве реальных приложений. Так же это требуется во многих задачах автоматического анализа содержимого изображений. Победа в тестах ReCTS стала результатом многолетнего непрерывного внедрения инноваций в сфере искусственного интеллекта и служит доказательством приверженности компании к развитию технологий.