Запуск нового сервиса компьютерного зрения Yandex Vision для анализа изображений

Yandex Cloud
25 апреля 2019, 12:02

22 апреля на платформе Яндекс.Облако стал доступен сервис компьютерного зрения Yandex Vision для распознавания информации на изображениях. Теперь вы можете использовать технологии и экспертизу Яндекса в области работы с изображениями для решения собственных задач или разработки новых коммерческих продуктов.

Документальный пример: распознавание текста на картинке с Yandex Vision
Сервис Yandex Vision объединяет технологии OCR (Optical Character Recognition, OCR), автоматическую модерацию контента и определение присутствия человека на изображении.

В качестве источника можно использовать любое изображение скан документа, фотографию, рисунок. При этом необходимо учитывать, что качество распознавания снижается в следующих случаях:

наклон текста составляет более 15 градусов;
на изображении рукописный текст;
использованы художественные шрифты;
слово написано сверху вниз;
очень крупный текст (одно слово занимает все изображение).

Хороший пример использования технологий Yandex Vision демонстрирует платформа программной роботизации процессов electroNeek. Она в том числе помогает компаниям малого и среднего бизнеса автоматизировать документооборот, исключив из процесса работы с оцифрованными документами человеческий фактор. С помощью Yandex Vision решается задача по доставке распознанных данных в системы. Робот распознаёт документ, далее через настроенную логику производит обработку и ввод данных в нужную систему. После завершения он передаёт отчёт с результатом человеку.

Как отмечает Сергей Юдовский, CEO electroNeek Robotics, Inc.:

Мы внедрили Yandex Vision в нашу платформу для автоматизации бизнес-задач и получили десятикратное ускорение обработки документов, возможность полностью исключить ручной труд при переносе данных системы документооборота. Отдельно стоит отметить высокое качество работы Yandex Vision с текстами на языках стран СНГ — ни одно из представленных на рынке решений по автоматическому распознаванию текста не дает такой точности

Основы работы с Yandex Vision
Начать пользоваться новым инструментом может любой пользователь платформы Яндекс.Облако — для подключения через API достаточно выполнить действия, описанные в руководстве. Учтите, что на данный момент действуют следующие технические ограничения в работе:

10 запросов в секунду
5 распознаваний текста в секунду
поддерживаемые форматы файлов: JPEG, PNG
1 Мб — максимальный размер файла
20 мегапикселей — максимальный размер изображения

46 языковых моделей, точность до 96%, страница текста — 10 копеек
Распознавание текста проходит в два этапа: сначала определяется языковая модель, потом производится поиск текста на изображении.

Первым делом вы указываете языки для распознавания, поскольку это напрямую влияет на качество конченого результата. На данный момент представлено 46 языковых моделей. Подробнее об этом можно в разделе Поддерживаемые языки и модели распознавания. Отметим лишь, что если с англо-русской моделью хорошо справляются несколько технологий, присутствующих на рынке, то при работе с языками стран СНГ наши технологии имеют преимущество. Например, для отсканированных документов русский и английский текст распознается Yandex Vision со средней точностью около 96%, казахский — с точностью 94%.

На этапе поиска текста на изображении Yandex Vision вычленяет текст (если он есть на картинке) и группирует по уровням: слова в строки, строки в блоки, блоки в страницы.

Стоимость одной страницы текста, полученной с помощью сервиса Yandex.Vision составляет всего 10 копеек. По сравнению с решениями аналогичного уровня качества наши цены позволяют добиться существенной экономии.

Попробовать YandexVision