Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak

Парсер изображений при помощи OpenCV + Tesseract

Парсер изображений при помощи OpenCV + Tesseract

Цель парсера: извлечь информацию определенных ячеек и занести в базу данных (таблица эксель)

Сложность: позиция окна вариирует на рабочем столе, а так же в некоторых случаях интерфейс окна меняется. OpencCV используется для нахождения интересующих полей при помощи сегментации изображения, фильтрации найденных полей и создание отдельных изображений (в ОЗУ) для передачи в tesseract.

Точность распознаваемости: >95%. Около 5% погрешность - "вина" tesseract, но использовалась стандартная база без обучения. Уверен, что с обучением можно достичь как минимум 99%. Точность нахождения ячеек составляет 100%.

Сравнение с шаблоном (template matching) и машинное обучение (machine learning) не используется. Обучение с учителем (supervised learning) можно использовать для нахождение всех интересующих полей, но для данного примера это скорее всего был бы оверкилл.

#OpenCV #tesseract #C++ #Парсинг #Win32API
Детали работы
Бюджет 5000 UAH
Добавлена 29 апреля 2021
885 просмотров
Фрилансер
Виктор Л.
Германия Mallersdorf-Pfaffenberg  23  1

Временно не работаю Временно не работаю
23 Сейфа завершены
На сервисе 7 лет