Парсер изображений при помощи OpenCV + Tesseract
Парсер изображений при помощи OpenCV + Tesseract
Цель парсера: извлечь информацию определенных ячеек и занести в базу данных (таблица эксель)
Сложность: позиция окна вариирует на рабочем столе, а так же в некоторых случаях интерфейс окна меняется. OpencCV используется для нахождения интересующих полей при помощи сегментации изображения, фильтрации найденных полей и создание отдельных изображений (в ОЗУ) для передачи в tesseract.
Точность распознаваемости: >95%. Около 5% погрешность - "вина" tesseract, но использовалась стандартная база без обучения. Уверен, что с обучением можно достичь как минимум 99%. Точность нахождения ячеек составляет 100%.
Сравнение с шаблоном (template matching) и машинное обучение (machine learning) не используется. Обучение с учителем (supervised learning) можно использовать для нахождение всех интересующих полей, но для данного примера это скорее всего был бы оверкилл.
#OpenCV #tesseract #C++ #Парсинг #Win32API
Цель парсера: извлечь информацию определенных ячеек и занести в базу данных (таблица эксель)
Сложность: позиция окна вариирует на рабочем столе, а так же в некоторых случаях интерфейс окна меняется. OpencCV используется для нахождения интересующих полей при помощи сегментации изображения, фильтрации найденных полей и создание отдельных изображений (в ОЗУ) для передачи в tesseract.
Точность распознаваемости: >95%. Около 5% погрешность - "вина" tesseract, но использовалась стандартная база без обучения. Уверен, что с обучением можно достичь как минимум 99%. Точность нахождения ячеек составляет 100%.
Сравнение с шаблоном (template matching) и машинное обучение (machine learning) не используется. Обучение с учителем (supervised learning) можно использовать для нахождение всех интересующих полей, но для данного примера это скорее всего был бы оверкилл.
#OpenCV #tesseract #C++ #Парсинг #Win32API