Скрипт для парсинга pdf-файлов указанного формата

Name: Скрипт для парсинга pdf-файлов указанного формата
Price: 899 UAH
Availability: InStock

Парсинг данных — неверно указаны категории?

899 UAH

Проект переведен автоматически. Войдите или зарегистрируйтесь, чтобы увидеть оригинал Необходимо выполнить парсинг pdf-файла, результатом которого будет текстовый файл следующего формата: Трамовая коля — элемент дороги, предназначенный для движения рейковых транспортных средств, который ограничивается по ширине: 1 JPG 1) Специально выделенным вымощением трамвайной линии. 2) дорожной муткой. 3) Ответы, указанные в пунктах 1 или 2. 3 Проездной частью считается: 2 JPG 1) Элемент дороги, предназначенный для движения рейковых и нерейковых транспортных средств. 2) Элемент дороги, предназначенный для движения нерейковых транспортных средств. 2 ... и файлы изображения 1.jpg, 2.jpg, ... Если в определенном вопросе нет изображения, то секция не создается, номер изображения обязательно соответствует номеру вопроса из источника. Номер правильного ответа выбирается по номеру пункта, выделенному цветом (не белый фон).

Обновление #1 от 24 сентября 2022

Обновил образец файла-источника (убран заголовок темы и ненужное поле сверху справа на первой странице).

Ещё требование: если в вопросе больше, чем одна картинка (2-3 в ряд), то можно сохранять только первую, но обязательно выводить в отдельный текстовый файл номер такого вопроса (чтобы потом вручную их уже можно было склеить).

Обновление #2 от 24 сентября 2022

И самое главное ещё раз – надо не обработать 2-3 файла, а написать завершенное решение (скрипт), которое будет обрабатывать файлы указанного формата.

Обновление #3 от 25 сентября 2022

Возможно в дополнение к файлу-источнику приложить файл ответов в таком формате:

1 2 3 4 5 6 7 8

2 3 4 3 3 1 1 4

9 10 11 12 13

1 2 1 2 1

Нечётные строки – порядковые номера вопросов. Чётные – номера ответов к ним.

Т. е. 1-й ряд – вопросы, 2-й ряд – ответы к ним и т. д.

Обновление #4 от 25 сентября 2022

Добавляю файл с нумерацией ответов.

Обновление #5 от 25 сентября 2022

Уточню, на всякий пожарный:

на входе: pdf-файл указанной структуры + текстовый файл сопоставления правильных ответов (см. уточнения);
на выходе: текстовый файл указанной структуры + файлы картинок с нумерацией, соответствующей порядковой нумерации вопросов + файл, в котором указано, в каких вопросах содержится более одной картинки.