Скрипт для парсинга pdf-файлов указанного формата
Трамовая коля — элемент дороги, предназначенный для движения рейковых транспортных средств, который ограничивается по ширине:
1 JPG
1) Специально выделенным вымощением трамвайной линии.
2) дорожной муткой.
3) Ответы, указанные в пунктах 1 или 2.
3
Проездной частью считается:
2 JPG
1) Элемент дороги, предназначенный для движения рейковых и нерейковых транспортных средств.
2) Элемент дороги, предназначенный для движения нерейковых транспортных средств.
2
...
и файлы изображения 1.jpg, 2.jpg, ...
Если в определенном вопросе нет изображения, то секция не создается, номер изображения обязательно соответствует номеру вопроса из источника.
Номер правильного ответа выбирается по номеру пункта, выделенному цветом (не белый фон).
Обновил образец файла-источника (убран заголовок темы и ненужное поле сверху справа на первой странице).
Ещё требование: если в вопросе больше, чем одна картинка (2-3 в ряд), то можно сохранять только первую, но обязательно выводить в отдельный текстовый файл номер такого вопроса (чтобы потом вручную их уже можно было склеить).
И самое главное ещё раз – надо не обработать 2-3 файла, а написать завершенное решение (скрипт), которое будет обрабатывать файлы указанного формата.
Возможно в дополнение к файлу-источнику приложить файл ответов в таком формате:
1 2 3 4 5 6 7 8
2 3 4 3 3 1 1 4
9 10 11 12 13
1 2 1 2 1
Нечётные строки – порядковые номера вопросов. Чётные – номера ответов к ним.
Т. е. 1-й ряд – вопросы, 2-й ряд – ответы к ним и т. д.
Добавляю файл с нумерацией ответов.
Уточню, на всякий пожарный:
- на входе: pdf-файл указанной структуры + текстовый файл сопоставления правильных ответов (см. уточнения);
- на выходе: текстовый файл указанной структуры + файлы картинок с нумерацией, соответствующей порядковой нумерации вопросов + файл, в котором указано, в каких вопросах содержится более одной картинки.
Приложения 2
-
Речь идет только об этом файле или нужно именно решение для многих подобных файлов?
-