Конвертировать pdf в json
Привет, есть задание, нужно конвертировать 2 pdf файла в json. А именно на странице https://hsc.gov.ua/index/poslugi/vidacha-posvidchennya-vodiya/pitannya-ta-ispit-z-pdr/ в первом абзаце есть Экзаменационные вопросы и ответы. Вот их нужно конвертировать в json.
Вопросы в json должны иметь такую структуру:
{
"topics": [
{
"topicId": 1,
"topicTitle": "1. ОБЩИЕ ПОЛОЖЕНИЯ",
"questions": [
{
"questionId": 1,
"text": "1. Трамвайная колея – элемент дороги, предназначенный для движения рельсовых транспортных средств, который ограничивается по ширине:",
"image": "1_1.png",
"options": [
{
"optionId": 1,
"text": "1) Специально выделенным вымощением трамвайной линии."
},
{ "optionId": 2, "text": "2) Дорожной разметкой." },
{
"optionId": 3,
"text": "3) Ответы, указанные в пунктах 1 и 2."
}
]
},
{
"questionId": 2,
"text": "2. Элемент дороги, предназначенный для движения рельсовых транспортных средств, который ограничивается по ширине специально выделенным вымощением трамвайной линии или дорожной разметкой это:",
"image": null,
"options": [
{
"optionId": 1,
"text": "1) Трамвайная колея."
},
{ "optionId": 2, "text": "2) Усовершенствованное покрытие." },
{
"optionId": 3,
"text": "3) Полоса движения."
}
]
}
]
},
{
"topicId": 2,
"topicTitle": "2. ОБЯЗАННОСТИ И ПРАВА ВОДИТЕЛЕЙ МЕХАНИЧЕСКИХ ТРАНСПОРТНЫХ СРЕДСТВ",
"questions": [
{
"questionId": 1,
"text": "1. В случае, если невозможно предпринять меры для оказания первой помощи пострадавшему и вызвать бригаду экстренной (скорой) медицинской помощи, а также если с места ДТП нет возможности отправить пострадавшего в лечебное учреждение с помощью других лиц, водитель обязан:",
"image": "2_1.png",
"options": [
{
"optionId": 1,
"text": "1) ответ"
},
{ "optionId": 2, "text": "2) ответ" },
{
"optionId": 3,
"text": "3) ответ"
},
{
"optionId": 4,
"text": "4) ответ"
}
]
}
]
}
]
}
То есть ничего сложного, повторить структуру из pdf, где есть там 63 основные темы (с подтемами например 16, 16.1 и 16.2 может больше, подтемы в json не надо делать в тему 16, они должны также идти как отдельная тема, чтобы потом правильно обработать.)
По фото. Фото это номер темы_номер вопроса, но 34 тема и 8 вопрос имеет фото, название фото будет 34_8.png. Все фото нужно сохранить в одну папку "images" с соответствующими названиями например 34_8.png чтобы можно было из обработанного json разметить.
Важно порядок всех тем, вопросов и ответов должен сохраниться, так как во втором pdf у нас есть ответы, нужно их сделать в таком формате:
{
"1": {
"1": 3,
"2": 1,
"3": 4
},
"2": {
"1": 2,
"2": 3
}
}
То есть тема 1, первый вопрос будет иметь ответ 3, и т.д. Дальше я уже буду обрабатывать вопросы с ответами. Поэтому структура и последовательность важны!.
Если будут вопросы, обращайтесь! По цене тоже можем обсудить. Проект не коммерческий, а пет, поэтому в меру разумного)!
И просьба перед тем как откликнуться на задание, попробуйте сможете ли вы, чтобы задание не застоялось, спасибо!
Результаты работы
Отзыв заказчика о сотрудничестве с Антоном Ц.
Конвертировать pdf в jsonСпасибо Антону за его помощь, выполнил задание очень быстро и качественно, с нужным результатом!
Отзыв фрилансера о сотрудничестве с Костянтином Буданковым
Конвертировать pdf в jsonЗаказчик быстро проверял результаты, предоставлял уточнения, а после финального варианта успешно закрыл проект.
-
Я спаршу PDF и сконвертирую в JSON по вашей структуре с помощью Python-скрипта, сохранив все изображения и правильную последовательность ответов. У меня большой опыт в парсинге данных и автоматизации, сделаю все чисто и без ошибок. Выполню работу за 2 дня, бюджет 1000 грн устраивает.
Есть ли у вас ограничения по разрешению для извлеченных изображений .png?
-
1090 11 1 Могу сделать. Формат понятен: 1-й PDF - темы/вопросы/варианты + поле image (topic_question.png), все картинки в /images с названиями типа 34_8.png, подтемы (16.1/16.2/…) - как отдельные темы, порядок тем/вопросов/вариантов сохраняю 1:1. 2-й PDF - отдельный JSON с ответами в вашей структуре { "topicId": { "questionId": correctOptionId } }. Перед стартом сделаю быстрый тест на 1–2 темах и покажу кусок JSON + 2–3 картинки с правильными названиями, чтобы вы подтвердили, что все читается и совпадает.
-
5940 345 0 Поиграл с PDF файлами, написал пробные скрипты, один извлекает текст в структурированном виде (темы, вопросы и варианты ответов) и изображения в отдельные файлы с привязкой к теме и вопросу из PDF, другой преобразует все это в JSON. В некоторых местах PDF немного кривой (а может я кривой, все может быть), отсюда и работа в два этапа, между которыми немного проверяется и исправляется вручную, но все же абсолютное большинство данных извлекается корректно.
-
580 11 0 Добрый день! У меня есть опыт, когда-то я выполняла подобное задание. Быстро выполню!
-
3012 73 4 2 Привет! Могу сделать в таком формате!!! Обращайтесь!!!!!!!!!!
-
2556 38 0 Добрый день! Ознакомился с задачей, сделаю быстро сегодня. Уже был опыт конвертирования в json с пдф
-
136 Добрый день!
Просмотрел оба PDF и структуру JSON. Готов конвертировать вопросы и ответы с полным сохранением порядка тем и нумерации.
Все изображения вынесу в отдельную папку с корректными названиями файлов для дальнейшей разметки.
Гарантирую соответствие структуры и последовательности данных.
Срок выполнения — 2 дня.
-
1111 7 1 Привет!
У меня есть опыт в обработке PDF файлов и их конвертации в JSON. Недавно я работал над проектом, где конвертировал документы в машиночитаемые форматы с помощью Python и библиотеки PyPDF2 или pdfplumber.
Я реализую парсинг PDF файлов, экстрагирую информацию и структурирую её в формате JSON, как указано. Использую библиотеки для парсинга, чтобы обеспечить точность данных, и сохраню изображения в папке "images" с правильными именами.
Моя работа гарантирует удобство в дальнейшей обработке и правильный формат для вашего проекта. Готов начать!
-
841 26 4 1 Разобрать исходный документ можно, даже интересно, однако предлагаемое вознаграждение явно мало, не находите? Я бы разобрал, перекодировал. Цена пока не реальная.
Потребуется 3-5 дней, чтобы несколько раз попробовать выполнить задание, успех - предрешён
-
654 2 0 Привет!
Могу конвертировать PDF с сайта hsc.gov.ua в JSON с нужной структурой, включая картинки в папку images.
Точный порядок тем и вопросов сохраню.
Выполнение: 3–5 дней, стоимость: 1000грн.
-
Привет, Константин! Ваш проект выглядит интересным и понятным, а конвертация PDF в JSON имеет значение для любого вашего будущего приложения. Как опытный веб-дизайнер и специалист по обработке различных форматов файлов, готов применить свои знания для точного воспроизведения данных в нужном формате. Мой подход предполагает бережное сохранение порядка тем, вопросов и ответов, что является критическим для дальнейшей работы с ними. Давайте обсудим, как я могу помочь вам реализовать ваш проект качественно и вовремя!
-
Добрый день. Выполню в течение нескольких часов. Обращайтесь.
Приступлю сразу.
-
213 1 0 Здравствуйте! Меня заинтересовал ваш проект.
У меня есть опыт автоматизации обработки больших объемов данных. Для вашей задачи (539 страниц вопросов + 11 страниц ответов) я разработал специальный алгоритм на Python, который позволяет:
Гарантировать 100% точность: исключить человеческий фактор при конвертации тысяч вопросов.
Автоматически называть изображения: сохранить и привязать фото по маске {topicId}_{questionId}.png точно по вашей структуре.
Сохранить иерархию: корректно обработать все темы и подтемы в указанный JSON-формат.
Готов бесплатно выполнить демо-версию (первая тема), чтобы вы убедились в качестве и скорости моего подхода. Если вас интересует автоматизированная обработка с гарантированным результатом — буду рад обсудить детали.
-
8495 38 0 1 могу перегнать через гпт если промт отработает корректно, то по картинке должно быть все хорошо
-
1860 21 0 Здравствуйте. Как вы и попросили, заранее попробовал разобрать pdf. Вся сложность здесь именно во втором pdf (с ответами), который не просто является сканом, но ещё и плохим сканом, где даже некоторые цифры настолько не видно, что нельзя визуально даже восстановить человеком. Будь у нас только первый pdf, получилось бы дёшево и очень быстро, но из-за второго pdf цена становится сильно выше (где-то 70% от всей цены это именно второй pdf с ответами), но всё выполнимо. В течение дня можно сделать.
-
3356 70 1 Здравствуйте.
Я ознакомился с PDF.
Занимаюсь написанием скриптов с нуля под определенные задачи. Смогу выполнить проект.
-
10130 117 0 Здравствуйте.
Могу написать скрипт на NodeJS. Готов взяться. Пишите, обсудим.
Актуальные фриланс-проекты в категории Веб-программирование
Нужно создать форму Gravity Forms по шаблону чатаНужно создать форму Gravity Forms по шаблону чата Знание или хотя бы понимание английского обязательно!!! Я предоставлю сайт, где имеется что-то типа онлайн чата где нужно выбирать опции и в зависимости от этих опций открываются новые поля... По итогу форма должна выглядеть… Веб-программирование ∙ 10 минут назад ∙ 3 ставки |
Создание или корректировка сайта на opencartВсем привет! Предварительная ситуация для понимания: Заказал разработку сайта у Templatemonsters. Заранее согласовал ТЗ и купил у них шаблон. В итоге не соблюдены дэдлайны и вообще в итоге написали, что не могут сделать так, как согласовали. Хостинг купил по их рекомендации у… Веб-программирование, Интернет-магазины и электронная коммерция ∙ 7 часов 42 минуты назад ∙ 9 ставок |
Разработка AI мобильного приложения детских сказокИщу опытного разработчика или команду для создания мобильного приложения с искусственным интеллектом, которое будет генерировать короткие, добрые и возрастные сказки для детей простой, красивый и безопасный продукт, где родитель за пару минут может создать персональную сказку… AI и машинное обучение, Веб-программирование ∙ 8 часов 44 минуты назад ∙ 22 ставки |
Betting нужно сделать букмекерскую контору! С ОПЫТОМНужно разработать betting-платформу / букмекерский продукт на базе готового шаблона. Основная задача — адаптировать шаблон под полноценную букмекерскую контору: подключить парсинг спортивных событий и коэффициентов, реализовать личный кабинет пользователя, баланс, ставки,… Python, Веб-программирование ∙ 8 часов 50 минут назад ∙ 16 ставок |
Переводчик для вордпресс.Нужно перевести сайт вордпресс c wocommerce на 30 языков. Плагин для удобного автоматического перевода. Что бы не прокликивать каждую страницу для переводов и каждый товар. Что бы делать исключения на определенные фразы. Можно было корректировать перевод. Автоматичесий перевод… Веб-программирование, Создание сайта под ключ ∙ 9 часов 20 минут назад ∙ 13 ставок |