Python-скрипт для массовой загрузки документов из двух API
Для работы мобильного приложения необходима база данных, которую LLM будет использовать после запроса пользователя в чате. База данных должна быть в Supabase. Если ответа нет в БД, тогда LLM будет обращаться по API к внешнему источнику.
1. Описание проекта
Разработать асинхронный Python-скрипт для массовой загрузки документов:
SITE API загрузить все доступные документы всех типов за весь период.
SITE API: загрузить все документы, начиная с 2000 года.
Сохранять полный текст, все поля и метаданные каждого документа. Целевая база — Supabase (PostgreSQL).
2. Функциональные требования
Задача для исполнителя на Python 3.8+:
A. Асинхронная массовая загрузка через API
Использование
aiohttp+asyncioдля асинхронной работы.Параллелизация запросов (10–50 одновременных соединений, без превышения допустимых API-лимитов).
Поддержка пагинации (
pageSizeмаксимум для SAOS — 100, для Sejm уточнить по документации).Для SAOS реализовать фильтрацию
judgmentDate >= 2000-01-01.Сохранение всех полученных полей — meta и полный текст решения.
B. Сохранение в Supabase
Пакетное сохранение данных (batch insert, до 1000–5000 записей за раз).
Использование
supabase-pyдля интеграции.Разработать SQL-схему:
Отдельные таблицы для sejm_documents и saos_judgments.
Сохранение метаданных в JSONB.
Индексы для ключевых полей (дата, суд, тип документа).
C. Надежность и контроль процесса
Автоматически восстанавливать прогресс после обрыва (checkpoint-файл).
Повторные попытки при неудачах (до 3 раз, с exponential backoff).
Детальное логирование — время выполнения, полученные объекты, ошибки.
D. Векторизация для поиска
После импорта — chunking каждого документа (25 чанков/документ; размер обсудить, ориентировочно 1500–2000 символов).
Сохранение чанков в отдельной таблице (
document_chunks), с ссылкой на оригинальный документ.(Опционально) Форма для дальнейшей векторизации через LLM API (Gemini Flash 2.5 или другого аналога).
3. Входные данные
Sejm API: все документы (по документации), все типы, все годы.
SAOS API: все суды, судебные решения с 2000 года.
Целевая БД: новый проект Supabase (PostgreSQL), учетная запись и ключи предоставляет заказчик.
Ожидаемое количество: 160,000+ , 520,000+ .
4. Структура данных (SQL Schema)
Таблица: sejm_documents
sqlCREATE TABLE sejm_documents (
id BIGSERIAL PRIMARY KEY,
source_id TEXT UNIQUE NOT NULL,
document_type TEXT,
title TEXT,
content TEXT,
metadata JSONB,
created_at TIMESTAMP DEFAULT NOW(),
updated_at TIMESTAMP,
is_processed BOOLEAN DEFAULT FALSE
);
Таблица: saos_judgments
sqlCREATE TABLE saos_judgments (
id BIGSERIAL PRIMARY KEY,
source_id TEXT UNIQUE NOT NULL,
court_type TEXT,
case_number TEXT,
judgment_date DATE,
text_content TEXT,
metadata JSONB,
created_at TIMESTAMP DEFAULT NOW(),
updated_at TIMESTAMP,
is_processed BOOLEAN DEFAULT FALSE
);
Таблица: document_chunks
sqlCREATE TABLE document_chunks (
id BIGSERIAL PRIMARY KEY,
document_id BIGINT REFERENCES sejm_documents(id) ON DELETE CASCADE,
chunk_index INT,
chunk_text TEXT,
created_at TIMESTAMP DEFAULT NOW()
);
5. Deliverables (что должно быть в результате)
Асинхронный Python-скрипт (+ подробная инструкция по запуску)
SQL-скрипты для создания необходимых таблиц
README для развертывания проекта с нуля
.env.exampleдля настройки ключей SupabaseЖурнал логов, контрольный файл для мониторинга прогресса
(Опционально для MVP): chunking тестовых документов для проверки RAG/LLM индексации
6. Требования
Документация к скрипту!
Простой запуск для владельца без опыта программирования.
Отзыв заказчика о сотрудничестве с Illia Antipiev
Python-скрипт для массовой загрузки документов из двух APIИлья, спасибо за работу. Проект был непростым, но вы справились. Заняло на много больше времени, чем планировалось. Выполнение задания на 100% требовало терпения и много правок, а также изменений с нашей стороны. В любом случае, спасибо!
Отзыв фрилансера о сотрудничестве с Maximilian D
Python-скрипт для массовой загрузки документов из двух APIСпасибо за сотрудничество! Все материалы, доступы были предоставлены вовремя и обновлялись по мере необходимости. Заказчик пошел навстречу, когда ему приходилось откладывать выполнение по личным причинам. Небольшой минус - иногда приходится отвечать на вопросы от человека, которому не хватает контекста. Поэтому приходилось повторяться 😔 Но следует отдать должное - некоторые ошибки он находит.
-
20 дней103 605 UAH
169 20 дней103 605 UAHДобрый день,
Предлагаю разработку асинхронного скрипта Python для массовой загрузки документов из API Сейма и SAOS, их хранения в Supabase, а также подготовки к дальнейшей векторизации для LLM. Скрипт будет поддерживать пакетную вставку, контрольные точки, повторные попытки и детальную регистрацию прогресса.
Предлагаю **оценку 8 500 зл нетто** с предполагаемым временем выполнения **3–4 недели**.
В работе я использую asyncio + aiohttp для параллельной загрузки данных, supabase-py для интеграции с базой, а также разработаю схему SQL и систему разбиения документов, обеспечивая легкий запуск и полную документацию.
У меня есть опыт работы с Python, асинхронными скриптами массовой загрузки данных и работой с PostgreSQL/Supabase, что позволяет обеспечить стабильное и масштабируемое внедрение всего процесса.
…
С удовольствием назначу встречу онлайн, чтобы представить план внедрения, способ разбиения документов и консультацию по интеграции с LLM и API.
-
2 дня9995 UAH
216 2 дня9995 UAHПривет!
У меня есть опыт в Python, asyncio и Supabase, работал с большими данными и API, готов качественно и быстро выполнить ваш проект.
-
1 день12 189 UAH
1562 7 0 1 день12 189 UAHДобрый день!
Меня зовут Роман, и я вхожу в топ-5 разработчиков в категории «Искусственный интеллект и машинное обучение» среди ~1600 специалистов на платформе.
Гарантирую:
- Быстрое и качественное выполнение задания
- Четкое соблюдение дедлайнов
- Регулярная связь на протяжении всего процесса
Буду рад обсудить детали вашего проекта в личных сообщениях.
-
Победившая ставка7 дней9995 UAH
2248 63 2 2 Победившая ставка7 дней9995 UAHЗдравствуйте
Смогу выполнить ваш проект
Напишу хорошую документацию
Для упрощенного запуска могу сделать докер-контейнер
-
7 дней10 360 UAH
762 31 0 7 дней10 360 UAHДобрый день!
У меня коммерческий опыт работы с Python 3+ года.
Работал с supabase и создавал скрипты автоматизации. Готов выполнить ваш проект.
Предлагаю улучшения из собственного опыта - это использовать circuit breaker + retry для запросов к API. А не sql скрипт для создания таблиц, а миграции. Также по поводу оптимизации данных у меня есть несколько идей, с радостью бы их обсудил.
У меня только несколько вопросов по части AI, не до конца понимаю, что требуется.
-
2 дня9995 UAH
205 2 дня9995 UAHУважаемый Maximilian,
Меня зовут Михаил, и я разработчик с огромным опытом в разработке веб-приложений, автоматизации и сбора данных. И с удовольствием хочу предложить свои услуги для успешного выполнения вашего проекта.
Из вашего ТЗ, я понимаю, что наиболее лучшим решением для вас будет написание скрипта на Puthon с использованием следующего стека: requests/selenium, sqlaclhemy, asyncio/threading. Я профессионал в области автоматизации, писал множество проектов связанные с параллельным парсингом, для меня неважно насколько сложен ресурс откуда нужно извлечь данные, они будут извлечены с максимальной скоростью и качеством. Для обхода защиты API буду использовать прокси, в конце предоставлю заполненную бд созданную через sqlaclhemy и весь код, при необходимости подключу нейросети.
Уверен, что смогу реализовать ваши идеи и довести проект до успешного завершения.
Я был бы рад возможности обсудить ваш проект подробнее и ответить на любые ваши вопросы.
-
3 дня9995 UAH
1430 14 3 1 3 дня9995 UAHЗдравствуйте, ознакомилась с вашим заданием и я заинтересована в его реализации, хотела бы с вами сотрудничать. Приглашаю к личной встрече для более детального обсуждения.
-
1 день9507 UAH
1328 6 0 1 день9507 UAHДобрый день, я готов взяться за ваш проект. У меня есть навыки с пайтоном.
-
6 дней10 970 UAH
475 2 0 6 дней10 970 UAHготов помочь вам
я думаю, возможно, вы можете использовать go вместо python
это выглядит лучше для этого случая использования
-
11 дней9739 UAH
981 6 3 11 дней9739 UAHДобрый день, сделаю всё как скажете. Надеюсь на сотрудничество, пишите в личные сообщения!
-
1 день9995 UAH
162 1 день9995 UAHЗдравствуйте.
С интересом ознакомилась с Вашим проектом. Уверена что смогу сделать эффективную и качественную работу соответствующее Вашим требованиям и ожиданиям. Опыт работы более 8 лет. Готова обсудить детали и приступить к работе. Жду Вашего ответа.
-
2 дня9995 UAH
316 1 0 2 дня9995 UAHЗдравствуйте, имею большой опыт веб разработки. Готов сделать быстро и качественно.
Пишите в личные сообщения – обсудим детали
-
3 дня12 189 UAH
656 9 0 3 дня12 189 UAHДобрый вечер, Максимилиан! В целом задание понятно, для точного ответа по срокам и цене хотелось бы уточнить некоторые вопросы, которые у меня возникли после анализа вашего задания. Пишите в личные сообщения – обсудим детали и ваши пожелания.
-
25 дней48 755 UAH
4272 25 0 25 дней48 755 UAHЗдравствуйте! Предлагаю реализовать на языке Go, разделить на спринты и начать с простого (отказаться на первых этапах от векторизации, чанков, повторных попыток), потому что так можно не завершить проект. Минимальная стартовая цена.
-
1 день9995 UAH
172 1 1 1 день9995 UAHЗдравствуйте! Готов выполнить этот проект большой опыт разработки различных приложений
-
7 дней9995 UAH
12862 4 2 7 дней9995 UAHПривет,
Я рад подать заявку на роль, связанную с асинхронным вводом документов и интеграцией Supabase. Имея глубокий опыт работы с Python (3.8+), aiohttp, asyncio и supabase-py, я могу предоставить надежный, масштабируемый ETL-пайплайн, адаптированный к вашим API и базам данных.
Ранее я создавал аналогичные системы для обработки документов с высоким объемом, включая пагинацию, пакетную обработку (1k–5k вставок), восстановление на основе контрольных точек и хранение метаданных JSONB в PostgreSQL. Я также понимаю важность разбивки и структурирования документов для будущего поиска на основе векторов и интеграции LLM.
Вы получите полностью документированное, готовое к производству решение — с полными скриптами схем, шаблонами .env, журналами и логикой повторных попыток — разработанное для простоты развертывания даже для недевелоперов.
С нетерпением жду возможности внести свой вклад в ваш проект.
… С наилучшими пожеланиями,
Джо Винсент Карретас
-
2 дня10 824 UAH
1251 35 1 3 2 дня10 824 UAHЗдравствуйте, я тот кто вам нужен.
За плечами большой опыт веб разработки.
Пишите в лс обговорим работу.
-
2 дня9995 UAH
342 2 дня9995 UAHДобрый день.
Готов выполнить вашу задачу быстро и качественно.
Преимущества:
- Простота использования.
- Бесплатная поддержка в течение 2 недель после выполнения заказа и исправления ошибок.
- Приступаю к работе в день принятия заказа и выполняю в кратчайшие сроки.
… Буду рад сотрудничеству.
-
1 день9995 UAH
3097 50 1 1 день9995 UAHДобрый день
пишите готов сделать вашу работу
Буду рад помочь с вашей задачей быстро и качественно
Актуальные фриланс-проекты в категории Python
Создание приложенияЖелаю создать мобильное приложение для общения, в приложении должны быть аудио, видео звонок, создание групповых чатов, возможность синхронизировать с контактами телефона, настройками аккаунта: привязка по email, 2fa, номеру телефона, возможность настраивать уведомления… Java, Python ∙ 4 минуты назад ∙ 2 ставки |
Настройка двусторонней интеграции WhatsApp с Odoo CRMЗдравствуйте! Ищем специалиста для реализации технического задания по настройке двусторонней интеграции мессенджера WhatsApp с CRM-системой Odoo. ⚠️ Важное техническое уточнение: Официальный WhatsApp Business API (WABA) не рассматривается. Необходимо внедрить стабильное «серое»… Python, Веб-программирование ∙ 9 часов 59 минут назад ∙ 19 ставок |
Парсинг данных через мобильное APIИщу человека с опытом парсинга данных через мобильное API, для парсинга e-commerce, rozetka и аналоги Задачи: 1. Перехват трафика мобильного приложения (Android) настройка прокси, анализ запросов 2. Определение нужных API endpoints куда идут запросы, какие headers… Python, Парсинг данных ∙ 2 дня 6 часов назад ∙ 30 ставок |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 7 дней 15 часов назад ∙ 29 ставок |
Розработка Тик-Ток фермы (контент-завод)Необзодимо разработать систему для централизованного управления несколькими TikTok-аккаунтами с автоматической публикацией контента, использованием индивидуальных прокси и имитацией естественной активности аккаунтов. Функциональные требования1. Управление аккаунтами Добавление… Python, Разработка ботов ∙ 8 дней 3 часа назад ∙ 22 ставки |