Парсинг данных
4940 UAHТехническое задание
1. Общее описание
Необходимо разработать программное решение для извлечения данных о поставщиках с портала государственных закупок www.goszakup.gov.kz. Данные должны быть получены из выигранных поставщиками договоров за 2023 год и первые 3 месяца 2024 года. После извлечения данные каждого поставщика должны быть проверены на наличие в реестре недобросовестных участников закупок.
2. Функциональные требования
- Парсинг данных поставщиков из открытых договоров:
- Название поставщика
- БИН/ИНН
- Банковские реквизиты
- Номер телефона
- Электронная почта
- ФИО руководителя
- Проверка БИН/ИНН поставщика в реестре недобросовестных участников закупок.
- Выгрузка данных в формате CSV или другой заданный формат.
- Логирование процесса парсинга и результатов проверки.
3. Нефункциональные требования
- Производительность:
- Время выполнения парсинга не должно превышать разумные пределы (определить на этапе проектирования).
- Надежность:
- Обработка ошибок и исключительных ситуаций.
- Возможность возобновления работы с места остановки.
- Безопасность:
- Парсинг должен выполняться в рамках правовых и этических норм (без DDoS и перегрузки серверов).
4. Технологический стек
- Язык программирования: Python 3.x
- Библиотеки: requests, beautifulsoup4, pandas, и другие необходимые.
- Система контроля версий: Git
5. Этапы разработки
- Проектирование архитектуры и выбор подходящих библиотек.
- Разработка модуля парсинга данных с портала.
- Разработка модуля проверки в реестре недобросовестных участников.
- Интеграция модулей и реализация выгрузки данных.
- Тестирование и отладка.
- Развертывание.
6. Команда и ресурсы
- Требуется один разработчик с опытом работы в Python и веб-скрапинга.
- Доступ к порталу www.goszakup.gov.kz и реестру недобросовестных участников закупок.
Срок разработки будет определен после оценки объема работ на этапе проектирования. Готов обсудить любые дополнительные детали для успешной реализации проекта.
-
14 дней24 700 UAH
1045 10 0 14 дней24 700 UAHДобрый день, имею большой опыт в веб-скрепинге, выполнял проекты разной сложности сбора данных, автоматизация ETL, умею обращаться со всем функционалом (работа с запросами, куками, прокси, юзер-агентами, авторизацией, обход капчи в том числе клаудфлейр), с последующей обработкой и преобразованием данных.
-
5 дней11 227 UAH
960 8 2 5 дней11 227 UAHЗдравствуйте, ознакомился с вашим ТЗ в нем, все понятно, готов приступать. В ваше коде я бы заменил request на aiohttp, beautifulsoup4 можно заменить на lxml, html5lib или scrapy. Использую систему контроля версий github для каждого проекта, опыт работы с python более 4 лет. Так же недавно выполнял подобный проект с паузами и парсинге объемных данных. Реализую парсинг в рамках правовых и этических норм.
О себе: прописываю грамотную архитектуру для простого деплоя с помощью докер и могу упаковать туда все что нужно, знания bin, bash, zsh на высоком уровне, уверенный пользователь линукс.
Уверенно реализую как веб-интерфейсы так и GUI интерфейсы, можете посмотреть портфолио, https://github.com/sashabodiul и могу лично показать реальные выполненные проекты.(PyQt5, kivy, tkinter, Flask, FastAPI, Django)
По стеку технологий, имею большой бэкграунд
В парсинге использую прокси, user-agent и пропись различных headers при необходимости, умею работать с инспектором, javascript, dom, умею извлекать данные даже с ajax и graphql
Основные библиотеки для парсинга: aiohttp,lxml,bs4,scrapy
Автоматизация web: Selenium
Создание API, на golang и python, GinGo, Flask, FastAPI, RestfulAPI, Swagger
Имею опыт работы с Google sheets и google cloud console
… Умение работать с различными базами sql и nosql.
Решение капч anticaptcha.
Знание потоков Semaphore, threading, concurrent.future. Умение работать с numpy и more_itools а именно chunked для разбиения параллельного скрапинга на равномерные потоки, что очень ускоряет сбор объемных данных
Базовые знания для построения веб интерфейсов
Также из полезных навыков, умею работать с API, умение доставать скрытые API, и работать с xml
PyQuery для работы с html документами
Pyppeteer также для автоматизаций
-
7 дней22 455 UAH
257 7 дней22 455 UAHДоброго времени,
Интересный проект.
Возможно не хватает базы данных или описания механизма работы с данными (как и где их хранить пока используются и нужно ли это ).
В принципе понятна логика,есть примерное решение из коммерческого опыта.
И нужно будет уточнить по законодательству по поводу ресурса,1-возможно у них есть вариант получать эту же информацию в формате xls,csv или просто ссылка на скачивание.
2- насколько легально чекать из сайт без спросу))
… Мои преимущества - есть опыт коммерческий разносторонний в разработке больше 6 лет) и взгляд на проект шире в силу профильного высшего образования.
Мой стек
Python/Django/FastAPI
PostgreSQL +SqlAlchemy + Alembic
Всего хорошего,
С уважением,
Тали.
-
4 дня5389 UAH
229 1 0 4 дня5389 UAHЗаинтересовало предложение, уверен, что соответствую Вашим требованиям, буду рад обратной связи, спасибо
-
14 дней35 927 UAH
187 1 0 14 дней35 927 UAHДобрый день,
если интересно могу реализовать на node.js
Есть немалый опыт парсинга разной сложности, пишите обсудим детали.
-
3 дня11 227 UAH
1993 12 0 3 дня11 227 UAHДобрый день
Имею большой опыт парсинга любой сложности
Напишите мне
Актуальные фриланс-проекты в категории Python
AI Commenting Platform для TikTok и Instagram.Цель проекта Разработать систему, которая позволяет управлять большим количеством аккаунтов TikTok и Instagram и автоматически публиковать релевантные комментарии под выбранными видео с использованием ИИ. Основной функционал1. Управление аккаунтами Необходимо реализовать… AI и машинное обучение, Python ∙ 6 часов 23 минуты назад ∙ 10 ставок |
Построить модель классификации клиентов1. Есть данные клиентов в Mongo/SQL (примерно 20 000 записей с сырыми данными). 2. Необходимо на их основе построить фичи и модель классификации клиентов на поведенческие группы. 3. Проект выполнить на Python. AI и машинное обучение, Python ∙ 2 дня назад ∙ 32 ставки |
ИТ Автоматизация ведения VAT-отчетности
10 000 UAH
Необходимо разработать систему для автоматизации переноса данных о продажах из CRM в бухгалтерскую систему Wafeq. Система должна импортировать банковские и платежные отчеты, автоматически сверять платежи с инвойсами, формировать инвойсы для VAT-отчетности и минимизировать ручную… AI и машинное обучение, Python ∙ 2 дня 6 часов назад ∙ 43 ставки |
Инструмент сверки счетов с банком, картами и бухгалтеромТехническое задание: инструмент сверки счетов с банком, картами и бухгалтеромОбщая цель Нужен локальный инструмент (скрипт/небольшое приложение на Python), который запускается вручную раз в 1-2 месяца на моём компьютере и делает сверку между: Счетами, которые я выставил клиентам… Python, Десктопные приложения ∙ 2 дня 18 часов назад ∙ 42 ставки |
Автоматическая публикация видео в социальные сети по расписаниюТехническое задание (ТЗ) Автоматическая публикация видео в социальные сети по расписаниюОписание проекта Нужен скрипт/бот (Python предпочтительно, либо любое другое решение на ваш выбор — главное стабильность и простота поддержки), который автоматически публикует видео из папки… Python, Разработка ботов ∙ 3 дня 6 часов назад ∙ 59 ставок |