Написать асинхронный парсер (Python + aiohttp + lxml)
Нужно написать парсер данных с сайта:
https://safer.fmcsa.dot.gov/query.asp?searchtype=ANY&query_type=queryCarrierSnapshot&query_param=MC_MX&query_string=500015
С одной странички нужно получить около 60 полей с текстовыми данными.
Запросов (страниц) будет больше 100000.
Сами данные я получаю с помощью lxml через XPath (все XPath'ы я уже получил, с этим пунктом я справился).
Обязательно:
Парсер должен быть написан/ускорен (не силен в терминологии) с помощью aiohttp. Шустро работать, не вызывать ошибок и проблем с безопасностью сайта.
Корректная запись данных в CSV файл
Опционально (если умеешь, и справишься, можем обсудить доп. стоимость этих пунктов):
Подключение прокси (или других методов безопасности парсинга, т.к. планируется много запросов).
Вместо записи в CSV файл, сделать запись данных в МОЮ Базу Данных PostgreSQL.
От вас требуется только корректно работающий ".py" код, всю работу с парсингом я беру на себя, сам буду запускать на своих серверах, и записывать данные к себе.
Обращаю внимание: Парсер нужно написать именно с учетом указанных мою технологий и инструменов. Пожалуйста, не предлагайте мне "написать с помощью BS4 и Selenium, и записать данные в SQLite", внимательно ознакомьтесь с текстом объявления, благодарю за понимание.
На все вопросы отвечу, всё обсудим и договоримся, надеюсь на благотворное сотрудничество!
-
69 Здаствуйте, есть опыт работы с парсерами и асинхронщиною в python, сделаю все качественно
-
Добрый день, Максим.
Я вижу этот проект из "нужна помощь" перешел в стадию "надо сделать" 🙂
Есть опыт не только парсинга с помощью aiohttp с проксями, но и работе сервера на этом фреймворке. Читая описание проекта у меня возникает несколько непонятных моментов. Например: надо сделать парсер, но ниже "всю работу с парсингом я беру на себя". Могу только догадаться что надо написать асинхронный клиент для скачивания большого кол-ва страниц, а сам синтаксический разбор каждой страницы Вы уже знаете как реализовать. Верно? Или уточните задание, пожалуйста.Хотел сделать ставку, но не понимаю до конца объем работ и детали. Готов помочь или написать клиентскую часть, но надо многое уточнить.
-
Актуальные фриланс-проекты в категории Python
AI Commenting Platform для TikTok и Instagram.Цель проекта Разработать систему, которая позволяет управлять большим количеством аккаунтов TikTok и Instagram и автоматически публиковать релевантные комментарии под выбранными видео с использованием ИИ. Основной функционал1. Управление аккаунтами Необходимо реализовать… AI и машинное обучение, Python ∙ 13 часов 45 минут назад ∙ 13 ставок |
Построить модель классификации клиентов1. Есть данные клиентов в Mongo/SQL (примерно 20 000 записей с сырыми данными). 2. Необходимо на их основе построить фичи и модель классификации клиентов на поведенческие группы. 3. Проект выполнить на Python. AI и машинное обучение, Python ∙ 2 дня 8 часов назад ∙ 33 ставки |
ИТ Автоматизация ведения VAT-отчетности
10 000 UAH
Необходимо разработать систему для автоматизации переноса данных о продажах из CRM в бухгалтерскую систему Wafeq. Система должна импортировать банковские и платежные отчеты, автоматически сверять платежи с инвойсами, формировать инвойсы для VAT-отчетности и минимизировать ручную… AI и машинное обучение, Python ∙ 2 дня 13 часов назад ∙ 44 ставки |
Инструмент сверки счетов с банком, картами и бухгалтеромТехническое задание: инструмент сверки счетов с банком, картами и бухгалтеромОбщая цель Нужен локальный инструмент (скрипт/небольшое приложение на Python), который запускается вручную раз в 1-2 месяца на моём компьютере и делает сверку между: Счетами, которые я выставил клиентам… Python, Десктопные приложения ∙ 3 дня 1 час назад ∙ 42 ставки |
Автоматическая публикация видео в социальные сети по расписаниюТехническое задание (ТЗ) Автоматическая публикация видео в социальные сети по расписаниюОписание проекта Нужен скрипт/бот (Python предпочтительно, либо любое другое решение на ваш выбор — главное стабильность и простота поддержки), который автоматически публикует видео из папки… Python, Разработка ботов ∙ 3 дня 13 часов назад ∙ 59 ставок |