Написать асинхронный парсер (Python + aiohttp + lxml)
Нужно написать парсер данных с сайта:
https://safer.fmcsa.dot.gov/query.asp?searchtype=ANY&query_type=queryCarrierSnapshot&query_param=MC_MX&query_string=500015
С одной странички нужно получить около 60 полей с текстовыми данными.
Запросов (страниц) будет больше 100000.
Сами данные я получаю с помощью lxml через XPath (все XPath'ы я уже получил, с этим пунктом я справился).
Обязательно:
Парсер должен быть написан/ускорен (не силен в терминологии) с помощью aiohttp. Шустро работать, не вызывать ошибок и проблем с безопасностью сайта.
Корректная запись данных в CSV файл
Опционально (если умеешь, и справишься, можем обсудить доп. стоимость этих пунктов):
Подключение прокси (или других методов безопасности парсинга, т.к. планируется много запросов).
Вместо записи в CSV файл, сделать запись данных в МОЮ Базу Данных PostgreSQL.
От вас требуется только корректно работающий ".py" код, всю работу с парсингом я беру на себя, сам буду запускать на своих серверах, и записывать данные к себе.
Обращаю внимание: Парсер нужно написать именно с учетом указанных мою технологий и инструменов. Пожалуйста, не предлагайте мне "написать с помощью BS4 и Selenium, и записать данные в SQLite", внимательно ознакомьтесь с текстом объявления, благодарю за понимание.
На все вопросы отвечу, всё обсудим и договоримся, надеюсь на благотворное сотрудничество!
-
69 Здаствуйте, есть опыт работы с парсерами и асинхронщиною в python, сделаю все качественно
-
Добрый день, Максим.
Я вижу этот проект из "нужна помощь" перешел в стадию "надо сделать" 🙂
Есть опыт не только парсинга с помощью aiohttp с проксями, но и работе сервера на этом фреймворке. Читая описание проекта у меня возникает несколько непонятных моментов. Например: надо сделать парсер, но ниже "всю работу с парсингом я беру на себя". Могу только догадаться что надо написать асинхронный клиент для скачивания большого кол-ва страниц, а сам синтаксический разбор каждой страницы Вы уже знаете как реализовать. Верно? Или уточните задание, пожалуйста.Хотел сделать ставку, но не понимаю до конца объем работ и детали. Готов помочь или написать клиентскую часть, но надо многое уточнить.
-
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Szukam programisty do OpenCartDzień dobry 1) należy wdrożyć na stronie dneprkomfort.dp.uazakupiono moduł dla ukraińskich banków, już wdrożono Monto bank oto przykład naszego konkurenta Trzeba zrobić rozłożenie na raty, zakupy na raty (Monto Bank) Pumb, Sens, Monto domyślnie 2 płatności na 2 miesiące Pumb… Programowanie stron internetowych, Parsowanie danych ∙ 8 godzin 47 minut temu ∙ 20 ofert |
Wymagany specjalista ds. promocji w Telegramie.
107 PLN
Zadania: zapraszanie rzeczywistych użytkowników z bazy nazw użytkowników do nowych czatów oraz wysyłanie wiadomości do docelowej bazy. Interesuje nas tylko jakościowy ruch i praca z żywą publicznością — wykonawców korzystających z botów, sztucznego zwiększania lub niskiej… Parsowanie danych, Promocja w sieciach społecznościowych (SMM) ∙ 4 dni 11 godzin temu ∙ 9 ofert |
Konsultacja dotycząca parsowania subskrybentów kont InstagramWitam. Konieczne jest przeprowadzenie wstępnej oceny możliwości realizacji następującego zadania. Posiadam listę kont na Instagramie. Celem jest uzyskanie danych kontaktowych (w pierwszej kolejności adresów e-mail) użytkowników, którzy obserwują te konta. Wcześniej spotkałem… Parsowanie danych ∙ 8 dni 6 godzin temu ∙ 13 ofert |
Potrzebny specjalista do wyszukiwania kontaktów decydentów w UkrainieKonieczne jest zebranie bazy (lub gotowej bazy) kontaktów osób podejmujących decyzje (LPR) w firmach Ukrainy. Wyszukiwanie i zbieranie informacji, Parsowanie danych ∙ 8 dni 10 godzin temu ∙ 21 ofert |
Trzeba zeskrobać dane z LinkedInPotrzebujemy wyciągnąć dane z LinkedIn według naszej listy. Dla każdego wpisu należy znaleźć i zebrać dostępne dane, jeśli takie są na profilu LinkedIn, w tym zdjęcie profilowe w serwisie społecznościowym LinkedIn, adres e-mail, linki do mediów społecznościowych, stronę… Parsowanie danych ∙ 8 dni 16 godzin temu ∙ 28 ofert |