Парсинг каталога драйверов
Задача: написать Bash-скрипт, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.
Алгоритм скрипта:
Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта
Конвертирует файлы Sitemap.xml в CSV формат
Wget запрашивает HTML-файлы из CSV
Grep чистит HTML код от мусора (по регуляркам)
Складывает файлы на HDD
Примечание: скачивать картинки, CSS и прочую статику не нужно, скачиваем только контент HTML-файлов.
Требования:
Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний
Артефакты:
Структура Sitemap
Структура итоговых папок
Регулярные выражения для очистки от мусора
-
786 27 2 2 Добрый день, могу предложить вам решение на Python. Я работаю на Python уже более 3х лет, а конкретно в сфере парсинга больше 2х лет. За это время сделал довольно большое количество парсеров. Для реализации вашего проекта буду использовать Selenium beautiful soup и requests. Все зависит от сайта донора, сроки и стоимость примерная так как нужно увидеть сайт. Также помогу с настройкой сервера, поиском антикапчи и прокси, и дальнейшей поддержке проекта. Интересует качественное и полноценное решение? Пишите мне в ЛС.
-
Есть смысл писать именно в Bash?
-
чтобы управлять скоростью парсинга
Это по сайтам? Хотите управлять количество скриптов который работает с одним сайтом или что-то другое?
Список сайтов откуда берем?
-
Каким образом хотите управлять потокам?
-
Хотел бы тоже узнать кто донор?
и не лучше ли парсить сразу в бд, а не в фалы? -
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Parsowanie danych przez mobilne APISzukałem osoby z doświadczeniem w parsowaniu danych przez mobilne API, do parsowania e-commerce, rozetka i podobne Zadania: 1. Przechwytywanie ruchu aplikacji mobilnej (Android) konfiguracja proxy, analiza zapytań 2. Określenie potrzebnych punktów końcowych API, do których… Python, Parsowanie danych ∙ 22 godziny 41 minut temu ∙ 23 oferty |
Szukam programisty lub kodera do automatyzacji scrapingu danych 2https://drive.google.com/file/d/14tP5XWJB9acV4gn_cJrFwMpihUj3EbQz/view?usp=sharing przypadkowo wysłałem ten link Programowanie stron internetowych, Parsowanie danych ∙ 1 dzień 1 godzina temu ∙ 31 ofert |
Stworzyć dashboard w https://airtable.com/ dotyczący efektywności reklamowych kreacji z facebook adsPełnoprawne TZ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Bazy danych i SQL, Parsowanie danych ∙ 5 dni 19 godzin temu ∙ 19 ofert |
Stworzenie pliku Exel do załadowania towarów na strony innych partnerów.Interesuje mnie, aby stworzyć tabelę Excel ze wszystkimi parametrami. Oto strona - https://heiztechnik.com.ua/ A pozycje, które mnie interesują, powinny być przeniesione: Kotły ręczne: 1) TIS UNI 15-95 kW (10) szt 2)TIS HARD 150-500 kW (7) szt Kotły na pelety: 1)TIS PELLET… Parsowanie danych ∙ 5 dni 23 godziny temu ∙ 37 ofert |
Wymagany programista do parsowania katalogu i automatyzacji importu danychSzczegółowe TZ w załączonym dokumencie proszę w odpowiedzi podać orientacyjną cenę i terminy realizacji czy masz doświadczenie w parsowaniu dużych katalogów jakie możliwe trudności lub ograniczenia widzisz w tym zadaniu Bazy danych i SQL, Parsowanie danych ∙ 6 dni 2 godziny temu ∙ 42 oferty |