Парсинг каталога драйверов
Задача: написать Bash-скрипт, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.
Алгоритм скрипта:
Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта
Конвертирует файлы Sitemap.xml в CSV формат
Wget запрашивает HTML-файлы из CSV
Grep чистит HTML код от мусора (по регуляркам)
Складывает файлы на HDD
Примечание: скачивать картинки, CSS и прочую статику не нужно, скачиваем только контент HTML-файлов.
Требования:
Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний
Артефакты:
Структура Sitemap
Структура итоговых папок
Регулярные выражения для очистки от мусора
-
786 27 2 2 Добрый день, могу предложить вам решение на Python. Я работаю на Python уже более 3х лет, а конкретно в сфере парсинга больше 2х лет. За это время сделал довольно большое количество парсеров. Для реализации вашего проекта буду использовать Selenium beautiful soup и requests. Все зависит от сайта донора, сроки и стоимость примерная так как нужно увидеть сайт. Также помогу с настройкой сервера, поиском антикапчи и прокси, и дальнейшей поддержке проекта. Интересует качественное и полноценное решение? Пишите мне в ЛС.
-
Есть смысл писать именно в Bash?
-
чтобы управлять скоростью парсинга
Это по сайтам? Хотите управлять количество скриптов который работает с одним сайтом или что-то другое?
Список сайтов откуда берем?
-
Каким образом хотите управлять потокам?
-
Хотел бы тоже узнать кто донор?
и не лучше ли парсить сразу в бд, а не в фалы? -
Актуальні фриланс-проєкти в категорії Парсинг даних
Консультація по парсингу підписників Instagram-акаунтівДоброго дня. Необхідно провести попередню оцінку можливості виконання наступного завдання. У мене є список Instagram-акаунтів. Мета — отримати контактні дані (в першу чергу email-адреси) користувачів, які підписані на ці акаунти. Раніше мені зустрічалися компанії та сервіси, які… Парсинг даних ∙ 3 години 4 хвилини тому ∙ 3 ставки |
Потрібен спеціаліст для пошуку контактів ЛПР по УкраїніНеобхідно зібрати базу (чи готова база) контактів осіб, які приймають рішення (ЛПР), у компаніях України. Збір інформації, Парсинг даних ∙ 7 годин 37 хвилин тому ∙ 8 ставок |
Потрібно спартити дані з LinkedinПотрібно спартити дані з Linkedin по нашому списку. Для кожного запису потрібно знайти та зібрати доступні дані якщо такі є на Linkedin профілі включаючи фотографію профілю на соц мережі Lihnkedin, email-адресу, посилання на соціальні мережі, вебсайт компанії, номер телефону.… Парсинг даних ∙ 13 годин 24 хвилини тому ∙ 19 ставок |
Парсинг та класифікація данихШукаємо розробника для реалізації системи збору та структурування даних з відкритих джерел. Маємо базу власників малого бізнесу в США, яка містить ім’я людини, назву компанії, адресу та штат. Необхідно побудувати процес збагачення цих записів додатковою інформацією з публічно… Веб-програмування, Парсинг даних ∙ 14 годин 33 хвилини тому ∙ 33 ставки |
Svitlahata
750 UAH
Потрібно імпортувати 1819 товарів із XML/YML-фіду Prom.ua до OpenCart 3. Є готовий XML-файл, який містить назви товарів, описи, ціни, фотографії, характеристики, виробників та категорії. Необхідно: імпортувати всі товари до OpenCart 3; створити та прив’язати категорії;… CMS, Парсинг даних ∙ 1 день 17 годин тому ∙ 32 ставки |