Парсинг каталога драйверов
Задача: написать Bash-скрипт, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.
Алгоритм скрипта:
Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта
Конвертирует файлы Sitemap.xml в CSV формат
Wget запрашивает HTML-файлы из CSV
Grep чистит HTML код от мусора (по регуляркам)
Складывает файлы на HDD
Примечание: скачивать картинки, CSS и прочую статику не нужно, скачиваем только контент HTML-файлов.
Требования:
Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний
Артефакты:
Структура Sitemap
Структура итоговых папок
Регулярные выражения для очистки от мусора
-
786 27 2 2 Добрый день, могу предложить вам решение на Python. Я работаю на Python уже более 3х лет, а конкретно в сфере парсинга больше 2х лет. За это время сделал довольно большое количество парсеров. Для реализации вашего проекта буду использовать Selenium beautiful soup и requests. Все зависит от сайта донора, сроки и стоимость примерная так как нужно увидеть сайт. Также помогу с настройкой сервера, поиском антикапчи и прокси, и дальнейшей поддержке проекта. Интересует качественное и полноценное решение? Пишите мне в ЛС.
-
Есть смысл писать именно в Bash?
-
чтобы управлять скоростью парсинга
Это по сайтам? Хотите управлять количество скриптов который работает с одним сайтом или что-то другое?
Список сайтов откуда берем?
-
Каким образом хотите управлять потокам?
-
Хотел бы тоже узнать кто донор?
и не лучше ли парсить сразу в бд, а не в фалы? -
Актуальные фриланс-проекты в категории Парсинг данных
База сайтов на woocommerceНеобходимо собрать базу украинских сайтов интернет-магазинов на woocommerce с контактами, которые указаны на сайтах. Только работающие сайты (индикатор: обновление каталога/контента, рабочий домен) Формат таблицы - адрес сайта, номер телефона, e-mail. Парсинг данных ∙ 2 дня 8 часов назад ∙ 21 ставка |
Создать дашборд в https://airtable.com/ по результативности рекламных креативов из facebook adsПолноценное ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Базы данных и SQL, Парсинг данных ∙ 3 дня 22 часа назад ∙ 18 ставок |
Создание файла Exel для загрузки товаров на сайты других партнеров.Меня интересует, чтобы сделать таблицу Excel со всеми параметрами. Вот сайт - https://heiztechnik.com.ua/ И позиции, которые интересуют, чтобы были перенесены : Ручные котлы : 1) TIS UNI 15-95 кВт (10) шт 2)TIS HARD 150-500 кВт (7) шт Пеллетные котлы: 1)TIS PELLET 15-95 кВт… Парсинг данных ∙ 4 дня 3 часа назад ∙ 36 ставок |
Требуется разработчик для парсинга каталога и автоматизации импорта данныхПодробное ТЗ в прикрепленном документе прошу в отклике указать ориентировочную стоимость и сроки реализации есть ли опыт работы с парсингом крупных каталогов какие возможные сложности или ограничения вы видите в данной задаче Базы данных и SQL, Парсинг данных ∙ 4 дня 5 часов назад ∙ 41 ставка |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 4 дня 11 часов назад ∙ 25 ставок |