Парсинг каталога с драйверами
2000 UAHЗадача:
Написать скрипт на Bash или PHP, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.
Алгоритм скрипта:
- Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта
- Конвертирует файлы Sitemap.xml в CSV формат
- Wget выкачивает HTML-файлы из CSV
- Grep чистит HTML код от мусора (по регуляркам)
- Складывает файлы на HDD
Примечание: картинки, CSS и прочую статику скачивать не нужно, скачиваем только контент HTML-файлов.
Требование:
Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний.
Артефакты:
- Адрес сайта, который парсим (это всегда один и тот же URL)
- Структура Sitemap
- Структура итоговых папок
- Регулярные выражения для очистки от мусора
Отзыв заказчика о сотрудничестве с Сергеем Пасиногой
Парсинг каталога с драйверамиКак всегда у Сергея все сделано на отличном уровне, все пункты ТЗ выполнены, по всем даны пояснения и даже сделаны полезные фичи сверх положенного - все отлично!
Отзыв фрилансера о сотрудничестве с Sam B.
Парсинг каталога с драйверамиОчень доволен сотрудничеством! Совместно выполняем уже не первый проект.
Всё на высшем уровне, связь, сопровождение по проекту, четкие требования и тд.
Очень профессиональный и качественный подход к работе. Всем рекомендую!
-
Добрый день! Могу написать проект на Java, обращайтесь.
За подробностями пишите в ЛС.
-
115 34 4 2 Здравствуйте
Могу сделать java приложение для вашего проекта
Сможете запускать на любой ОС
-
1298 26 2 Готов взяться за работу хоть сегодня.
Что я могу предоставить?
- Портфолио на других биржах
- Резюме
- Гитхаб с проектами
Работа желательно через безопасную сделку. Скрипт напишу на Python или PHP
Актуальные фриланс-проекты в категории Парсинг данных
База сайтов на woocommerceНеобходимо собрать базу украинских сайтов интернет-магазинов на woocommerce с контактами, которые указаны на сайтах. Только работающие сайты (индикатор: обновление каталога/контента, рабочий домен) Формат таблицы - адрес сайта, номер телефона, e-mail. Парсинг данных ∙ 1 день 5 часов назад ∙ 19 ставок |
Создать дашборд в https://airtable.com/ по результативности рекламных креативов из facebook adsПолноценное ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Базы данных и SQL, Парсинг данных ∙ 2 дня 20 часов назад ∙ 17 ставок |
Создание файла Exel для загрузки товаров на сайты других партнеров.Меня интересует, чтобы сделать таблицу Excel со всеми параметрами. Вот сайт - https://heiztechnik.com.ua/ И позиции, которые интересуют, чтобы были перенесены : Ручные котлы : 1) TIS UNI 15-95 кВт (10) шт 2)TIS HARD 150-500 кВт (7) шт Пеллетные котлы: 1)TIS PELLET 15-95 кВт… Парсинг данных ∙ 3 дня назад ∙ 34 ставки |
Требуется разработчик для парсинга каталога и автоматизации импорта данныхПодробное ТЗ в прикрепленном документе прошу в отклике указать ориентировочную стоимость и сроки реализации есть ли опыт работы с парсингом крупных каталогов какие возможные сложности или ограничения вы видите в данной задаче Базы данных и SQL, Парсинг данных ∙ 3 дня 3 часа назад ∙ 39 ставок |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 3 дня 8 часов назад ∙ 22 ставки |