Парсинг каталога драйверов
Задача: написать Bash-скрипт, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.
Алгоритм скрипта:
Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта
Конвертирует файлы Sitemap.xml в CSV формат
Wget запрашивает HTML-файлы из CSV
Grep чистит HTML код от мусора (по регуляркам)
Складывает файлы на HDD
Примечание: скачивать картинки, CSS и прочую статику не нужно, скачиваем только контент HTML-файлов.
Требования:
Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний
Артефакты:
Структура Sitemap
Структура итоговых папок
Регулярные выражения для очистки от мусора
-
786 27 2 2 Добрый день, могу предложить вам решение на Python. Я работаю на Python уже более 3х лет, а конкретно в сфере парсинга больше 2х лет. За это время сделал довольно большое количество парсеров. Для реализации вашего проекта буду использовать Selenium beautiful soup и requests. Все зависит от сайта донора, сроки и стоимость примерная так как нужно увидеть сайт. Также помогу с настройкой сервера, поиском антикапчи и прокси, и дальнейшей поддержке проекта. Интересует качественное и полноценное решение? Пишите мне в ЛС.
-
Есть смысл писать именно в Bash?
-
чтобы управлять скоростью парсинга
Это по сайтам? Хотите управлять количество скриптов который работает с одним сайтом или что-то другое?
Список сайтов откуда берем?
-
Каким образом хотите управлять потокам?
-
Хотел бы тоже узнать кто донор?
и не лучше ли парсить сразу в бд, а не в фалы? -
Current freelance projects in the category Data Parsing
Database extraction
16 USD
Good day. We need to download a database from the website logist pro. We will provide the account details. There are profiles that need to be opened and downloaded. The database contains about 3000 people. What information is needed in Excel: 1. Phone number (1 contact) 2.… Data Parsing ∙ 20 minutes back ∙ 17 proposals |
A specialist is needed to find contacts of decision-makers in Ukraine.It is necessary to gather a database (or ready database) of contacts of decision-makers (DMs) in companies in Ukraine. Information Gathering, Data Parsing ∙ 53 minutes back ∙ 4 proposals |
Need to scrape data from LinkedInWe need to scrape data from LinkedIn based on our list. For each entry, we need to find and collect available data if it exists on the LinkedIn profile, including the profile picture on the LinkedIn social network, email address, links to social media, company website, and… Data Parsing ∙ 6 hours 41 minutes back ∙ 15 proposals |
Parsing and classification of dataWe are looking for a developer to implement a system for collecting and structuring data from open sources. We have a database of small business owners in the USA, which contains the person's name, company name, address, and state. It is necessary to build a process for… Web Programming, Data Parsing ∙ 7 hours 49 minutes back ∙ 32 proposals |
Svitlahata
17 USD
It is necessary to import 1819 products from the XML/YML feed of Prom.ua to OpenCart 3. A ready XML file is available, which contains product names, descriptions, prices, photos, specifications, manufacturers, and categories. Requirements: import all products to OpenCart… Content Management Systems, Data Parsing ∙ 1 day 10 hours back ∙ 32 proposals |