У нас есть готовый сайт на WordPress, на котором будут размещены профили владельцев бизнеса определенной категории. Задача заключается в сборе, очистке, сохранении и отображении этих профилей на сайте.
Необходимо спарсить данные с LinkedIn — ориентировочно пять тысяч владельцев бизнеса конкретной категории, включая фотографии профиля.
Также есть другие источники данных (доноры), из которых можно будет осуществлять парсинг; детали можно будет обсудить. В процессе сбора данных следует правильно структурировать информацию (имя, название компании, категория бизнеса, контактные данные, фото и т.д.), одновременно проверяя записи на дубликаты и удаляя их перед добавлением в базу данных и выводом их на сайте. Данные должны быть максимально чистыми и унифицированными по формату.
Для хранения результатов парсинга нужно создать отдельную таблицу в базе данных, чтобы не перегружать основную базу WordPress. Часть интерфейса сайта и админпанели должна быть адаптирована для работы именно с этой таблицей. После очистки и проверки данные должны быть импортированы на сайт и отображены в разделе «Владельцы бизнеса» в соответствии со структурой и дизайном страницы.
От вас нужно кратко описать, каким образом вы будете парсить данные с LinkedIn, а также указать вашу стоимость работ и ориентировочный срок выполнения — от сбора данных до публикации профилей на сайте.
Опыт:
Исполнитель должен иметь опыт создания парсеров для Google Maps, социальных сетей и результатов поиска Google и сайтов агрегаторов. Это не одноразовое задание — нужна человек, который сможет регулярно осуществлять парсинг данных из различных источников по мере необходимости.
Скрейпинг → Временное хранение → Очистка → Финальная база данных → Подключение данных к вебсайту и вывод на ВП
Python — Playwright (автоматизация браузера, обход защиты), BeautifulSoup, asyncio, API интеграции. Библиотеки requests, BeautifulSoup, Selenium, Scrapy или Selenium.
Для Google Maps — SerpAPI/Outscraper как надежный источник данных.
Очистка текста, дедупликация, классификация через AI, фильтрация по ключевым словам.
Валидация телефонов, email, стандартизация часов работы, дедупликация бизнесов перед записью в базу
MySQL, WordPress REST API, Custom Post Types + ACF. Схема: сбор → временное хранилище → очистка → MySQL → WP через REST API или WPAllImport.
Данные - это малый бизнес, данные будем брать с Google maps, Google Search, Сайты, Yelp, Public правительственные сайты
есть бюджет на API/прокси для обхода ограничений Google
Рассматриваем людей только Украины
Если есть действующий автоматизированный скрепер в production это будет +