Віктор Гайоха
Рейтинг
Уровень владения языками
Навыки и умения
Портфолио
-
Парсинг защищенного SPA-сайта, Обход Cloudflare и антибот-систем.
Парсинг данныхМета: Собрать 100% точные данные о более чем 1000 экспонентах (название, страна, номер стенда, скрытые email и телефоны, категории) с официального сайта Salone del Mobile.
Главные вызовы:
… Агрессивная антибот-защита (Cloudflare): Стандартные запросы (requests/httpx) возвращали 403 Forbidden. Обычные headless-браузеры (Selenium, Playwright) и даже фреймворки вроде undetected-chromedriver мгновенно блокировались.
Сложная SPA-архитектура (React / Next.js): На сайте не было стандартных HTML-ссылок (). Вся навигация происходила исключительно через обработчики событий React (onClick), что делало традиционный сбор URL невозможным. Кроме того, контактные данные были скрыты в несемантических тегах (например, ).
Мое решение:
Чтобы достичь идеальной точности и обойти защиту, я разработал кастомный гибридный подход:
Подключение через Chrome DevTools Protocol (CDP): Вместо запуска нового экземпляра автоматизированного браузера, мой скрипт использовал Playwright для подключения к уже запущенной, "живой" сессии Google Chrome (http://localhost:9222). Это дало 100% "траст-фактор" легитимного пользователя (вместе с реальными cookies, историей и отпечатками Canvas). Cloudflare было обойдено без какой-либо решенной капчи.
Интеллектуальная навигация: Скрипт визуально имитировал поведение человека — перехватывал динамические локаторы, физически кликал мышкой для вызова React-состояний и использовал внутренний роутер сайта для возврата к списку, сохраняя пагинацию.
Парсинг HTML: Захваченный состояние страницы обрабатывался через BeautifulSoup и сложные регулярные выражения (Regex) для точного извлечения "битых" или плохо отформатированных ссылок и номеров телефонов.
Использованные технологии:
Python 3.12
Playwright (Sync API): взаимодействие с DOM и подключение через CDP.
BeautifulSoup4 & Regex: точный поиск и извлечение данных.
Pandas: структурирование и экспорт данных в чистый CSV (UTF-8 с BOM) и Excel.
Результат:
Скрипт полностью автономно собрал и идеально отформатировал данные более чем 1200 компаний. Созданная архитектура позволяет масштабировать парсинг без риска получить бан по IP.
-
Скрейпер для генерации B2B лидов (Корпоративные базы данных)
Парсинг данныхМета: Разработать автоматизированный веб-скрапер на Python для сбора структурированных контактных и финансовых данных потенциальных B2B клиентов из публичных бизнес-каталогов.
Мое решение и техническая реализация:
… Парсинг HTML-таблиц: Скрипт эффективно обходит страницы каталогов и извлекает необходимую информацию из сложной табличной структуры сайтов с помощью библиотеки BeautifulSoup.
Стабильность работы: Для предотвращения блокировок со стороны целевых серверов были настроены кастомные HTTP-заголовки, имитирующие запросы от реального браузера. Это обеспечило бесперебойный сбор данных во время длительных сессий.
Глубокая очистка данных: Собранная "сырая" информация часто содержала лишние символы и артефакты форматирования. С помощью библиотеки Pandas я реализовал логику автоматической очистки ключевых метрик. Например, поля "Доход компании" и "Количество сотрудников" были программно очищены от текста и преобразованы в строгие числовые значения.
Подготовка для CRM: Финальный датасет автоматически экспортируется в валидном формате CSV с правильной структурой колонок.
Использованные технологии:
Python, BeautifulSoup, Pandas, Конфигурация HTTP заголовков.
Результат:
Заказчик получил полностью автоматизированный инструмент для лидогенерации. На выходе формируется идеально чистый CSV-файл, который можно мгновенно импортировать в любую CRM-систему без необходимости в дополнительной ручной обработке или исправлении ошибок форматирования.
-
Расширенный парсер E-commerce (Selenium и обход антибот-защиты)
Парсинг данныхМета: Разработать устойчивый веб-скрапер для сбора актуальных данных о товарах в реальном времени с динамических e-commerce платформ (таких как eBay) для мониторинга цен и аналитики.
Главные вызовы:
… Динамический контент: Данные загружались через сложные JavaScript/AJAX запросы, а не просто лежали в HTML.
Антибот-системы: Платформы использовали продвинутые алгоритмы для блокировки автоматизированных действий.
Нестабильная верстка: Структура страниц (DOM) могла изменяться, из-за чего обычные жестко прописанные парсеры мгновенно ломались бы.
Мое решение:
Обход защиты: Я использовал Selenium с гибкими stealth-конфигурациями webdriver. Чтобы скрипт выглядел как живая человек, я добавил имитацию естественного поведения (рандомные задержки между кликами, скроллинг), что позволило собирать данные без риска блокировки.
Устойчивость кода (Fallback Selectors): Я внедрил систему динамических резервных селекторов. Если интернет-магазин незначительно изменял дизайн или верстку, скрипт не падал с ошибкой, а автоматически переходил на запасной вариант поиска элемента и продолжал работу.
Автоматическая навигация: Настроена надежная пагинация, что позволило автономно собрать сотни листингов с множества страниц за один запуск.
Глубокая очистка данных: Сырые данные из интернет-магазинов часто содержат мусор. Я применил регулярные выражения (Regex) для очистки текста (например, выделение чистой цены без валюты и пробелов) и Pandas для сортировки финального датасета по возрастанию цены.
Использованные технологии: Python, Selenium (Stealth), Pandas, Regex (Регулярные выражения).
Результат:
Заказчик получил не просто скрипт, а надежный инструмент. На выходе — идеально отформатированные, отсортированные и готовые к продакшену CSV-файлы, которые можно сразу загружать в аналитические системы или базы данных.
Отзывы и комплименты о выполненных проектах 2
7 апреля
8360 UAH
Парсинг изображений товаров для интернет-магазина
Невероятно доволен сотрудничеством! Очень крутой подход, исполнитель не просто ждет указаний, а сам проявляет инициативу и находит оптимальные пути решения сложных вопросов. Всегда на связи, мгновенно отвечает, коммуникация на высоте. Профессионал, который действительно разбирается в своем деле. Сделал все быстро, качественно и с умом. Однозначно буду обращаться снова!
1 апреля
4500 UAH
Автоматика/Софт для считывания PUSH-уведомлений банка (P2P,крипта,банки)
Спасибо большое!
Отличный исполнитель - сделал все быстро четко
Супер поддержка - идет на встречу - получили даже больше чем было указано в ТЗ
Будем еще работать!
![]()
| Ответный отзыв
Активность
| Последние ставки 10 | Бюджет | Добавлена | Сроки | Ставка | |
|---|---|---|---|---|---|
|
Парсинг PDF банковских выписок
3000 UAH
|
|||||
|
Парсер PDF-книг (текст + изображения)
10 000 UAH
|
|||||
|
Разработка ИИ-ассистента для автоматизированного контроля и аналитики звонков
17 500 UAH
|
|||||
|
Телеграм Скрипт
6652 UAH
|
|||||
|
Чат-бот телеграм для записи в студию детейлинга
3000 UAH
|
|||||
|
Нужно собрать и запустить 10 сайтов с помощью AI
2500 UAH
|
|||||
|
Парсинг изображений товаров для интернет-магазина
8360 UAH
|
|||||
|
Парсинг даних товарів з сайту постачальника
2000 UAH
|
|||||
|
Автоматика/Софт для считывания PUSH-уведомлений банка (P2P,крипта,банки)
4500 UAH
|
|||||
|
Сделать парсер с алегро по нише спецтехники
15 000 UAH
|