Разработка решения для парсинга/сбора данных API/сайты и сбора контактов для outbound/sales
Разработать решение (скрипт/сервис/Make.com сценарий), которое:
регулярно получает данные из заданных источников (API и/или вебсайты),
выполняет парсинг сайтов
находит новые сущности, которых нет в нашем внутреннем списке,
применяет конфигурируемые фильтры,
находит официальный сайт сущности,
собирает контакты людей в релевантных ролях для запуска outbound/sales-кампаний,
сохраняет результат в БД/хранилище + дает экспорт.
Ожидаемый результат
Готовое решение, которое создает и поддерживает базу контактов в структуре:
Project website
Email
LinkedIn profile link
Job title
Twitter/X profile link
Phone number
Telegram handle или Telegram link
Дополнительно (желательно): дата нахождения, источник (source), статус валидации/полноты контакта.
Источники данных и потоки обработки (3 потока)
Кейс 1 — Источник типа “каталог новых записей” (API/веб)
Функции:
Получать записи за период и/или инкрементально (новые с момента последнего запуска).
Выявлять “новые” сущности относительно нашего внутреннего списка (CSV/Google Sheet/JSON).
Применять фильтрацию (конфигурировано).
Для каждой сущности:
найти официальный сайт,
собрать контакты по нужным ролям,
записать в БД/хранилище.
Кейс 2 — Агрегаторы/справочники (несколько независимых источников)
Функции:
Получать данные из нескольких агрегаторов/справочников (через API или scraping).
Объединять/нормализовать записи, выполнять дедупликацию.
Выявлять “новые” сущности (отсутствующие в нашем internal list).
Применять фильтрацию (конфигурировано).
Находить официальный сайт и контакты нужных ролей.
Сохранять результат.
Поток 3 — Сравнение присутствия между источниками
Функции:
Парсить/получать данные с 3–5 площадок/каталогов (API/веб).
Сравнивать “присутствие” сущности между источниками (matching по названию/домену/идентификатору).
Выявлять сущности, которые:
отсутствуют в нашем внутреннем списке,
соответствуют фильтрам,
Для релевантных сущностей — извлечение контактов + сохранение.
Логика сбора контактов
Для каждой отобранной сущности:
Определить официальный сайт (из данных источника или через дополнительные переходы/проверки).
Собрать контакты для ролей (конфигурированный список ролей), например:
Founder / C-level
Head/Lead of Partnerships / BD / Sales / Growth
Head/Lead of Operations / Product (и другие, согласуем)
Источники контактов:
страницы “Team”, “About”, “Contact”, “Careers”, “Press”
LinkedIn (ссылки на профили/компанию, если доступно)
Twitter/X, Telegram, email/формы, телефоны
Минимальное требование: сохранять контакты только в заданной структуре полей.
Требования к данным, хранению, экспорту
Хранение: PostgreSQL или SQLite (исполнитель предлагает оптимальный вариант) или хранилище с экспортом в Google Sheets.
Дедупликация:
по домену/website
по email
по LinkedIn URL
по Twitter/X URL
по телефону/Telegram
Экспорт: минимум 1 вариант из (CSV / Google Sheets / Airtable), желательно 2.
Технические требования:
логи,
обработка ошибок,
retry/backoff,
rate limiting.
Желательно:
статус “processed / already contacted” для записей.
Конфигурация (обязательно)
Фильтры и правила должны изменяться без переписывания кода:
через config файл (YAML/JSON) или
через параметры запуска или
через простую админ-конфигурацию (если сервис).
Технологии (допустимые варианты)
Python (Requests/Scrapy + Playwright) или Node.js (Playwright/Puppeteer) или Make.com.
Приоритет: официальные API (если есть), иначе — аккуратный scraping.
Docker (желательно).
Планировщик: cron/Celery/другой scheduler.
Запуск на VPS.
Мы предоставим
Внутренний список для исключения (CSV/Google Sheet/JSON).
Начальный список фильтров и ролей.
API keys (по необходимости).
Исполнитель должен предоставить
Репозиторий с кодом или Make.com сценарии (с доступом/экспортом).
README: запуск, конфигурация, зависимости.
Описание архитектуры (кратко) + схема потока данных.
Демонстрационный прогон: лог/скрин/пример результатов экспорта.
Требования к исполнителю
Опыт web scraping / интеграций API / автоматизации lead generation.
Понимание rate limits, антибот-защиты, стабильности, дедупликации.
Примеры схожих работ (ссылки/описание).
Отзыв заказчика о сотрудничестве с Олександром Білаком
Разработка решения для парсинга/сбора данных API/сайты и сбора контактов для outbound/salesВсе в порядке, задание выполнено согласно договоренностям.
Отзыв фрилансера о сотрудничестве с Русланом Петровым
Разработка решения для парсинга/сбора данных API/сайты и сбора контактов для outbound/salesТЗ детальное без многих дополнительных обсуждений. Оплата быстрая!
-
Всегда интересно узнавать о уникальных инструментах для сбора и анализа данных. Представьте решение, которое не только автоматизирует сбор контактов, но и делает это эффективно через фильтрацию, дедупликацию и настройку фильтров без перекодирования. Мой опыт в веб-разработке и API интеграциях позволит создать инновационный сервис, адаптируя лучшие практики парсинга и обработки данных. Внедряя это, обеспечу точное взаимодействие между источниками и надежным сохранением в базах данных. Готова обсудить, как эта система может стать вашим мощным усилением.
-
1422 13 0 Здравствуйте. У меня есть опыт в парсинге, API-интеграциях и автоматизации, подобные решения я уже реализовывал.
Предлагаю реализацию на Python без Make, в виде скрипта с конфигурацией.
Кратко, как я вижу решение:
- Python (Requests/Scrapy + Playwright для JS сайтов)
- модульная архитектура под потоки
- инкрементальный сбор + дедупликация
- сбор контактов по ролям
… - хранение в PostgreSQL или SQLite
- экспорт в CSV, Google Sheets
- логи, повторные попытки, ограничение по скорости
Фильтры, роли и источники - через конфигурацию.
Запуск через cron.
Подобные системы для сбора контактов я делал, есть понимание антибота, стабильности и масштабирования.
Готов быстро сделать MVP и далее расширять под ваши кейсы. Пожалуйста, отправьте источники для ознакомления.
-
1621 35 1 6 У меня есть такое готовое решение. Его основной функционал:
✅ Глобальное охватывание: Платформа автоматически сканирует тысячи открытых источников, веб-сайтов и государственных реестров по всему миру для мгновенного поиска нужной информации.
✅ Глубокий сбор данных: Система самостоятельно извлекает важные детали из социальных сетей, медиа-ресурсов и профессиональных форумов, формируя полную картину исследования.
✅ Автоматизация рутины: Интеллектуальные агенты собирают данные в режиме реального времени, полностью освобождая сотрудников от часов ручного поиска в интернете.
✅ Мгновенная структуризация: Вся разрозненная информация из различных источников автоматически преобразуется в упорядоченные таблицы (Smart Sheets) для удобного анализа.
✅ Максимальная точность: Технология умного скрапинга позволяет получать проверенные данные даже из самых сложных сегментов сети, гарантируя достоверность результатов.
Более детально по этой ссылкеGoogle Drive
… Стоимость внедрения от 2500 usd, сроки от 10 дней.
-
172 1 1 Добрый день. Готов выполнить данный проект, имею большой опыт разработки приложений.
-
1048 7 1 Привет!
У меня есть опыт в разработке решений для парсинга и сбора данных, в частности, я реализовал сервис для сбора контактов с LinkedIn и других платформ с последующим хранением в PostgreSQL.
Я реализую скрипт, который будет регулярно получать данные из заданных API и сайтов, выполнять парсинг и сохранять результаты в структурированном виде. Использую FastAPI для быстрой обработки запросов и BeautifulSoup или Scrapy для парсинга.
Дополнительно настраиваю логику дедупликации для повышения качества сбора контактов. Давайте обсудим детали!
Актуальные фриланс-проекты в категории Криптовалюта и blockchain
Аудит и построение защищённой инфраструктуры для отправки BTC-транзакций
27 000 UAH
Ищем инженера по безопасности Bitcoin под две задачи: (1) аудит текущей системы генерации кошельков и отправки BTC с выявлением уязвимостей; (2) проектирование и построение новой защищённой инфраструктуры для хранения ключей и отправки транзакций.Часть 1 — Аудит текущей системы… Администрирование систем и сетей, Криптовалюта и blockchain ∙ 8 дней 1 час назад ∙ 10 ставок |