Сбор и парсинг информации
Необходимо спарсить и собрать структурированную информацию с сайтов украинских и зарубежных ВУЗов, колледжей и платформ онлайн-курсов (Abiturients, Mudra, Coursera, Udemy и т.д.) с дальнейшей подготовкой Excel-файлов по готовой структуре.
Объем:
Украинские колледжи — ~650+ записей
Украинские ВУЗы — ~350+ записей
Зарубежные ВУЗы — все с сайта-источника
Онлайн-курсы на украинском — ~9 000+ записей
Онлайн-курсы на иностранных языках — ~26 000+ записей
Отзывы — мин. 180 000 записей
Срок выполнения: 6 дней, с поэтапной сдачей.
Ищем специалиста с опытом парсинга больших объемов данных и подготовки валидных датасетов.
Отзыв заказчика о сотрудничестве с Лукой Грачовым
Сбор и парсинг информацииК сожалению, не смогли закрыть задачу в связи с болезнью исполнителя.
-
286 2 1 Здравствуйте!
Меня зовут Семен, я менеджер компании Wanord. Мы специализируемся на парсерах, сборе больших массивов данных и подготовке структурированных датасетов (Excel/CSV) под готовое ТЗ.
📌 Что нужно:
Собрать и структурированно подготовить данные с сайтов украинских и зарубежных ВУЗов/колледжей и платформ онлайн-курсов (Abiturients, Mudra, Coursera, Udemy и т.д.) с формированием Excel-файлов по заданной структуре. Объемы — десятки тысяч записей + минимум 180 000 отзывов, поэтапная сдача в течение 6 дней.
🔧 Что мы сделаем:
Проанализируем вашу целевую структуру Excel-файлов и согласуем формат полей (типы, обязательность, кодировка, языки).
…
Разработаем отдельные парсеры для:
украинских колледжей (~650+);
украинских ВУЗов (~350+);
зарубежных ВУЗов (полный список с сайта-источника);
онлайн-курсов (UA ~9 000+, иностранные ~26 000+);
отзывов (180 000+).
Реализуем устойчивый сбор данных с учетом лимитов/антибот-защиты (ротация IP, паузы, логирование ошибок).
Сделаем чистку и валидацию данных (дубликаты, пустые поля, формат дат, кодировка).
Подготовим Excel-файлы строго по вашей структуре + базовую проверку качества (spot-check, случайная выборка).
Сдадим результат поэтапно: сначала часть ВУЗов/колледжей, далее онлайн-курсы, потом блок отзывов.
💼 Опыт:
Есть опыт парсинга больших объемов (сотни тысяч+ строк), построения стабильных парсеров, которые работают под нагрузкой, и подготовки датасетов для аналитики/ML. Примеры можем отправить в личные сообщения.
💰 Ориентировочный бюджет: 1500–2300 $
⏱️ Срок: до 6 дней с поэтапной сдачей (при условии доступа ко всем источникам и окончательно согласованной структуре файлов).
Готовы взяться за проект и сразу перейти к уточнению структуры Excel и плана этапов. Напишите в личные сообщения — отправьте шаблон файлов и источники, согласуем финальный бюджет и график сдачи.
-
316 1 0 Привет!
У меня есть опыт разработки Python-скриптов для сбора данных. Готов выполнить этот проект.
Пишите в личные сообщения.
-
1970 25 1 Привет, занимаюсь парсингом на постоянной основе. Могу помочь вам с решением вашей задачи. Напишите мне в личные сообщения, согласуем детали.
Минимальная цена за этап
-
875 51 0 1 Готов к сотрудничеству. Точная цена и сроки после более детальной информации.
-
201 1 1 Здравствуйте! Могу написать простого и надежного асинхронного парсера, чтобы работал быстрее. Данные могу записывать куда вам удобно, но в результате чтобы получался Excel-файл нужной структуры.
-
8977 367 0 Добрый день
Заинтересовал ваш проект.
Хотелось бы обсудить все более детально.
-
248 Добрый день!
Хочу уточнить, что 6 дней — это слишком короткий срок для проекта такого масштаба и объема данных. Из моего опыта, задачи, связанные с парсингом больших объемов информации, требуют значительно больше времени для качественной реализации.
У меня большой опыт в браузерной автоматизации с использованием инструментов Selenium и Playwright. Создавал сложные парсеры для различных платформ, включая динамические и защищенные сайты. Например, разработал сложный парсер для THREADS (X), который работает с обфусцированным динамическим HTML. С помощью компьютерного зрения мы собирали данные о количестве подписчиков, лайков, комментариев, репостов и директов, анализировали вирусность постов, аккумулировали их в базе и создавали аналитическую панель. В систему входило более шести отдельных скриптов, таких как автолайкинг, комментирование и мониторинг персональных тем.
Также имею опыт построения надежных пайплайнов для очистки и хранения больших массивов информации, а также интеграции с API. Работаю с инструментами обхода ограничений и обеспечиваю стабильность и масштабируемость решений.
Если нужна помощь с подготовкой валидных и структурированных датасетов и грамотным парсингом, готов обсудить сроки и этапы работы, чтобы обеспечить качество результата.
…
С уважением