Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Розробка системи вебскрейпінгу та обробки даних для багатокрокового збору, нормалізації, дедуплікації та підготовки великих масивів інформації до подальшого використання в аналітиці та внутрішніх бізнес-процесах.

У межах роботи була спроєктована структура ingestion pipeline для масового збору даних із кількох типів джерел із подальшою обробкою через черги, нормалізацією сутностей, валідацією структури, дедуплікацією та підготовкою до завантаження в сховище. Окрему увагу приділено стабільності batch-обробки, якості даних і спостережуваності всіх ключових етапів пайплайна.

Що реалізовано за логікою проєкту:
— багатокроковий pipeline збору та обробки даних
— розподілена обробка джерел і batch-задач
— нормалізація та дедуплікація записів
— контроль latency, throughput і якості обробки
— підготовка даних для warehouse / analytics use cases
— моніторинг стану пайплайна, логів і операційних метрик

Стек і підхід:
web scraping, data processing, batch pipelines, normalization, deduplication, PostgreSQL, Kafka, Airflow, warehouse-oriented ingestion, operational monitoring.

Результат:
створено структуровану систему для масового збору та обробки даних з акцентом на стабільність, якість даних, прозорість pipeline-процесів і зручність подальшого масштабування.
Деталі роботи
Додано 20 березня
92 перегляди
Фрилансер
Ihor Bielievskiy
Україна Київ  1  0

Вільний для роботи Вільний для роботи
1 Сейф завершений
На сервісі 2 місяці 18 днів