Парсер prom.ua
Скрипт решает задачу превращения обычного веб-каталога Prom.ua в структурированный источник данных, пригодный для автоматизации и анализа.
С технической стороны он решает проблему отсутствия публичного полноценного API: вместо него используется комбинация HTML-парсинга и внутреннего GraphQL-запроса (`/graphql`), который сайт сам применяет для загрузки данных на странице товара.
Он объединяет два уровня данных: статический HTML (список товаров, базовые параметры) и динамический GraphQL (доставка, оплата, наличие, регионы, бизнес-логика продавца). Это устраняет фрагментацию информации, когда часть данных доступна только в интерфейсе, а часть — только через API.
Также он решает проблему масштабирования доступа к данным: вместо ручного открытия страниц реализуется автоматический обход категорий с пагинацией и последовательной обработкой товаров.
С инженерной точки зрения он обеспечивает нормализацию и унификацию данных: разные форматы ответа (HTML + JSON GraphQL) приводятся к единой структуре и сохраняются в файл.
Дополнительно он выполняет роль мониторингового инструмента: позволяет отслеживать цены, наличие, условия доставки и изменения у продавцов в автоматическом режиме.
В итоге это не просто парсер, а мини ETL-пайплайн (extract → transform → load), который превращает веб-интерфейс маркетплейса в пригодную для анализа и автоматизации базу данных.
С технической стороны он решает проблему отсутствия публичного полноценного API: вместо него используется комбинация HTML-парсинга и внутреннего GraphQL-запроса (`/graphql`), который сайт сам применяет для загрузки данных на странице товара.
Он объединяет два уровня данных: статический HTML (список товаров, базовые параметры) и динамический GraphQL (доставка, оплата, наличие, регионы, бизнес-логика продавца). Это устраняет фрагментацию информации, когда часть данных доступна только в интерфейсе, а часть — только через API.
Также он решает проблему масштабирования доступа к данным: вместо ручного открытия страниц реализуется автоматический обход категорий с пагинацией и последовательной обработкой товаров.
С инженерной точки зрения он обеспечивает нормализацию и унификацию данных: разные форматы ответа (HTML + JSON GraphQL) приводятся к единой структуре и сохраняются в файл.
Дополнительно он выполняет роль мониторингового инструмента: позволяет отслеживать цены, наличие, условия доставки и изменения у продавцов в автоматическом режиме.
В итоге это не просто парсер, а мини ETL-пайплайн (extract → transform → load), который превращает веб-интерфейс маркетплейса в пригодную для анализа и автоматизации базу данных.