Потрібен розробник для парсингу каталогу та автоматизації імпорту даних
Подробне ТЗ в прикріпленому документі
- прошу в відповіді вказати орієнтовну вартість і терміни реалізації
- чи є досвід роботи з парсингом великих каталогів
- які можливі складнощі або обмеження ви бачите в даному завданні
Коректна ссылка на мій сайт https://ogscmvhhskkwwooxxcc.lovable.app/catalog/usa/1-cent-1983-2008
Корректная ссылка на мой сайт https://ogscmvhhskkwwooxxcc.lovable.app/catalog/usa/1-cent-1983-2008
Додатки 1
-
Вітаю! Зацікавила задача «Требуется разработчик для парсинга каталога и автоматизации импорта данных». Маю досвід з API-інтеграціями, обміном даними, парсерами, вебхуками та автоматизацією процесів. Зможу акуратно підключити потрібні сервіси, обробити помилки/повтори і зробити рішення, яке буде стабільно працювати після запуску.
Виконаємо якісно. Роботи на сайті портфоліо -
👋 Вітаю. Зрозумів задачу — треба акуратно витягнути каталог, нормалізувати поля і зібрати імпорт так, щоб дані не доводилося чистити руками.
💡 Тут ключове не сам парсинг, а стабільність: структура сайту, дублікати, фото, характеристики і формат вивантаження під ваш імпорт.
✅ Робив подібні задачі з парсингом і автоматизацією на Python, де важливо було отримати не просто масив даних, а придатний до завантаження результат.
📋 Я б почав із перевірки джерела: чи є API, як віддається каталог, які є обмеження, після чого зібрав би парсер і шаблон імпорту під ваш формат.
-
Привіт, я працював над парсингом каталогу медичного обладнання з 50,000+ товарів для автоматизації імпорту в CRM систему, що дуже схоже на ваші потреби з обробкою великих обсягів даних Зробили це за 2 тижні з точністю 98%
Які саме категорії товарів потрібно парсити і чи є у каталогу захист від ботів або rate limiting?
Пропоную зв'язатися, я безкоштовно проконсультую вас з технічної сторони та складемо план розробки + розповім про мою команду! ✨
-
469 Привіт, Тетяно. Подивився ваш каталог на Lovable. Справжня складність тут не в самому каталозі uCoin, а на другому етапі, у прив'язці даних PCGS до карток. Каталог на ~100 000 монет — це великий, але лінійний обсяг. А PCGS переглядати сторінка за сторінкою сенсу немає: у них є Public API (пошук за cert number, barcode, PCGS number плюс grade), він і має бути точкою входу замість обходу мільйонів сторінок. Від цього залежить весь бюджет другого етапу, тому всліпую його я оцінювати не буду.
Коротко про мене: у мене своя працююча в продакшені платформа парсингу, яка кожного дня збирає великі каталоги з кількох захищених джерел, обходить анти-бот, нормалізує і дедуплікує дані та завантажує їх пакетно в PostgreSQL. Тобто і обхід Cloudflare у uCoin, і масовий імпорт у ваш Supabase, і співставлення сутностей — це саме те, що я роблю в продакшені.
Як би я це зробив:
Етап 1 (каталог): збір структури uCoin за вашими критеріями (регулярні плюс ювілейні, без колекційних і без фото), нормалізація країн, номіналів, років і атрибутів, дедуплікація та пакетний імпорт у вашу структуру на Supabase. Окремо лог імпорту та список карток на ручну перевірку, щоб після заливки не чистити 100 000 записів вручну. Інкрементальне оновлення, щоб каталог можна було освіжати, а не перезаливати цілком.
Етап 2 (PCGS): починаю з короткого тесту API на невеликій вибірці (які поля та фото доступні, які ліміти, за якими атрибутами надійно сходиться прив'язка). Після тесту назву точну ціну і терміни.
По ваших питаннях:
… 1. Досвід з великими каталогами є, це моя профільна робота: парсери в продакшені, анти-бот, нормалізація, співставлення сутностей.
2. Етап 1 готовий зробити фіксованою ціною 7000 грн за 4-5 днів. Етап 2 оціню після тесту API, щоб не називати цифру всліпую.
3. Основні складнощі: Cloudflare у uCoin (ротація резидентських проксі та темп запитів), денні ліміти та доступ до API PCGS, акуратне співставлення сутностей та інкрементальне оновлення без дублів.
Пропоную почати з етапу 1 як окремого кроку, щоб ви оцінили результат до того, як братися за PCGS. Імпорт потрібен безпосередньо в базу Supabase через бекенд сайту чи в окрему базу?
Владислав
-
232 Вітаю! Спеціалізуюсь на парсингу великих каталогів — гляну ваш каталог і зберу імпорт у потрібному форматі з подальшим авто-оновленням. Основні складнощі тут зазвичай пагінація, варіанти позицій і захист від ботів, але з lovable-сайтом проблем не бачу. Точнішу оцінку дам, щойно гляну ТЗ із вкладення. Орієнтовно 3-4 дні. У який формат вивантажувати — CSV/XLSX чи одразу імпорт у вашу базу?
-
249 Добрий день! Досвід роботи з парсингом каталогів на Python (BeautifulSoup, Selenium, requests). Працював з великими eCommerce проектами, розумію специфіку структурованих каталогів.
По вашому проекту:
— Можу реалізувати парсинг каталогу з автоматичним імпортом даних
— Можливі складнощі: захист від парсингу, динамічний контент (JS-рендеринг) — вирішується
— Результат: структуровані дані в CSV/Excel/БД
Орієнтовна вартість: 3000–5000 UAH. 3–5 днів.
… Пришліть ТЗ — дам точну оцінку.
-
1562 7 0 Привіт! Парсинг великих каталогів та автоматизація імпорту — моя щоденна робота (в продакшені парсери каталогів конкурентів з обходом анти-ботів, нормалізацією та AI-співставленням товарів). Подивлюсь ТЗ і назву точну вартість та терміни; основні ризики зазвичай — захист від ботів та нестабільна верстка, вирішується. Ціна в ставці умовна.
-
556 1 0 Тетяна, в цій задачі найцікавіше знаходиться не в парсингу, а в зв'язці двох джерел даних. Самі 100 000 карток каталогу — це великий, але цілком лінійний обсяг роботи. Основна складність виникає на етапі автоматичної прив'язки даних PCGS до вже створених карток.
Судячи з опису, у вас вже є робоча модель імпорту однієї монети через розширення. Це хороший знак, тому що логіка співвідношення сутностей вже частково існує. Я б спочатку розібрала саме цей процес і зрозуміла, які атрибути реально використовуються для пошуку відповідної картки, перш ніж запускати масову автоматизацію.
Окремо звернула увагу на перебір сертифікатів PCGS. Якщо діапазон дійсно обчислюється десятками мільйонів сторінок, то перед розробкою варто витратити час на дослідження структури даних. Часто такі сайти залишають непрямі точки входу: пошукові запити, внутрішні API, sitemap, архіви або сторінки серій. Від цього залежить весь бюджет другого етапу.
По обсягу бачу тут скоріше повноцінний проект зі збору та нормалізації даних, ніж звичайний парсер. Етап з каталогом оцінила б приблизно в 40–60 годин. Етап з автоматичним отриманням і співвідношенням даних PCGS без попереднього дослідження складно оцінювати, але реалістично це ще 40–100+ годин роботи. Загальний бюджет виглядає в діапазоні 1200–3200$.
Підкажіть, каталог на вашому сайті вже має стабільні внутрішні ідентифікатори для монет, чи зараз співвідношення можливе тільки за назвою, роком та іншими атрибутами?
-
374 Вітаю! Задача повністю зрозуміла, я спеціалізуюся саме на Python-парсерах та зборі великих каталогів даних. Побачив ваш сайт на Lovable — це чудовий варіант, оскільки я підготую для вас чистий CSV або JSON файл, який ви зможете завантажити в один клік для автоматичного заповнення карток монет без допомоги програмістів.
Для збору використовуватиму асинхронні скрипти з імітацією дій людини та ротаційними проксі, що дозволить легко обійти захист сайту-донора (на кшталт Cloudflare чи капчі), перехопити динамічний контент та чітко структурувати всі специфічні нумізматичні характеристики по окремих колонках бази даних.Готовий підключитися вже сьогодні, скидайте посилання на сайт-донор у приватні повідомлення, і я все детально прорахую!
-
427 Вітаю! Я бекенд-розробник, працюю на PHP (CLI/скрипти), що ідеально підходить для Big Data без зайвого навантаження на пам'ять. Ваш стек на Lovable (React + Supabase/PostgreSQL) мені повністю зрозумілий - імпорт буде йти напряму в БД через пакетні SQL-запити для максимальної швидкості.
Технічне бачення реалізації:
Етап 1: Парсинг uCoin (Скелет на 100 000 карток)
• Фільтрація: Скрипт обійде дерево країн uCoin, відсікаючи колекційні набори та збираючи лише регулярні й ювілейні монети.
• Оптимізація: Збираємо лише текст (назва, рік, характеристики). Для обходу Cloudflare використаю ротацію заголовків та проксі.
Етап 2: Оптимізація PCGS (Замість 30 млн сторінок)
… • Рішення: Перебирати 30 млн сертифікатів в лоб - неефективно. Я знайду внутрішню структуру сайту через Population Report або Set Registry. Ми зпарсимо таблиці груп за унікальним Coin Number, що скоротить обсяг запитів у тисячі разів.
• Проксі та мапінг: Скрипт працюватиме через закордонні резидентські проксі (PCGS блокує СНД). Автоматично витягне фото слабів, грейд, номер сертифікату та прив'яже їх до карток з Етапу 1.
Процес ділимо на два логічних кроки:
• Етап 1 (uCoin - Скелет каталогу): Розробка CLI-парсеру та пакетний імпорт тексту у вашу базу Supabase.
Вартість: 7000 грн | Термін: 4 дні (з урахуванням прогону через проксі).
• Етап 2 (PCGS - Фото та метадані): Автоматизація обходу, скачування зображень, парсинг грейдів та автоприв'язка.
Вартість: Оцінимо після аналізу вашої бази на Етапі 1 (орієнтовно $400-500, 7-10 днів).
У полі ставки вказав вартість за Етап №1. Чекаю у приватних повідомленнях для обговорення деталей!
-
615 3 0 Вітаю.
Ознайомився з ТЗ і подивився ваш каталог на Lovable. Для першої черги можу зібрати імпорт базового каталогу: структура з uCoin, фільтрація потрібних категорій, нормалізація країн / номіналів / років / атрибутів і завантаження у вашу структуру на сайті.
Окремо закладу перевірку дублів, лог імпорту і список записів, які потребують ручного уточнення. Для такого обсягу це важливо, щоб після імпорту не чистити 100 000 карток вручну.
По PCGS перевірив офіційний Public API: він підтримує пошук за cert number, barcode і PCGS number + grade, але потребує акаунт/API-доступ і має денний ліміт запитів. Тому другий етап варто почати з технічного тесту API на невеликій вибірці: перевірити доступні поля, фото, ліміти і логіку прив’язки до карток каталогу.
Маю релевантний досвід з парсингом, нормалізацією каталогів, підготовкою даних до імпорту та роботою з великими обсягами записів.
…
Перед початком роботи маю уточнити:
- які категорії з uCoin виключаємо
- чи є доступ до Supabase / backend вашого сайту
- які поля обов’язкові для картки монети
- чи є PCGS акаунт/API-доступ
- чи є готовий список cert / PCGSNo для тесту
Після перевірки PCGS API можна окремо зафіксувати другий етап з фото та метаданими.
Деталі можемо обговорити в особистих повідомленнях.
-
296 Вітаю! Працював над парсингом великої кількості графічних даних що потребувала подальшої обробки та структуризації, тому можу виконати ваше замовлення.
Серед викликів які можуть стати на заваді може бути захист від ботів на сайтах що треба парсити, але можна знайти спосіб для обходу.
Можу створити структуровану БД з даних що вдалося витягнути з цільових сайтів, або ж додати у вже існуючу Базу даних.
Наразі можу оцінити проєкт на 3000 гривень з терміном до 5-6 діб.
-
2116 20 0 Доброго дня. За описом бачу задачу як парсинг великого каталогу з подальшою автоматизацією імпорту даних. Докладне ТЗ у вас у прикріпленому документі, готовий його вивчити і дати конкретну оцінку щодо вартості та термінів.
Досвід роботи з парсингом великих каталогів є: писав парсери на Python з стійкістю до пагінації, динамічної підгрузки та захистів, з нормалізацією даних і завантаженням у базу. З типових складнощів на великих каталогах одразу закладаю: захист від блокувань і тротлінг запитів, рендеринг JavaScript там, де дані завантажуються динамічно, акуратна дедуплікація та зіставлення полів під час імпорту, а також докачка і оновлення замість повного перезапуску, щоб каталог можна було оновлювати інкрементально.
Щоб дати точні цифри: я вивчу ваш документ з ТЗ і подивлюсь каталог за посиланням. Підкажіть тільки, куди саме потрібно імпортувати дані: у базу вашого сайту на Lovable через його backend чи в окрему базу. Після цього повернусь з точною оцінкою щодо термінів.
-
702 1 0 Вітаю! Маю великий досвід парсингу даних, мої роботи можете глянути в портфоліо на сайті. Пропоную якісну та швидку роботу. Можлива проблема те що сайт pcgs активно блокує ip-адреса через ботів, рішення для цього це резидентський проксі.
Пишіть.
-
96576 1274 1 10 Привіт. Має великий досвід у розробці парсерів на Python. Готовий до співпраці.
-
4006 7 1 Вітаю!
ціна та терміни: 10000 грн, та від 2 днів до 1 тиждень максимум
Досвід: парсинг великих каталогів, імпорт у PostgreSQL, черги, дедуплікація, resume після збою. Деяки парсери можу скинути в ЛС
Етап 1
Скелет як ucoin.net: країни, номінали, роки, регулярні/юбілейні. Без фото і без зайвих категорій. Фільтри за вашими критеріями, імпорт у структуру як на /catalog/usa. Орієнт ~100k карток, пакетами з логом прогресу.
… Етап 2
PCGS: фото + метадані (рік, грейд, cert тощо), прив’язка до карток етапу 1. Перебір 20-30 млн cert ID - не робимо. Шукаємо обхід: структура сайту, пошук за атрибутами, матч по країні/року/номіналу. Логіку вашого Chrome-extension - в автомат (Playwright + проксі для US IP). Не кожна монета матиме cert - частина вручну або черга винятків.
Складності
ucoin: rate limit, зміни верстки. PCGS: геоблок, антибот. Матчинг не 100%. Масове копіювання даних/фото - перевірте ToS.
Від вас: ТЗ з файлу, список виключених категорій, доступ до БД/API, приклади PCGS URL для тесту.
Готовий уточнити scope після документа.
-
650 2 0 Доброго дня!
Парсинг великих каталогів — наш профільний напрямок, завдання зрозуміле. Проєкт розділю на два етапи, бо вони різні за складністю.
Етап 1 — каталог ucoin.net → ваш сайт (~100 000 карток):
парсинг структури за критеріями (регулярний чекан + ювілейні, без колекційних);
картки: країна → номінал → тип (рік, метал, діаметр, KM#), без фото й зайвого;
імпорт у ваш сайт на Lovable через його backend (Supabase API / bulk-import);
… працюємо через проксі та троттлинг, щоб обійти ліміти. 100k — обсяг великий, але цілком реальний.
Етап 2 — PCGS (зображення + метадані, прив'язка до карток):
Тут є реальне обмеження, яке ви й самі помітили. Перебір 20–30 млн послідовних cert-сторінок — не варіант: це місяці парсингу + гарантований бан, плюс PCGS ріже IP України (потрібні US-резидентні проксі).
Правильний шлях — спершу розвідка: знайти внутрішній API/endpoint PCGS, який віддає дані cert структуровано (часто такі сайти вантажать дані окремим JSON-запитом — його й використовуємо замість обходу HTML). Від результату розвідки залежить, чи можна повністю автоматизувати, чи лишиться напівавтомат.
Можливі складнощі (як ви й просили): блокування IP на PCGS, відсутність каталожної структури PCGS, логіка прив'язки (cert = конкретний екземпляр, картка = тип монети — маппінг за номіналом/роком/грейдом), анти-бот на обсягах.
Досвід парсингу великих каталогів є. Деталі по проекту, строки та вартість — в особистих. Готові зайти в роботу.
-
3083 31 0 Доброго дня. Можу реалізувати цей проект. Є напрацювання. Якщо актуально - пишіть, обговоримо.
-
441 4 0 Доброго дня, готовий виконати ваше замовлення і буду радий подальшій співпраці. Пишіть сюди в лс, скину вам приклади своїх робіт. Ще можу скинути ссилку на портфоліо)
-
1490 28 0 Готовий виконати ваше завдання, досвід є, пишіть, якщо потрібно, тоді проаналізую і напишу вам, як я бачу реалізацію.
-
9927 117 0 Доброго дня.
Розробляю парсери на NodeJS. Готов взятися. Пишіть, обговоримо.
-
976 4 0 Доброго дня. Мене звати Дмитро. Мене зацікавив ваш проект. Маю досвід розробки парсерів, роботи з великими каталогами товарів та автоматизації обробки даних з подальшою вивантаженням у бази даних, CRM та інтернет-магазини.
Працював з каталогами на десятки і сотні тисяч позицій, включаючи захист від блокувань, оновлення даних за розкладом, обробку зображень, характеристик та категорій.
За попередньою оцінкою терміни та вартість залежать від обсягу даних, структури сайту-джерела та вимог до оновлення каталогу, тому після ознайомлення з повним ТЗ зможу дати більш точну оцінку.
З можливих складнощів зазвичай зустрічаються обмеження з боку сайту-донора, захист від парсингу, нестабільна структура даних, обмеження по швидкості запитів та необхідність регулярної синхронізації змін. Усе це вирішується на етапі проектування архітектури парсера.
Готовий вивчити ТЗ та запропонувати оптимальний варіант реалізації з урахуванням подальшого масштабування проекту. 👍
-
4028 11 0 2 Привіт.
Готовий взятися за проект як Python-розробник.
Є досвід парсингу великих каталогів, обробки великих обсягів даних, нормалізації атрибутів, видалення дублікатів та імпорту даних на сайт/БД/API. Для реалізації можу використовувати Python, Scrapy/BeautifulSoup, Playwright/Selenium, requests/aiohttp, PostgreSQL/MySQL, черги та логування.
-
334 Вітаю! Візьмуся за парсинг каталогу та автоматизований імпорт даних.
Подивився ваш каталог (coin-каталог на lovable.app) — зберу всі позиції з потрібними полями (назва, рік, опис, ціна, зображення, ID/посилання) і налаштую автоматичний імпорт у вашу систему.
Відповідаю на ваші питання:
1. Вартість — у межах вашого бюджету; строк орієнтовно 4 робочі дні (точно підтверджу після ТЗ і доступу до цільової бази).
2. Досвід із парсингом є: пишу парсери на Python (requests/httpx, BeautifulSoup/lxml, за потреби Playwright для JS-сторінок) з нормалізацією, дедуплікацією і вивантаженням у CSV/JSON/БД; працюю з великими обсягами та автоматизацією імпорту.
3. Можливі складнощі, які врахую одразу: динамічне підвантаження контенту (JS-рендер), ліміти/блокування при частих запитах (роблю throttling + ретраї), коректне зіставлення полів під вашу схему БД, обробка зображень та інкрементне оновлення (щоб не дублювати при повторних запусках).
… Два уточнення:
1) Куди імпортуємо — ваша БД (яка СУБД) / CMS / Google Sheet / API?
2) Парсинг разовий чи потрібні регулярні оновлення за розкладом?
Працюю через Safe.
-
3481 49 2 Вітаю!
Ознайомився з вашим завданням - маю релевантний досвід у схожих проєктах, тому розумію, як реалізувати все якісно та без зайвих затримок.
Можу приступити до роботи одразу після узгодження деталей. По завершенню також допоможу з налаштуванням, деплоєм та передам всю необхідну документацію.
(вказав час розробики парсера, а на збір даних цим парсером буде дещо більшим)
Буду радий співпраці!
-
738 4 0 Доброго дня. Можу реалізувати цей парсер. Професійно розбираюся в парсингу будь-якої складності, включаючи обхід різних захистів від ботів. Писав парсери дуже складні та великі. Наприклад, парсер copart.com, де потрібно було парсити 500 тис. автомобілів за кілька годин. Звертайтеся.
-
2044 23 0 Привіт! Чи вже визначилися з пріоритетними джерелами для парсингу, окрім основного каталогу?
Терміни та бюджет уточню в особистому листуванні.
Ось як я виконаю цей проєкт:
1. Проведу аналіз структури каталогу та визначу оптимальні точки входу для збору даних.
2. Налаштую асинхронний парсер з обробкою пагінації та захисту від блокувань.
3. Реалізую вивантаження даних у зручному форматі з фільтрацією дублікатів.
… Дякую за розгляд моєї пропозиції. Я з нетерпінням чекаю на можливість співпраці з вами!
-
1510 10 0 Добрий день! Ми маємо великий досвід у парсингу великих каталогів з обходом захисту та автоматизацією імпорту через API. Реалізуємо це через Python з використанням бібліотек Playwright та Scrapy. Основні складнощі бачимо в динамічному підвантаженні контенту та лімітах на запити, які ми успішно нівелюємо через ротацію проксі. Готові обговорити деталі реалізації після вивчення ТЗ.
Ціна за весь проект
-
931 2 0 Парсер з стабільним збором даних — робоче завдання. З обробкою даних та бекенд-логікою працюю постійно.
-
4975 41 4 1 Доброго дня!
Готовий взятися за розробку парсера каталогу та автоматизацію імпорту даних. Досвід роботи з великими каталогами є, в тому числі з використанням проксі та API. Орієнтовна вартість і терміни будуть сформовані після ознайомлення з ТЗ.
Основні складнощі можуть виникнути з змінами в структурі сайту-джерела та блокуваннями IP.
Напишіть мені для уточнення деталей.
-
172 1 1 Доброго дня. Готовий виконати цей проект, маю великий досвід розробки різних додатків.
-
656 9 0 Добрий день, Тетяно! В цілому завдання зрозуміле, для точного відповіді щодо термінів і ціни, хотілося б уточнити деякі питання, які у мене виникли після аналізу вашого завдання. Пишіть в приватні повідомлення — обговоримо деталі та ваші побажання.
Актуальні фриланс-проєкти в категорії Бази даних та SQL
Потрібен Airtable-архітектор для побудови relational schema та нового clean Airtable baseПотрібно допомогти переосмислити та побудувати чисту relational-схему для внутрішньої операційної системи на Airtable. Поточна база вже використовується командою, але вона виросла органічно: структура частково плоска, частина таблиць/в’юшок використовується активно, частина… Бази даних та SQL, Десктопні додатки ∙ 16 годин 6 хвилин тому ∙ 8 ставок |
Платформа для навчання тренерів з баскетболу + Кастомізована CMSПлатформа освіти з баскетбольного тренерства + Кастомізована CMSОгляд проектуМи шукаємо досвідчену команду веб-розробників або full-stack розробника для створення сучасної платформи освіти з баскетбольного тренерства.Вебсайт надасть баскетбольним тренерам доступ до… Бази даних та SQL, Веб-програмування ∙ 1 день 9 годин тому ∙ 79 ставок |
Інтеграція вайбер в 8.3
10 000 UAH
Потрібна інтеграція Viber у власну CRM (1С 8.3)Про компанію Компанія "Домофон Систем" займається встановленням та обслуговуванням домофонних систем. База понад 40 000 абонентів. Працюємо на власній доопрацьованій системі на базі 1С 8.3. Шукаємо спеціаліста або команду для… Бази даних та SQL, Розробка ботів ∙ 1 день 13 годин тому ∙ 13 ставок |
Доопрацювання 1С УТ 11 для ТСД Zebra (RDP): різні звукові сигнали при скануванні
1000 UAH
Конфігурація: 1С УТ 11 Адресний склад ТСД Zebra TC26 Робота через RDP Сканування товарів виконується в документах приймання, розміщення, відбору та інших складських операціях. Поточна проблема: Комірники працюють через ТСД Zebra. При скануванні не завжди помічають повідомлення… C#, Бази даних та SQL ∙ 3 дні 10 годин тому ∙ 6 ставок |
Вилікувати конфігурацію 1с
5000 UAH
Конфігурація CRM & ERP SmartCeiling (2.8.26.0) Захист через Реєстраційний Код . Зареєстрована до кінця року. Бази даних та SQL ∙ 4 дні 1 година тому ∙ 8 ставок |