Парсинг сайту
Потрібна реалізація 4 парсерів (сайти каталоги)
Є ТЗ, є приклад коду як референс. В завдання входить:
Написати парсер
Прикрутити проксі
Логіка дедублікації (перенести логіку з прикладу)
Логіка хешування по 3 полям
Парсер має працювати як пайплайн з логікою, що описана вище.
-
Оцінка - 35 000 грн, термін - 7 днів після доступу до ТЗ та прикладу коду.
ПО такої задачі я б робив не чотири розрізнені скрипти, а загальну ланцюг обробки - завантаження, проксі, розбір, нормалізація, дедуплікація, хеш за 3 полями, вивантаження та логування помилок. Дивіться, тут нюанс - проксі та захист каталогів часто забирають більше часу, ніж сам розбір сторінок, тому перевірю це на перших 1-2 сайтах.
Запитання
> які саме каталоги і який вихід потрібен - CSV, база, API чи файл для вашої системи
> дедуплікацію потрібно робити тільки всередині одного сайту чи між усіма 4 джерелами
Схожі приклади Ingello
… > https://business.ingello.com/prime-eva - схоже по роботі з товарними даними та операційною автоматизацією
> https://business.ingello.com/vorfahr - близько по інтеграціям, ланцюгам обробки та даним
> https://systems-fl.ingello.com - основна сторінка по системній розробці
Для старту потрібні ТЗ, приклад коду, тестові проксі або вимоги до них, формат результату та критерії, за якими вважаємо запис дублікатом. В цілому нормально, можна не ускладнювати - спочатку робимо стійке ядро, потім підключаємо 4 джерела =)
-
Вітаю! Зацікавила задача «Парсинг сайта». Маю досвід з API-інтеграціями, обміном даними, парсерами, вебхуками та автоматизацією процесів. Зможу акуратно підключити потрібні сервіси, обробити помилки/повтори і зробити рішення, яке буде стабільно працювати після запуску.
Виконаємо якісно. Роботи на сайті портфоліо -
Доброго дня
Професійно займаюсь парсингом сайтів
Виконаю все якісно і максимально швидко
Звертайтесь
-
Добрий день. Для оцінки потрібно переглянути самі сайти. Вказую мінімальну вартість подібного замовлення.
Буду радий співпраці! -
1422 13 0 Вітаю, можу реалізувати всі 4 парсери згідно ТЗ та наданого референсу.
Налаштую роботу через проксі, перенесу логіку дедублікації, реалізую хешування по потрібних полях та побудую повний пайплайн обробки даних.
Досвід у розробці складних парсерів та систем збору даних є.
У результаті отримаєте готові парсери з єдиною логікою роботи, стабільною обробкою даних та можливістю подальшого масштабування.
Після ознайомлення з ТЗ та прикладом коду зможу одразу оцінити точні терміни та вартість.
Підкажіть, будь ласка, на якому стеку написаний референсний код і які саме сайти потрібно парсити?
-
1520 2 0 Здравствуйте!
Відмінне і технічно грамотне ТЗ. Наявність референсного коду — це величезний плюс, адже нам не доведеться вгадувати бажану логіку дедуплікації, я просто інтегрую ваш готовий алгоритм у нову архітектуру.
Я спеціалізуюсь на складній веб-автоматизації (Python) і побудові відмовостійких конвеєрів даних (Data Pipelines).
Багато розробників зроблять вам 4 розрізнені скрипти, які буде дуже складно і дорого підтримувати в майбутньому. Я пропоную зібрати це як єдиний модульний пайплайн, де кожен сайт-каталог — це просто окремий модуль, підключений до загального ядра.
Як буде влаштована архітектура (Pipeline):
…
Збір і Проксі (Extractor): Налаштовуємо ротацію проксі з механізмом retry. Якщо каталог видасть таймаут або забанить IP, скрипт не впаде з помилкою, а акуратно змінить проксі і продовжить роботу з того ж місця. Для захисту від Cloudflare або JS-рендерингу використовую Playwright, для швидких сайтів — асинхронний Aiohttp.
Трансформація (Transformer): Парсинг потрібних полів і їх очищення від сміттєвих тегів.
Хешування: Генеруємо унікальний композитний ключ на основі 3-х зазначених полів (MD5 або SHA-256).
Дедуплікація (Filter): Переношу логіку з вашого референсного коду. Реалізую перевірку хешів "на льоту" (через генератори), щоб скрипт працював швидко і не з'їдав всю оперативну пам'ять (RAM) сервера при обробці великих каталогів.
Два уточнюючих питання:
Дедуплікація повинна працювати глобально (шукати дублікати між усіма 4 джерелами) чи ізольовано всередині кожного окремого сайту?
В якому форматі пайплайн повинен віддавати фінальні очищені дані (CSV, JSON, чи пряма запис у вашу БД)?
Чекаю посилань на сайти і ваш приклад коду в особистих повідомленнях. Зможу розпочати аналіз одразу після узгодження деталей!
-
650 2 0 Доброго дня!
Розробка парсерів із пайплайн-логікою — наш профільний напрямок, тож завдання повністю зрозуміле. Наявність ТЗ і прикладу коду — великий плюс: витримаємо єдиний стиль і перенесемо вашу логіку без відхилень.
Що реалізуємо:
4 парсери за ТЗ під сайти-каталоги.
Інтеграція проксі (ротація + троттлинг для стабільної роботи без блокувань).
Логіка дедуплікації — перенесемо з вашого референсу.
… Хешування по 3 полях для контролю дублів.
Усе зібрано в єдиний пайплайн за описаною схемою.
Щоб одразу дати точну ціну й термін, уточніть:
4 сайти однотипні чи різні за складністю (JS-рендер, антибот, авторизація)?
Проксі ваші чи підключаємо свої?
Деталі обговоримо в особистих.
-
172 1 1 Доброго дня. Готовий виконати цей проект, маю великий досвід розробки різних додатків.
-
3411 32 0 Вітаю!
Для оцінки об'єму роботи, надайте посилання на сайти в особисті, а також більш детальне ТЗ.
-
1984 25 1 Вітаю, можу створити такий пайплайн для вас, досвід є. Але потрібно мати більше вхідних данних. Давайте поспілкуємось в особистих?
-
420 2 0 Привітую! Готова реалізувати 4 парсери за вашим ТЗ. Скиньте посилання на сайти в ЛС
-
1476 14 1 Зроблю парсери з проксі та логікою дедублікації як пайплайн на Python. Є досвід інтеграції хешування для унікалізації даних і роботи з прикладом коду. Можеш уточнити, які саме поля потрібно хешувати для дедублікації?
-
727 6 0 детальна оцінка після ознайомлення з ТЗ
_______________________________________________
-
234 Доброго дня. Можу реалізувати 4 парсери за вашим ТЗ: перепишу логіку з референсу, налаштуваю проксі, додам дедублікацію та хешування за 3 полями, а також зберу все в єдиний pipeline, щоб дані оброблялися послідовно та стабільно. Після ознайомлення з прикладом коду уточню деталі та запропоную фінальну архітектуру рішення.
-
333 Добрий день! Займаюся парсингом на Python та Java, маю досвід із проксі-ротацією, дедуплікацією та пайплайн-архітектурою.
Реалізую 4 парсери з урахуванням вашого прикладу коду — перенесу логіку дедуплікації, додам хешування по 3 полям та підключу проксі. Код буде чистим, з логуванням та обробкою помилок.
Перед стартом уточню список сайтів та можливі захисти (Cloudflare, JS-рендеринг). Здам у термін.
-
2147 33 0 Добрий день, робив парсери різних сайтів. Прикладу коду не потрібні. Потрібні адреси сайтів, тоді можна буде сказати точніше по часу і вартості
-
93816 1268 1 10 Привіт. Є великий досвід у розробці парсерів. Можна побачити сайти для парсингу?
-
1580 3 0 Привіт!
Маю великий досвід розробки рішень для парсингу та обробки даних (різні джерела, захист від блокувань, автоматизація). Готовий реалізувати поставлене завдання в найкоротші терміни.
Пропоную обговорити деталі в особистих повідомленнях.
-
3926 15 0 Доброго дня.
Можу розробити парсер для Вас у найкоротші терміни. Оплата погодинна.
Кількість годин потрібно попередньо узгодити.
І вона залежить від того, які майданчики/сайти ми збираємося парсити. Відправте їх у лс.
Останній проект, з яким я працював, парсер закордонних майданчиків (olx vinted jofogas), з моніторингом і тією логікою, про яку ви пишете, тільки в форматі телеграм-бота. Відгуки в профілі або за посиланням https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1592141.html
Пишіть, буду радий це зробити для Вас.
-
1251 35 1 3 Привітую, готовий зробити. Присилайте ТЗ в особисті повідомлення, ознайомлюсь, обговоримо умови співпраці.
-
6366 74 1 Доброго дня. Маю великий досівд в парсингу.
потрібно подивитись джерела.
Буду радий спивпраці.
-
315 Вітаю, зацікавив проект. Працюю з Python, парсингом сайтів, Requests/BeautifulSoup/Selenium, обробкою даних та збереженням результатів у CSV/Excel.
Готовий розглянути реалізацію 4 парсерів під ваші сайти з підключенням проксі, дедублікацією та хешуванням по потрібних полях. Можу також розглянути приклад коду та перенести необхідну логіку у новий пайплайн.
Для точної оцінки я хотів би ознайомитися з ТС, списком сайтів, прикладом коду та форматом підсумкових даних.
-
1490 28 0 Можу виконати, пишіть для обговорення деталей..................................................
-
108 Привіт!
Готовий реалізувати всі 4 парсери відповідно до ТЗ. Можу перенести та адаптувати логіку дедуплікації з референсного проєкту, налаштувати роботу через проксі, реалізувати хешування за вказаними полями та зібрати все в єдиний пайплайн.
Якщо надасте ТЗ та приклад коду, зможу швидко оцінити терміни та розпочати роботу.
-
3219 84 0 Готовий взятися. Треба бачити сайти.
Треба уточнити деталі замовлення, пишіть!
Використовую python, uv, github, docker.
-
6824 164 1 Доброго вечора, якщо великий досвід парсингу, можу приступити після погодження ТЗ. Пишіть в особисті повідомлення.
-
471 1 0 Доброго вечора. Скиньте ТЗ і я приступлю до реалізації парсерів.
-
10123 117 0 Доброго дня.
Розробляю ботів та парсери на NodeJS. Готовий взятися. Пишіть, обговоримо.
-
243 Богдане, вітаю.
Ознайомилася з вашою задачею. Чудово, коли є готове ТЗ та референс коду, це одразу знімає купу питань. Напишу всі 4 парсери на Python (Scrapy або BeautifulSoup, залежно від того, як віддають дані сайти).
Весь пайплайн налаштую як треба: підключу проксі для стабільного збору, а логіку дедуплікації та хешування по трьох полях просто імплементую з вашого прикладу.
Скиньте в особисті повідомлення посилання на самі каталоги та ваш референсний код. Я швидко перегляну структуру і зможу одразу взятися за роботу.
-
3206 31 0 Вітаю! Чудове, зрозуміле завдання, повністю мій профіль. Реалізую парсери як надійний, відмовостійкий pipeline на Python (Scrapy/BeautifulSoup).
Чітко перенесу логіку дедуплікації та хешування по 3 полям з вашого референсу, налаштую ротацію проксі для безперебійної роботи. Оскільки є готове ТЗ та приклад коду, зроблю все швидко і без зайвих запитань.
Готовий стартувати одразу після ознайомлення з референсом. Давайте обговоримо деталі!
-
702 1 0 Вітаю! Маю великий досвід написання парсерів. Готовийд о співпраці. Пропоную якісну та швидку роботу.
Пишіть.
-
673 5 0 Привіт, я працював над парсингом каталогу з 50,000+ товарів для eCommerce платформи , використовуючи прокси-ротацію та дедуплікацію по хешах - це точно підходить для ваших 4 каталогів!
Цікаво, які саме каталоги потрібно парсити і чи є обмеження по швидкості збору даних?
Пропоную зв'язатися, я безкоштовно проконсультую вас з технічної сторони та складемо план розробки + розповім про мою команду! ✨
Актуальні фриланс-проєкти в категорії Парсинг даних
База сайтів на woocommerceПотрібно зібрати базу українських сайтів інтернет-магазинів на woocommerce з контактами, які вказані на сайтах. Тільки працюючі сайти (індикатор: оновлення каталогу/контенту, робочий домен) Формат таблиці - адреса сайту, номер телефону, e-mail. Парсинг даних ∙ 1 день 15 годин тому ∙ 20 ставок |
Створити дашборд у https://airtable.com/ по результативності рекламних креативів з facebook adsПовноцінне ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Бази даних та SQL, Парсинг даних ∙ 3 дні 5 годин тому ∙ 17 ставок |
Створення файлу Exel для завантаження товарів на сайти інших партнерів.Мене цікавить щоб зробити табличку Exel з повністю всіма параметрами. Ось сайт -https://heiztechnik.com.ua/ І позиціії які цікавлять щоб були перенесенні : Ручні котли : 1) TIS UNI 15-95 кВт(10) шт 2)TIS HARD 150-500 кВт(7) шт Пелетні котли: 1)TIS PELLET 15-95 кВт(10) шт 2)TIS… Парсинг даних ∙ 3 дні 9 годин тому ∙ 35 ставок |
Потрібен розробник для парсингу каталогу та автоматизації імпорту данихПодробне ТЗ в прикріпленому документі прошу в відповіді вказати орієнтовну вартість і терміни реалізації чи є досвід роботи з парсингом великих каталогів які можливі складнощі або обмеження ви бачите в даному завданні Бази даних та SQL, Парсинг даних ∙ 3 дні 12 годин тому ∙ 40 ставок |
Знайти товарний фід (Google Merchant XML) для сайту на OpenCart
700 UAH
Необхідно знайти пряме посилання на діючий товарний фід (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Знайти оригінальний фідВимоги до результату: Робоче посилання на XML-файл Python, Парсинг даних ∙ 3 дні 17 годин тому ∙ 25 ставок |