Фриланс-проєкти

Фриланс-проєкти

Парсинг сайту

Name: Парсинг сайту
Price: 8000 UAH
Availability: InStock

Парсинг даних — неправильно зазначені категорії?

8000 UAH

Проєкт перекладено автоматично. Увійдіть або зареєструйтесь, щоб побачити оригінал

Потрібна реалізація 4 парсерів (сайти каталоги)

Є ТЗ, є приклад коду як референс. В завдання входить:

Написати парсер

Прикрутити проксі

Логіка дедублікації (перенести логіку з прикладу)

Логіка хешування по 3 полям

Парсер має працювати як пайплайн з логікою, що описана вище.

Ставки 45

Олег Григорьев

33 0

Проєкти 31
Оцінка 5.0
Рейтинг 6 447

Бюджет: 27000 UAH Термін: 7 днів

Оцінка - 35 000 грн, термін - 7 днів після доступу до ТЗ та прикладу коду.

ПО такої задачі я б робив не чотири розрізнені скрипти, а загальну ланцюг обробки - завантаження, проксі, розбір, нормалізація, дедуплікація, хеш за 3 полями, вивантаження та логування помилок. Дивіться, тут нюанс - проксі та захист каталогів часто забирають більше часу, ніж сам розбір сторінок, тому перевірю це на перших 1-2 сайтах.

Запитання
> які саме каталоги і який вихід потрібен - CSV, база, API чи файл для вашої системи
> дедуплікацію потрібно робити тільки всередині одного сайту чи між усіма 4 джерелами

Схожі приклади Ingello
> https://business.ingello.com/prime-eva - схоже по роботі з товарними даними та операційною автоматизацією
> https://business.ingello.com/vorfahr - близько по інтеграціям, ланцюгам обробки та даним
> https://systems-fl.ingello.com - основна сторінка по системній розробці

Для старту потрібні ТЗ, приклад коду, тестові проксі або вимоги до них, формат результату та критерії, за якими вважаємо запис дублікатом. В цілому нормально, можна не ускладнювати - спочатку робимо стійке ядро, потім підключаємо 4 джерела =)

Volodymyr H.

54 1

Проєкти 51
Оцінка -
Рейтинг 4 126

Бюджет: 5000 UAH Термін: 4 дні

Вітаю! Зацікавила задача «Парсинг сайта». Маю досвід з API-інтеграціями, обміном даними, парсерами, вебхуками та автоматизацією процесів. Зможу акуратно підключити потрібні сервіси, обробити помилки/повтори і зробити рішення, яке буде стабільно працювати після запуску.

Виконаємо якісно. Роботи на сайті портфоліо

Ihor K.

6 0

Проєкти 6
Оцінка 5.0
Рейтинг 826

Бюджет: 8000 UAH Термін: 8 днів

детальна оцінка після ознайомлення з ТЗ
_______________________________________________

Андрей К.

1 296 1

Проєкти 1 300
Оцінка 5.0
Рейтинг 105 022

Бюджет: 5000 UAH Термін: 7 днів

Привіт. Є великий досвід у розробці парсерів. Можна побачити сайти для парсингу?

Віталій Жовнірчик

100 0

Проєкти 101
Оцінка 5.0
Рейтинг 8 135

Бюджет: 4000 UAH Термін: 1 день

Доброго дня
Професійно займаюсь парсингом сайтів
Виконаю все якісно і максимально швидко

Звертайтесь

Александр Стинковый

117 0

Проєкти 118
Оцінка 5.0
Рейтинг 10 361

Бюджет: 4500 UAH Термін: 3 дні

Доброго дня.

Розробляю ботів та парсери на NodeJS. Готовий взятися. Пишіть, обговоримо.

Артем Плаха

150 0

Проєкти 151
Оцінка 4.9
Рейтинг 11 022

Бюджет: 4000 UAH Термін: 8 днів

Добрий день. Для оцінки потрібно переглянути самі сайти. Вказую мінімальну вартість подібного замовлення.

Буду радий співпраці!

Максим О.

5 0

Проєкти 5
Оцінка 4.9
Рейтинг 756

Бюджет: 2000 UAH Термін: 7 днів

Привіт, я працював над парсингом каталогу з 50,000+ товарів для eCommerce платформи , використовуючи прокси-ротацію та дедуплікацію по хешах - це точно підходить для ваших 4 каталогів!

Цікаво, які саме каталоги потрібно парсити і чи є обмеження по швидкості збору даних?

Пропоную зв'язатися, я безкоштовно проконсультую вас з технічної сторони та складемо план розробки + розповім про мою команду! ✨

Олександр Білак

13 0

Проєкти 13
Оцінка 5.0
Рейтинг 1 382

Бюджет: 4000 UAH Термін: 8 днів

Вітаю, можу реалізувати всі 4 парсери згідно ТЗ та наданого референсу.
Налаштую роботу через проксі, перенесу логіку дедублікації, реалізую хешування по потрібних полях та побудую повний пайплайн обробки даних.
Досвід у розробці складних парсерів та систем збору даних є.

У результаті отримаєте готові парсери з єдиною логікою роботи, стабільною обробкою даних та можливістю подальшого масштабування.

Після ознайомлення з ТЗ та прикладом коду зможу одразу оцінити точні терміни та вартість.

Підкажіть, будь ласка, на якому стеку написаний референсний код і які саме сайти потрібно парсити?

Віталій Добрянський

2 0

Проєкти -
Оцінка -
Рейтинг 1 478

Бюджет: 5000 UAH Термін: 4 дні

Здравствуйте!

Відмінне і технічно грамотне ТЗ. Наявність референсного коду — це величезний плюс, адже нам не доведеться вгадувати бажану логіку дедуплікації, я просто інтегрую ваш готовий алгоритм у нову архітектуру.

Я спеціалізуюсь на складній веб-автоматизації (Python) і побудові відмовостійких конвеєрів даних (Data Pipelines).

Багато розробників зроблять вам 4 розрізнені скрипти, які буде дуже складно і дорого підтримувати в майбутньому. Я пропоную зібрати це як єдиний модульний пайплайн, де кожен сайт-каталог — це просто окремий модуль, підключений до загального ядра.

Як буде влаштована архітектура (Pipeline):

Збір і Проксі (Extractor): Налаштовуємо ротацію проксі з механізмом retry. Якщо каталог видасть таймаут або забанить IP, скрипт не впаде з помилкою, а акуратно змінить проксі і продовжить роботу з того ж місця. Для захисту від Cloudflare або JS-рендерингу використовую Playwright, для швидких сайтів — асинхронний Aiohttp.

Трансформація (Transformer): Парсинг потрібних полів і їх очищення від сміттєвих тегів.

Хешування: Генеруємо унікальний композитний ключ на основі 3-х зазначених полів (MD5 або SHA-256).

Дедуплікація (Filter): Переношу логіку з вашого референсного коду. Реалізую перевірку хешів "на льоту" (через генератори), щоб скрипт працював швидко і не з'їдав всю оперативну пам'ять (RAM) сервера при обробці великих каталогів.

Два уточнюючих питання:

Дедуплікація повинна працювати глобально (шукати дублікати між усіма 4 джерелами) чи ізольовано всередині кожного окремого сайту?

В якому форматі пайплайн повинен віддавати фінальні очищені дані (CSV, JSON, чи пряма запис у вашу БД)?

Чекаю посилань на сайти і ваш приклад коду в особистих повідомленнях. Зможу розпочати аналіз одразу після узгодження деталей!

Artur Boiko

5 0

Проєкти 5
Оцінка 4.9
Рейтинг 1 753

Бюджет: 4000 UAH Термін: 1 день

Доброго дня!

Розробка парсерів із пайплайн-логікою — наш профільний напрямок, тож завдання повністю зрозуміле. Наявність ТЗ і прикладу коду — великий плюс: витримаємо єдиний стиль і перенесемо вашу логіку без відхилень.

Що реалізуємо:

4 парсери за ТЗ під сайти-каталоги.
Інтеграція проксі (ротація + троттлинг для стабільної роботи без блокувань).
Логіка дедуплікації — перенесемо з вашого референсу.
Хешування по 3 полях для контролю дублів.
Усе зібрано в єдиний пайплайн за описаною схемою.
Щоб одразу дати точну ціну й термін, уточніть:

4 сайти однотипні чи різні за складністю (JS-рендер, антибот, авторизація)?
Проксі ваші чи підключаємо свої?
Деталі обговоримо в особистих.

Dmytro Zmenkov

1 1

Проєкти -
Оцінка -
Рейтинг 121

Бюджет: 5000 UAH Термін: 1 день

Доброго дня. Готовий виконати цей проект, маю великий досвід розробки різних додатків.

Геннадій Я.

32 0

Проєкти 33
Оцінка 5.0
Рейтинг 3 379

Бюджет: 4000 UAH Термін: 3 дні

Вітаю!
Для оцінки об'єму роботи, надайте посилання на сайти в особисті, а також більш детальне ТЗ.

Єгор Ульченко

25 1

Проєкти 25
Оцінка 4.8
Рейтинг 1 946

Бюджет: 5000 UAH Термін: 1 день

Вітаю, можу створити такий пайплайн для вас, досвід є. Але потрібно мати більше вхідних данних. Давайте поспілкуємось в особистих?

Ангеліна Я.

2 0

Проєкти -
Оцінка -
Рейтинг 391

Бюджет: 4000 UAH Термін: 5 днів

Привітую! Готова реалізувати 4 парсери за вашим ТЗ. Скиньте посилання на сайти в ЛС

Andrii V.

14 1

Проєкти 15
Оцінка 5.0
Рейтинг 1 451

Бюджет: 4000 UAH Термін: 5 днів

Зроблю парсери з проксі та логікою дедублікації як пайплайн на Python. Є досвід інтеграції хешування для унікалізації даних і роботи з прикладом коду. Можеш уточнити, які саме поля потрібно хешувати для дедублікації?

Vasyl Artamonov

0 0

Проєкти -
Оцінка -
Рейтинг 234

Бюджет: 4000 UAH Термін: 2 дні

Доброго дня. Можу реалізувати 4 парсери за вашим ТЗ: перепишу логіку з референсу, налаштуваю проксі, додам дедублікацію та хешування за 3 полями, а також зберу все в єдиний pipeline, щоб дані оброблялися послідовно та стабільно. Після ознайомлення з прикладом коду уточню деталі та запропоную фінальну архітектуру рішення.

Nikita Vakarenko

0 0

Проєкти -
Оцінка -
Рейтинг 344

Бюджет: 4000 UAH Термін: 5 днів

Добрий день! Займаюся парсингом на Python та Java, маю досвід із проксі-ротацією, дедуплікацією та пайплайн-архітектурою.
Реалізую 4 парсери з урахуванням вашого прикладу коду — перенесу логіку дедуплікації, додам хешування по 3 полям та підключу проксі. Код буде чистим, з логуванням та обробкою помилок.
Перед стартом уточню список сайтів та можливі захисти (Cloudflare, JS-рендеринг). Здам у термін.

Илья П.

43 0

Проєкти 43
Оцінка 5.0
Рейтинг 3 182

Бюджет: 4000 UAH Термін: 7 днів

Добрий день, робив парсери різних сайтів. Прикладу коду не потрібні. Потрібні адреси сайтів, тоді можна буде сказати точніше по часу і вартості

Тарас О.

5 0

Проєкти 5
Оцінка 5.0
Рейтинг 2 046

Бюджет: 3500 UAH Термін: 7 днів

Привіт!

Маю великий досвід розробки рішень для парсингу та обробки даних (різні джерела, захист від блокувань, автоматизація). Готовий реалізувати поставлене завдання в найкоротші терміни.

Пропоную обговорити деталі в особистих повідомленнях.

Rumzik Matvey

15 0

Проєкти 15
Оцінка 5.0
Рейтинг 3 659

Бюджет: 27000 UAH Термін: 7 днів

Доброго дня.
Можу розробити парсер для Вас у найкоротші терміни. Оплата погодинна.
Кількість годин потрібно попередньо узгодити.
І вона залежить від того, які майданчики/сайти ми збираємося парсити. Відправте їх у лс.

Останній проект, з яким я працював, парсер закордонних майданчиків (olx vinted jofogas), з моніторингом і тією логікою, про яку ви пишете, тільки в форматі телеграм-бота. Відгуки в профілі або за посиланням https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1592141.html

Пишіть, буду радий це зробити для Вас.

Владислав Т.

35 1

Проєкти 35
Оцінка 3.8
Рейтинг 1 196

Бюджет: 4444 UAH Термін: 1 день

Привітую, готовий зробити. Присилайте ТЗ в особисті повідомлення, ознайомлюсь, обговоримо умови співпраці.

Mykhailo P.

74 1

Проєкти 74
Оцінка 5.0
Рейтинг 5 906

Бюджет: 1000 UAH Термін: 1 день

Доброго дня. Маю великий досівд в парсингу.
потрібно подивитись джерела.
Буду радий спивпраці.

Максим Судочаков

0 0

Проєкти -
Оцінка -
Рейтинг 438

Бюджет: 6000 UAH Термін: 6 днів

Вітаю, зацікавив проект. Працюю з Python, парсингом сайтів, Requests/BeautifulSoup/Selenium, обробкою даних та збереженням результатів у CSV/Excel.
Готовий розглянути реалізацію 4 парсерів під ваші сайти з підключенням проксі, дедублікацією та хешуванням по потрібних полях. Можу також розглянути приклад коду та перенести необхідну логіку у новий пайплайн.
Для точної оцінки я хотів би ознайомитися з ТС, списком сайтів, прикладом коду та форматом підсумкових даних.

Володимир Ч.

28 0

Проєкти 28
Оцінка 5.0
Рейтинг 1 442

Бюджет: 1000 UAH Термін: 2 дні

Можу виконати, пишіть для обговорення деталей..................................................

Ростислав Чувурін

0 0

Проєкти -
Оцінка -
Рейтинг 158

Бюджет: 1000 UAH Термін: 3 дні

Привіт!

Готовий реалізувати всі 4 парсери відповідно до ТЗ. Можу перенести та адаптувати логіку дедуплікації з референсного проєкту, налаштувати роботу через проксі, реалізувати хешування за вказаними полями та зібрати все в єдиний пайплайн.

Якщо надасте ТЗ та приклад коду, зможу швидко оцінити терміни та розпочати роботу.

Єгор І.

86 0

Проєкти 86
Оцінка 5.0
Рейтинг 3 620

Бюджет: 2000 UAH Термін: 2 дні

Готовий взятися. Треба бачити сайти.
Треба уточнити деталі замовлення, пишіть!
Використовую python, uv, github, docker.

Александр З.

164 1

Проєкти 167
Оцінка 5.0
Рейтинг 6 730

Бюджет: 3999 UAH Термін: 4 дні

Доброго вечора, якщо великий досвід парсингу, можу приступити після погодження ТЗ. Пишіть в особисті повідомлення.

Андрій Ж.

1 0

Проєкти -
Оцінка -
Рейтинг 471

Бюджет: 3000 UAH Термін: 3 дні

Доброго вечора. Скиньте ТЗ і я приступлю до реалізації парсерів.

Ірина Замбовська

0 0

Проєкти -
Оцінка -
Рейтинг 229

Бюджет: 1500 UAH Термін: 4 дні

Богдане, вітаю.

Ознайомилася з вашою задачею. Чудово, коли є готове ТЗ та референс коду, це одразу знімає купу питань. Напишу всі 4 парсери на Python (Scrapy або BeautifulSoup, залежно від того, як віддають дані сайти).

Весь пайплайн налаштую як треба: підключу проксі для стабільного збору, а логіку дедуплікації та хешування по трьох полях просто імплементую з вашого прикладу.

Скиньте в особисті повідомлення посилання на самі каталоги та ваш референсний код. Я швидко перегляну структуру і зможу одразу взятися за роботу.

Alexander Krys

32 0

Проєкти 31
Оцінка 5.0
Рейтинг 3 103

Бюджет: 8000 UAH Термін: 2 дні

Вітаю! Чудове, зрозуміле завдання, повністю мій профіль. Реалізую парсери як надійний, відмовостійкий pipeline на Python (Scrapy/BeautifulSoup).

Чітко перенесу логіку дедуплікації та хешування по 3 полям з вашого референсу, налаштую ротацію проксі для безперебійної роботи. Оскільки є готове ТЗ та приклад коду, зроблю все швидко і без зайвих запитань.

Готовий стартувати одразу після ознайомлення з референсом. Давайте обговоримо деталі!

Роман Пастухов

1 0

Проєкти -
Оцінка -
Рейтинг 702

Бюджет: 4000 UAH Термін: 3 дні

Вітаю! Маю великий досвід написання парсерів. Готовийд о співпраці. Пропоную якісну та швидку роботу.
Пишіть.

У списку не показані ставки, приховані замовником чи фрилансером з Plus, а також ставки, що порушують правила

Bohdan Ostapov
Україна

Проєктів 1
Оцінка -
Рейтинг 81