Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Нужно спарсить интернет магазин

истекло время актуальности


Нужно спарсить сложный интернет магазин. Запросы и код обфусцирован, сайт нужно открывать многопоточно в puppeteer или selenium. Парсить нужно все категории товаров, подкатегории, таблицу со списком товаров, зайти в каждый товар, спарсить картинку, описание, название. Парсер должен быть написан на Node и TypeScript, другие варианты не рассматриваем. Запуск и остановку парсера нужно сделать на html, чтобы можно было управлять из браузера, а не через консоль. Парсить нужно тысячи товаров каждые 1-5 секунд, обновляться всё должно в реальном времени.
Весь код должен быть покрыт тестами на Mocha+Chai.
Сборка проекта должна быть сделана с помощью Webpack.



  1. 10 дней299 000 ₴
    Андрей
    Андрей Логащук
    230   

    В принципе, если потратится на достаточно мощный комп, то это вполне посильная задача.

    Украина Ровно | 4 декабря в 21:59 |
  2. 179 дней333 ₴
    Иван
    Иван Якушенко
    389     3  0

    Напишите в ЛС этот "сложный интернет магазин", после ознакомления смогу сделать конкретное предложение.

    Украина Каменское (Днепродзержинск) | 4 декабря в 22:34 |
  3. ставка скрыта фрилансером
  4. 3 дня1 500 ₴
    Pavel
    Pavel Voloshyn
    195     1

    Добрый день.
    Реализую на хорошем браузерном решении ,не то что извращения которые тербуют немеренно ресурсов.Прога получит данные и поифг что код одусфицирован .если его видно человеку программа тоже спарсит его по хтмл тегам . Это один из лучших софтов,решений для вашей задачи.так же софт работает через прокси ,если это нужно,так же программа может работать многопоточно.
    Программа(проект) передается Вам с открытым исходным кодом,можете использовать в дальнейшем,если понадобится.
    Так же включен месяц бесплатной техподдержки.
    Бюджет проект обсуждаемый.
    Если у Вас есть какие-либо вопросы-задавайте

    Связь со мной:
    telegram businessforpeoples

    Украина Одесса | 7 декабря в 02:19 |
  • Максім Пенчук
    4 декабря в 21:59 |

    Вам треба дуже багато оперативки, і дуже багато ядер, якщо ви хочети парсити за допомогою Selenium, на такій швидкості.

  • Леонид Бабенко
    4 декабря в 22:05 |

    Так вам нужен не парсинг, а ПАРСЕР. Изменить название проекта, не вводите в заблуждение фрилансеров.

  • Виктор Семенов — заказчик проекта
    4 декабря в 22:30 |

    Я думаю это не принципиально. 

  • Иван Якушенко
    4 декабря в 22:23 |

    Запросы и код обфусцирован

    Это вы так сказали? Как по-вашему тогда клиент (сайт) эти запросы читает и рендерит в html? Что бы нормально работать с несколькими инстансами selenium нужен не многопоток, а многопроцессорность, ибо вы запустив пару инстансов упретесь в потолок производительности ядра, параллельные вычисления на node - боль, никто такими костылями даже за вменяемые деньги не будет. Найдите нормального программиста, который не будет вам рассказывать сказки про обфусцированные запросы и городить ерунду про многопоточный node и selenium.

    С уважением.

  • Виктор Семенов — заказчик проекта
    4 декабря в 22:29 |

    Скажите что Вы можете предложить? 

    В принципе сервера не проблема, купим столько сколько нужно

  • Иван Якушенко
    4 декабря в 22:33 |

    Могу сделать ставку, напишите мне в ЛС сайт, я посмотрю и тогда что-то предложу. Я несколько лет занимаюсь парсерами и сбором данных и видал все эти "обфусцированные запросы". Работаю на Python/C#. Если возьмусь за работу то никаких модных словечек в коде типа mocha, chai, webpack и прочее вы не получите, но вы получите результат.

  • Александр Губин
    5 декабря в 23:45 |

    А это вообще возможно - Парсить нужно тысячи товаров каждые 1-5 секунд  ?

    Даже однократно это будет за гранью, а постоянно  - это как вам видится?

  • Максім Пенчук
    5 декабря в 23:48 |

    щось подібне на дос атаку)

  • Иван Якушенко
    5 декабря в 23:56 |

    Про параллельные вычисления не слыхали?

  • Максім Пенчук
    6 декабря в 00:11 |

    А толку тут від них(це ті самі потоки по суті)?

  • Иван Якушенко
    6 декабря в 00:20 |

    Потоки - это одна из разновидностей параллельных вычислений.

    Что значит какой толк? Берешь 1000 ссылок и одновременно их парсишь, при наличии соответствующего интернет-канала.

  • Максім Пенчук
    6 декабря в 00:28 |

    Попробуй відкрити тисячу вкладок в браузері, і подивися на диспечер задач

  • Максім Пенчук
    6 декабря в 00:28 |

    з сайтами

  • Иван Якушенко
    6 декабря в 00:42 |

    А браузер тут каким боком?

  • Максім Пенчук
    6 декабря в 00:44 |

    Ну якщо ти не через браузер будеш парсити то ніяких

    Прямими запросами до сервера це вприниципі реально

  • Максім Пенчук
    6 декабря в 00:46 |

    ну це вже досом вприниципі можна важати)1000 запросів в секунду чи даже 5

  • Александр Губин
    6 декабря в 08:38 |

    Я имел ввиду - как сервер это отдаст и как поведёт себя серверный анализатор ботов?

  • Pavel Voloshyn  (общение в форумах ограничено до 18 декабря)
    7 декабря в 02:18 |

    на зеннопостере такое потянет на 5 серверах .на каждом по 200 браузерных потоков.сам делаю масштабные проекты.протестировано уже многократно и это получше будет чем извращение с селениумом.на 1 инстанс идет 100-100 мбайт памяти оперативной.проц грузит 80%  при 200 потоках браузера

  • Александр Губин
    7 декабря в 08:11 |

    И сервер это не блокирует, 1000 потоков ? И владелец согласен на такой бессмысленный трафик? Вы кого парсите - деревенский сельсовет?

  • Иван Якушенко
    7 декабря в 12:08 |

    И как сервер их заблокирует, если использовать прокси?

  • Иван Якушенко
    7 декабря в 12:08 |

    Что за чушь. Использовать 5 каких-то серверов для всего-то 1000 потоков. Про асинхронный код и корутины не слыхали? И это ты называешь "масштабными"? 

  • Максім Пенчук
    7 декабря в 13:06 |

    Люди забийте на цей проект!

    Скидав заказчик пару днів назад, приклад сайту який потрібно парсити, то цей сайт купляє дані в міжнародних компаній, і від того що ви будете парсити цей сайт , вони будуть мати не погані збитки(1 секунда == 1000 запросів).