Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Post your project for free and start getting offers from freelance performers within minutes after posting!

Переделать парсер из реквестов в браузер


  1. proposal concealed by freelancer
  2. 1567    28  2   2
    5 days5000 UAH

    Доброго дня. Python є основною моєю мовою програмування, тому знаю його досконало (реалізую саме на ньому), маю досвід написання парсерів та роботою з БД, капчами і тд. Зроблю парсер за 15 робочих годин. Реалізую за допомогою Selenium headless.
    Також працюю з : Django, Kivy, Pygt5, PySide, Tkinter, Selenium і тд. Пишіть в ЛС, є приклад роботи у портфоліо. Потрібно уточнити декілька моменів в ЛС. Буду радий з вами співпрацювати)

  3. 35  
    5 days2000 UAH

    Готов попробовать реализовать rebuy.de парсер, под windows в программе ехе, поклацал , обошел первичную защиту окна проверку браузера на запросах. , напишите что нужно собирать, что бы я запустил на том этапе что есть у меня и проверил сбор.

  • Maxim Penchuk
    11 November 2020, 17:23 |

    Не боїтеся що власник сайту, може рано чи пізно заяву кинути?😁 

  • Oleksandr Lakhtin
    11 November 2020, 17:34 |

    Ваш вопрос не относится к задаче проекта. Задавайте вопросы по существу.

  • Maxim Penchuk
    11 November 2020, 17:36 |

    Не питаня по проекту, бомбити 5 запросів на секунду сайт, на постояні основі це не дуже добре

  • Oleksandr Lakhtin
    11 November 2020, 18:20 |

    Это вопрос этики. Сайт публичный,  к нему имеют доступ миллионы людей. В процентном соотношении к общей нагрузке мои запросы = менее 1%.  Сайт рассчитан на эту нагрузку. 

    Законодательные и авторские ограничения, которые установлены правилами сайта соблюдены в полной мере.

    Форум проекта рассчитан на обсуждение по его выполнению, а не дискуссии о морали и правилах.

    Этими вопросами Вы сами же и нарушаете правила Фрилансхант.

    Если Вы такой блюститель правил, начните с себя и соблюдайте их сами прежде всего.


    Прочтите информацию перейдя по ссылке на ПРАВИЛА на форуме проекта:

     "Ставки в форуме проекта запрещены. Также не забудьте ознакомиться с правилами общения. ".

  • Maxim Penchuk
    11 November 2020, 18:33 |

    Ви не думали чого вас банять через пару днів , а не зразу.Якщо припустити що там є якась защіта яку ви не обійшли, то сайт має забанити через хвилин 10-30, а тут 4 дня.Може там, злющий власник сайту сидить?І 5 запросів на секунду протягом місяця(року), це не так мало, під такі запроси, можна виділяти окремий сервер😁 

  • Maxim Penchuk
    11 November 2020, 21:00 |

    Законодательные и авторские ограничения, которые установлены правилами сайта соблюдены в полной мере.


    Там такі написано 5 запросів на секунду можна, це не DOS,це просто ми вас парсим😁 рік)

  • Profile deleted
    11 November 2020, 21:10 |

    У меня вопрос довольно простой. Я так понимаю вас банят раз в 3-4 дня, из-за того что вы парсите весь сайт? Я правильно понимаю?
    Я посмотрел на сайт, и хотелось бы уточнить, какую именно информацию должен грабить парсер, и насколько часто это информация обновляется?

  • Oleksandr Lakhtin
    11 November 2020, 21:40 |

    Банят, раз в 3-4 дня.

    Парсю по категориям.

    Информацию о товарах: титл, дескпришн, цены.

    Обновляется минимум раз в сутки, а то и чаще, но не по всем товарам.


  • Profile deleted
    11 November 2020, 21:49 |

    можно ли не проваливаясь в карточку товара определить изменилась ли информация или нет? Как часто нужно парсить этот сайт.

    Сейчас основная проблема в том, что они поставили защиту, как минимум для браузера, с задержкой открытия страницы. Правда с VPN из под немецкого ip я не пробовал заходит, но сам факт защиты есть.

  • Oleksandr Lakhtin
    11 November 2020, 21:52 |

    можно ли не проваливаясь в карточку товара определить изменилась ли информация или нет?

    этого не знаю

    Как часто нужно парсить этот сайт.

    постоянно

    Сейчас основная проблема в том, что они поставили защиту, как минимум для браузера, с задержкой открытия страницы. Правда с VPN из под немецкого ip я не пробовал заходит, но сам факт защиты есть.

    с IP Европа/США/Англия открывается без проверки

    с США быстрее всего

  • Profile deleted
    11 November 2020, 22:06 |

    постоянно

    я имею ввиду переодичность. Раз в час, раз в сутки, раз в двое суток.

    этого не знаю

    Здесь вопрос простой. Там каждый товар имеет в url свой уникальный id из их базы данных. По нему можно идентифицировать товар. меня интересует, насколько часто меняется информация по конкретному товару, не считая цены, что бы понимать, возможно ли вообще обойти бан или ограничения за счет, уменьшения количества запросов. к их серверу.


    с IP Европа/США/Англия открывается без проверки

    Проверка все равно есть image

    это с американского ip, проверка появляется меньше, но примерно каждый 4 запрос сделанный в течении 1-2 секунд, выдает это. Так что вам вряд ли удастся не снижая количество запросов, обойти защиту эмуляцией браузера, или не договорившись с владельцем об открытой выгрузке.

  • Oleksandr Lakhtin
    11 November 2020, 22:43 |

    я имею ввиду переодичность. Раз в час, раз в сутки, раз в двое суток.

    выполняется непрерывно, там по 4м интересующим меня категориям в сумме около 6 миллионов товаров, поэтому, как только спарсили все, парсим заново. практически сразу


    Здесь вопрос простой. Там каждый товар имеет в url свой уникальный id из их базы данных. По нему можно идентифицировать товар. меня интересует, насколько часто меняется информация по конкретному товару, не считая цены, что бы понимать, возможно ли вообще обойти бан или ограничения за счет, уменьшения количества запросов. к их серверу.

    информация о товаре не считая цены обновляется редко,но новые товары добавляются каждый день, хоть и немного(около 1000)


    это с американского ip, проверка появляется меньше, но примерно каждый 4 запрос сделанный в течении 1-2 секунд, выдает это. Так что вам вряд ли удастся не снижая количество запросов, обойти защиту эмуляцией браузера, или не договорившись с владельцем об открытой выгрузке.

    может быть Ваш IP shared или недостаточно непрозрачный, либо они усилили защиту.

    Кол-во запросов можно уменьшить, только покупая больше IP, вот нужно найти решение учитывая месячный бюджет на прокси и требуемую сокрость.


    при парсинге запросами мы обращаемся напрямую к АПИ, оно у них открыто


    пытались договориться с владельцем, но не удалось, сказали используйте как есть - use as is 

  • Maxim Penchuk
    11 November 2020, 22:48 |

    тіпа власник, знає)цікаво😁 Наверно того там стільки защіти

  • Maxim Penchuk
    11 November 2020, 22:50 |

    https://www.rebuy.de/kaufen/suchen?q=s

    нащо вам парсити всьой сайт, ось пошук беріть звідси ціну

  • Oleksandr Lakhtin
    11 November 2020, 22:55 |

    ну хоть одно сообщение по делу!

    теоритически, замечание дельное, только кроме цен и титлов нужны еще описания товаров.

    также, на сайте представлено 4 цены в зависимости от состояний товаров: новый, как новый, бу, плохой бу, которые не вижно по выдаче из поиска


  • Maxim Penchuk
    11 November 2020, 22:57 |

    Опис у вас є , вже по ідеї ви вже його раз парсили.

    Ну це рішається, тим що ви вже його раз спарсили і знаєти в яких товарах так, і в ті товари треба заходити

  • Oleksandr Lakhtin
    11 November 2020, 22:59 |

    логично, ну так делайте ставку 😉

  • Oleksandr Lakhtin
    11 November 2020, 22:51 |

    если не можете что-то добавить по решению задачи проекта - не засоряйте форум своими сообщения, пожалуйста.

  • Maxim Penchuk
    11 November 2020, 22:55 |

    Решения - це зменшення кількості запросів, за допомогою гібридного парсінга пошука і підкатегорій, і самих карточок, це має зменшити кількість запросів, ,відсотків так на 80

  • Oleksandr Lakhtin
    11 November 2020, 22:56 |

    ну, раз Вы знаете, что и как делать, почему не делаете ставку?

  • Oleksandr Lakhtin
    11 November 2020, 22:56 |

    ну, раз Вы знаете, что и как делать, почему не делаете ставку?

  • Oleksandr Lakhtin
    11 November 2020, 22:56 |

    ну, раз Вы знаете, что и как делать, почему не делаете ставку?

  • Oleksandr Lakhtin
    11 November 2020, 22:56 |

    ну, раз Вы знаете, что и как делать, почему не делаете ставку?

  • Maxim Penchuk
    11 November 2020, 22:58 |

    ну поперше там якась бешена защіта, цікава, обійти можна канешно, а по друге вмене немає зараз часу, вмене своїх проектів хватає) на місяць вперед

  • Oleksandr Lakhtin
    11 November 2020, 23:02 |

    ясно, т.е. Вы тут поболтать...