Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Opublikuj swoje zlecenie za darmo i otrzymaj oferty od wykonawców freelancerów już minutę po opublikowaniu!

Получить некэшированные страницы с 2 сайтов


Załączniki 2

Wgląd do aplikacji jest dostępny tylko zarejestrowanym użytkownikom.
  1. 1268    45  2
    5 dni293 PLN

    Добрый день, можно реализовать обход сloadflare что снимет кеширование.

  2. 1 oferta jest ukryta
  • Oleg B.
    20 marca 2020, 19:19 |

    Рекапчу ви вже грьохнули)

    Тепер вам треба Cloudflare грьохнути)

  • Oleksandr L.
    20 marca 2020, 19:25 |

    Защиты все проходим, но не удается получить некешированные страницы.

    То, что получаем - это кешированные, о чем и говорит response headers с моих скринов.

    Я понимаю, что эти настройки со стороны владельца сайта, но все таки ищу способ обойти их)

  • Oleg B.
    20 marca 2020, 19:29 |

    cloudflare це мережа проксі серверів розкиданих по всьому світі, щось подібне на тор(якщо знаєти), а кешують вони сторінку, для збереження трафіка, щоб обійти це потрібно взнати IP сервера, а якщо його хтось взнає, це значить що cloudflare хтось ставив косячно

  • Oleg B.
    20 marca 2020, 19:29 |

    IP справжнього сервера

  • Oleksandr L.
    20 marca 2020, 19:30 |

    Да я понимаю, но все таки! )

  • Ivan Hrytskiv
    20 marca 2020, 19:44 |

    це потрібно взнати IP сервера = от спробуйте це з google - відома айпішка. Чи з будь яким іншим сайтом, який кешує дані = чи у Вас це вийде знаючи реальну айпіху сайту ))) 

    Як програміст для сайта написав = тобто в респонзі додаються ці параметри max-ege=100 = наприклад (https://stackoverflow.com/questions/23112316/using-flask-how-do-i-modify-the-cache-control-header-for-all-output)


     ось таке наприклад

    https://stackoverflow.com/questions/32235706/python-requests-module-caching-websites

    чи з cachecontrol ліби для пайтона уже нічого не рішає


    чи рішає ? ))) = ось питання для Вас )))

  • Oleg B.
    20 marca 2020, 19:57 |

    Ну по суті що кешувати рішає кліент ,тобто браузер, і оператори які економлять трафік.

    Коли йде запрос до сервера під cloudflare, то це відбувається якось так

    [кліент] => [проксі сервер] => [кінцевий сервер]

    Щоб получити доступ до реального сервера (кінцевий сервер), потрібно пройти провірки проксі сервера(це і рекапча, і відповідність заголовків запроса до потрібного формата, і провірка IP в спам базах і базах DDOS,бо  Cloudflare це защіта від DDOS а не від парсінга),вродіби якщо скопірувати куки з браузера, і послати в запросі то це поможе(ну це не точно), ну це чуточку костильно)

  • Ivan Hrytskiv
    20 marca 2020, 20:27 |

    ,вродіби якщо скопірувати куки з браузера, і послати в запросі то це поможе(ну це не точно), ну це чуточку костильно) 

    не поможе )))

  • Ivan Hrytskiv
    20 marca 2020, 20:28 |

    не для кешування

    не для РЕСПОНС ХЕДЕРІВ

    )))

  • Ivan Hrytskiv
    20 marca 2020, 20:31 |
    Ну по суті що кешувати рішає кліент
    НІ рішає не користувач а той, хто створює свій ресурс. і рішає він ось таким одним із способів:
    
    @app.after_request
    def add_header(response):
        response.cache_control.max_age = 300
        return response
    
    якщо такого немає і є наскірзий трафік = то аж тоді (якщо ці дири не перекриті кодом) - то рішає користувач ось таким можливим способом
    headers = {
     
        'cache-control': 'private, max-age=0, no-cache'
    }
  • Oleg B.
    20 marca 2020, 20:42 |

    Ну ви коли відправляєти запрос до сервера, сервер відповідає, збережіть в кеші картінки(тобто збережіть на жосткім диску), ви їх не зберігаєти, бо бібліотека яку використовуєти для запросів, понятія немає про цей заголовок, тобто самий кліент рішає чи зберігати йому цю картінку, браузери їх канешно зберігають.

  • Ivan Hrytskiv
    20 marca 2020, 20:52 |

    ось тут я і підвів Вас до рішення - сервер в кінцевій меті вирішує де ви і для кого ці кеші ставите а не Ви, чи Ваш браузер ))) 

    Тобто розробник сайту може для Вас дозволити, щоб  ви собі ці кеші ЛОКАЛЬНО установили, або ж цей розробник буде Вам слати кешовані дані , які зашиті в нього в коді хардкордно (response.headers.cachecontrol:max-age=300) і Ви це НІЯК не зміните уже = які б параметри не слали, куди б не слали = Ви отримуватимете одну і ту ж відповідь.

    От якщо розробник сайту встановлює що його респонс хедер змінюється в залежності від Вашого реквест хедеру = тоді ТАК - тоді Ви можете якось на це вплинути

    але якщо розробник вирішує від Вас ховати дані на 1 добу реальні = то цей розробник дасть Вам кеш своїх даних .

    і як не старайтеся - не отримаєте реальних його даних  = ну принаймі не таким чином )) треба БД ломати сайту а не реквестами )))


  • Oleg B.
    20 marca 2020, 20:58 |

    Вам проксі сервер шле кеш https://prnt.sc/rjtm2j, тобто самий Cloudflare

    Cloudflare ви канешно не взломаєти

    Ну якщо знайдети реальний IP сайта на якому немає Cloudflare https://prnt.sc/rjtkp9 

  • Oleg B.
    20 marca 2020, 20:59 |

    https://hackware.ru/?p=5762

  • Oleg B.
    20 marca 2020, 21:01 |

    Проксі сервери тоже кешують свій трафік для економії трафіка

  • Oleg B.
    20 marca 2020, 21:11 |

    Там один сайт під https://ru.wikipedia.org/wiki/Akamai_Technologies  другий https://www.cloudflare.com/ , ну корочім вам повезло)))

  • Ivan Hrytskiv
    20 marca 2020, 21:14 |

    Ну якщо знайдети реальний IP сайта на якому немає Cloudflare = так = я взяв для прикладу свій самописний сайт

    на моєму сайті є 

    HTTP/1.1 200 OK
    Date: Fri, 20 Mar 2020 18:55:25 GMT
    Server: Apache
    X-Powered-By: PHP/5.3.29
    Expires: Fri, 20 Mar 2020 17:55:25 GMT
    Cache-Control: post-check=0, pre-check=0
    Pragma: no-cache
    Content-Encoding: gzip
    Vary: Accept-Encoding
    Upgrade: h2,h2c
    Connection: Upgrade, Keep-Alive
    Last-Modified: Fri, 20 Mar 2020 17:55:25 GMT
    Keep-Alive: timeout=3, max=100
    Transfer-Encoding: chunked
    Content-Type: text/html; charset=UTF-8

    ось це
    Cache-Control: post-check=0, pre-check=0

    то поміняйте реквестом , чи в реквест хедері в параметрах чи в куках задайте,

    щоб отримати відповідь не таку з респонс хедера Cache-Control: post-check=0, pre-check=0

    а наприклад ось таку

    Cache-Control: max-age=0


    сайт = soh15.com

    зможете поміняти ? ))))

  • Oleg B.
    20 marca 2020, 21:24 |

    Не канешно, це вже на уровні сервера,https://prnt.sc/rju11m

    А смисл вам з цього заголовку?Ну відправить сервер цей заголовок, ну ваша бібліотека цього заголовка не пойме

  • Oleg B.
    20 marca 2020, 21:26 |

    https://prnt.sc/rju40p

  • Oleg B.
    20 marca 2020, 21:35 |

    тобто проксі сервера

  • Oleg B.
    20 marca 2020, 21:41 |

    Ну да по ідеї, сервер має відправити новий контент

  • Oleg B.
    20 marca 2020, 21:44 |

    Тобто ви хочете ламанути https://ru.wikipedia.org/wiki/Akamai_Technologies 😅 😄 , з всіма потрохами

  • Ivan Hrytskiv
    20 marca 2020, 21:46 |

    так, треба ламати )

  • Ivan Hrytskiv
    20 marca 2020, 21:44 |

    А смисл вам з цього заголовку? = в тому то і суть ))) що ніякої користі ))))

    є різні типи кешів = на даний момент їх біля 123 типів. і всі вони діляться шрубо на 4 категорії.

    ми, користувачі, можемо управляти тільки однією з них = і то якщо програміст-розробник для нас це передбачив )))

    а от розробники = ясен пень що всіма можуть управляти ))

    https://developer.mozilla.org/ru/docs/Web/HTTP/%D0%9A%D1%8D%D1%88%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5

    https://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/http-caching?hl=ru

    https://tproger.ru/translations/cache-levels-on-the-web/

    https://ru.stackoverflow.com/questions/2844/%D0%9A%D1%8D%D1%88-%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86-python

    http://xmlhack.ru/texts/06/doing-http-caching-right/doing-http-caching-right.html


  • Anton K.
    23 marca 2020, 23:24 |

    вы можете получать и не кешированые, это правило которое говорит браузеру чтобы он придержал у себя кеш на это время.

  • Profil został usunięty
    22 marca 2020, 11:01 |

    у меня без кеша https://paste.pics/56ca42d14d66909bdbd372e36a507391

    что именно вы там делаете?

  • Oleksandr L.
    22 marca 2020, 11:19 |

    Вы попробуйте на страницу товара зайти

  • Profil został usunięty
    22 marca 2020, 14:27 |

    попробовал, -- хитро сделано.
    основная задача у вас попарсить немного картинок?

  • Oleksandr L.
    22 marca 2020, 14:30 |

    Задача - парсить инфу о товарах, картинки в том числе. Для этого уже есть скрипт на питоне, но сайт отдаёт кешированные страницы, а нас нужно получить некешированные, чтобы response header был no-chache или max-age=0

  • Ivan Hrytskiv
    22 marca 2020, 11:27 |

    если просто на сайт - то да, все параметри ок, без кеша. а Ви зайдите на страницу конкретного товара = получите и блоки и кеши )))

  • Profil został usunięty
    22 marca 2020, 14:29 |

    курлом словил капчу
    а если попробовать headless browser?

  • Oleksandr L.
    22 marca 2020, 14:32 |

    Все защиты мы проходим успешно и Парсинг работает ок, вопрос именно в кеше - читайте описание проекта внимательно и смотрите скрины!

  • Profil został usunięty
    22 marca 2020, 15:28 |

    возвращаемые заголовки предназначены для клиента.
    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, private\public указывают это же для проксей по пути следования пакетов.
    этот заголовок не говорит, что серверный кеш был сформирован 10 минут назад.
    с вас триста долларов за консультацию.

  • Ivan Hrytskiv
    22 marca 2020, 15:32 |

    почитайте вначале доки по кешам , какие то мануали по http протоколам ))))))))))))))))))))))))))))))))

  • Oleg B.
    22 marca 2020, 15:50 |

    возвращаемые заголовки предназначены для клиента.
    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, private\public указывают это же для проксей по пути следования пакетов.

    Ну тут він правий

  • Oleg B.
    22 marca 2020, 15:50 |

    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, 

  • Oleg B.
    22 marca 2020, 15:50 |

    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, 

  • Ivan Hrytskiv
    22 marca 2020, 16:02 |

    але що з того ? я поняв що воно так і є = але це не вирішує поставленої таски = отримати нам в респонс хедері max-age=0 

    от задайте так параметри = з будь якої мови програмування, з будь якого пакету так = щоб було в респонс хедері max-age=0 

  • Oleg B.
    22 marca 2020, 16:07 |

    Ви не получите такого результата, сервер(проксі) налаштований так і всьо.

    Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN

  • Ivan Hrytskiv
    22 marca 2020, 16:11 |

    от про то і йшлося з самого початку в цій тасці ))))))))))))))

    Ви не получите такого результата, сервер(проксі) налаштований так і всьо. = ото ж бо й воно !!!  = я ж так і писав раніше ))) що власники тих ресурсів віддають щось типу того = response.header.cache-control:max-age=600 - і це не змінити уже ))) це як Танос-невідворотній з Месників )))))))))))

    Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN - це не важливо уже бо так сервер настроїний, і без всяких там захистів =і все ))) vpn пробували і т д )))

  • Oleg B.
    22 marca 2020, 16:21 |

    Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN - це не важливо уже бо так сервер настроїний, і без всяких там захистів =і все ))) vpn пробували і т д ))) 

    Ну це важливо, бо якщо у вас оператор екомить трафік, коли ви парсити сайт ви відправляєти один запрос і получаєти відповідь від сервера max-age=600 , то ваший оператор може закешувати цю відповідь до свого кеша і в подальшому надсилати відповідь на ваший запрос з свого кеша

  • Ivan Hrytskiv
    22 marca 2020, 17:16 |

    МІЙ оператор НЕ КЕШУЄ )))

    є в мене 4 оператори - я бачу які кешують, а які НІ)))

    і задача не в ому полягає, а в іншому )))

  • Oleg B.
    23 marca 2020, 23:35 |

    шукайте реальний сервер (не проксі), може він по другому налаштований

  • Anton K.
    23 marca 2020, 23:36 |

    не может, а так и есть дабл кэш вызывает колизии.

  • Profil został usunięty
    22 marca 2020, 16:10 |

    я здесь читаю https://tools.ietf.org/html/rfc7234 от 4.2 Calculating Freshness Lifetime , а вы где?
    неужели в http/2 кеши так сильно изменились?

  • Ivan Hrytskiv
    22 marca 2020, 16:12 |

    счас есть около 128 типом кешей , которие делятся на 4 категории.

  • Ivan Hrytskiv
    22 marca 2020, 15:38 |

    напишите как нам иметь в респонс хедерах cache-control: max-age=0  )))

    а не то что Ви пишите )))

  • Oleg B.
    22 marca 2020, 15:00 |

    А як ви обходите защіту , за допомогою емуляції браузера(selenium і тому подібних)?

  • Ivan Hrytskiv
    22 marca 2020, 15:02 |

    ні, по іншому )))

    клаудфюрі та амакамі по іншому обходимо = нестандартне рішення = не як інші привикли = в лоб, а по іншому )

  • Oleg B.
    22 marca 2020, 15:22 |

    Трохи деякі деталі непонятні, якщо наприклад ви не використовуєти браузер, то нащо вам кеш по суті.

    Якщо наприклад проксі кешує(яка знаходиться між вами і справжнім сервером) в свій кеш, то та проксі , перед надсилає до справнього сервера запрос, і провіряє коректність даних(тобто перевіряє хеш своїх даних, і хеш даних на сервері), якщо дані коректні то відправляє дані до вас.

    Якщо ви наприклад використовує прямий запрос до сервера, то смисл  вам даного заголовка, сервер вам надіслав заголовки що маєти зберегти в кеш певні дані, ну ви не маєти підкорятися серверу і зберігати ті дані в кеш, бо його  як такого то немає  в бібліотеці яку ви використовує(я точно незнаю яку ви бібліотеку використовуєти),ви просто надсилає ще один такий самий запрос до сервера і всьо , а сервер хай собі шле всьо що йому треба, це просто текст і всьо, для протокола http )))

    Якщо вам потрібні дані наприклад не з кешу самого сервера, а напряму, а смисл цього, я думаю адміністратор сервісу мав подумати щоб вам всігда приходили актуальні дані, бо по суті їм ж треба якось обновляти ціну наприклад на товар.

  • Ivan Hrytskiv
    22 marca 2020, 15:24 |

    Максим - те що Ви пишете - воно не так працює все

  • Oleg B.
    22 marca 2020, 15:25 |

    що саме?

  • Oleksandr L.
    22 marca 2020, 15:19 |

    мы тут не обучаем фрилансеров, а сами хотим получить ответ на свой вопрос)

  • Oleg B.
    22 marca 2020, 15:25 |

    Та мені не дуже цікаве рішення, просто хтів взнати які решення використуються для обхода защіти, без цього неможна дати коректної відповід

  • Oleksandr L.
    22 marca 2020, 15:33 |

    тут Вам Ivan Hrytskiv только подскажет, потому как он делал обход)

  • Oleg B.
    22 marca 2020, 15:34 |

    Та я поняв що це він робить обхід, ще зразу)))

  • Oleksandr L.
    22 marca 2020, 15:20 |

    можем продать Вам решение за деньги))

    тут же коммерческая биржа, не форум по интересам)

    Вы же тоже не бесплатно выполняете работу по проектам)

  • Ivan Hrytskiv
    22 marca 2020, 15:22 |

    можем начать ставку от 2к баксов )))

  • Anton K.
    24 marca 2020, 0:00 |

    sneak-prod-main-primary-m-1135616142.eu-west-1.elb.amazonaws.com

    Увы доступ из мира закрыт.

  • Ivan Hrytskiv
    24 marca 2020, 0:33 |

    Било би не логично и старанно с их сторони, если би открит било ))

  • Anton K.
    24 marca 2020, 1:30 |

    И не такое бывало, вот у nordvpn экспайрился сервисный домен и его перехватывали.

Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych

Olx

150 PLN

Potrzebuję bota OLX, który wyciąga numer telefonu z ogłoszenia zanim zostanie opublikowane! Musi być nieaktywny—konkretnie w statusie "oczekujące". Mam zapis oczekujących ofert; muszę tylko wyciągnąć z nich numer.

Parsowanie danychPython ∙ 31 minut temu ∙ 6 ofert

Skonfigurować moduł "Automatyczne przetwarzanie cenników. v.9.5".

Sklep na OcStore 2.3. zainstalowany moduł "Automatyczne przetwarzanie cenników. v.9.5". Wszystko jest skonfigurowane przez autora modułu, ale teraz są kwestie dotyczące ustawień, których nie mogę zrozumieć i pojąć logikę działania modułu. Na przykład problem z dwoma…

Sklepy internetowe i e-commerceParsowanie danych ∙ 14 godzin 51 minut temu ∙ 20 ofert

Cennik towarów części samochodowych od dostawców dla stron internetowych z częściami samochodowymi na bazie Promu

Specyfikacja techniczna Projekt Ustawienie zawartości i synchronizacji dwóch sklepów Prom.ua z dostawcami części samochodowych. Zadanie Wymagana jest realizacja załadunku i aktualizacji produktów od dostawców części samochodowych dla dwóch sklepów internetowych na…

Parsowanie danych ∙ 1 dzień 2 godziny temu ∙ 43 oferty

Parsowanie bazy

168 PLN

Wymagania dotyczące kanałów:1. Język treści:Rosyjski lub ukraiński(dopasowana mieszana treść RU/UA)2. Liczba subskrybentów:Nie mniej niż 500 subskrybentów3. Aktywność:Ostatni post opublikowany nie później niż 32 godziny temu4. Komentarze:Na kanale muszą być otwarte komentarze…

Bazy danych i SQLParsowanie danych ∙ 1 dzień 3 godziny temu ∙ 28 ofert

Należy opracować bota Telegram do monitorowania samochodów z aukcji w USA (Copart, IAAI)

Należy stworzyć bota Telegram do automatycznego wyszukiwania i monitorowania samochodów "BUY IT NOW" na aukcjach w USA (Copart, IAAI). Bot powinien działać w trybie automatycznym i wysyłać powiadomienia o nowych samochodach, które odpowiadają zadanym filtrom.Podstawowa…

Parsowanie danychTworzenie chatbota ∙ 2 dni 5 godzin temu ∙ 93 oferty

Zleceniodawca
Oleksandr L.
Ukraina Charków  200  0
Zlecenie zostało opublikowane
6 lat temu
260 wyświetleń