Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Получить некэшированные страницы с 2 сайтов


Приложения 2

Просмотр приложений доступен только зарегистрированным пользователям.
  1. 1268    45  2
    5 дней3500 UAH

    Добрый день, можно реализовать обход сloadflare что снимет кеширование.

  2. 1 ставка скрыта
  • Олег Б.
    20 марта 2020, 19:19 |

    Рекапчу ви вже грьохнули)

    Тепер вам треба Cloudflare грьохнути)

  • Олександр Л.
    20 марта 2020, 19:25 |

    Защиты все проходим, но не удается получить некешированные страницы.

    То, что получаем - это кешированные, о чем и говорит response headers с моих скринов.

    Я понимаю, что эти настройки со стороны владельца сайта, но все таки ищу способ обойти их)

  • Олег Б.
    20 марта 2020, 19:29 |

    cloudflare це мережа проксі серверів розкиданих по всьому світі, щось подібне на тор(якщо знаєти), а кешують вони сторінку, для збереження трафіка, щоб обійти це потрібно взнати IP сервера, а якщо його хтось взнає, це значить що cloudflare хтось ставив косячно

  • Олег Б.
    20 марта 2020, 19:29 |

    IP справжнього сервера

  • Олександр Л.
    20 марта 2020, 19:30 |

    Да я понимаю, но все таки! )

  • Ivan Hrytskiv
    20 марта 2020, 19:44 |

    це потрібно взнати IP сервера = от спробуйте це з google - відома айпішка. Чи з будь яким іншим сайтом, який кешує дані = чи у Вас це вийде знаючи реальну айпіху сайту ))) 

    Як програміст для сайта написав = тобто в респонзі додаються ці параметри max-ege=100 = наприклад (https://stackoverflow.com/questions/23112316/using-flask-how-do-i-modify-the-cache-control-header-for-all-output)


     ось таке наприклад

    https://stackoverflow.com/questions/32235706/python-requests-module-caching-websites

    чи з cachecontrol ліби для пайтона уже нічого не рішає


    чи рішає ? ))) = ось питання для Вас )))

  • Олег Б.
    20 марта 2020, 19:57 |

    Ну по суті що кешувати рішає кліент ,тобто браузер, і оператори які економлять трафік.

    Коли йде запрос до сервера під cloudflare, то це відбувається якось так

    [кліент] => [проксі сервер] => [кінцевий сервер]

    Щоб получити доступ до реального сервера (кінцевий сервер), потрібно пройти провірки проксі сервера(це і рекапча, і відповідність заголовків запроса до потрібного формата, і провірка IP в спам базах і базах DDOS,бо  Cloudflare це защіта від DDOS а не від парсінга),вродіби якщо скопірувати куки з браузера, і послати в запросі то це поможе(ну це не точно), ну це чуточку костильно)

  • Ivan Hrytskiv
    20 марта 2020, 20:27 |

    ,вродіби якщо скопірувати куки з браузера, і послати в запросі то це поможе(ну це не точно), ну це чуточку костильно) 

    не поможе )))

  • Ivan Hrytskiv
    20 марта 2020, 20:28 |

    не для кешування

    не для РЕСПОНС ХЕДЕРІВ

    )))

  • Ivan Hrytskiv
    20 марта 2020, 20:31 |
    Ну по суті що кешувати рішає кліент
    НІ рішає не користувач а той, хто створює свій ресурс. і рішає він ось таким одним із способів:
    
    @app.after_request
    def add_header(response):
        response.cache_control.max_age = 300
        return response
    
    якщо такого немає і є наскірзий трафік = то аж тоді (якщо ці дири не перекриті кодом) - то рішає користувач ось таким можливим способом
    headers = {
     
        'cache-control': 'private, max-age=0, no-cache'
    }
  • Олег Б.
    20 марта 2020, 20:42 |

    Ну ви коли відправляєти запрос до сервера, сервер відповідає, збережіть в кеші картінки(тобто збережіть на жосткім диску), ви їх не зберігаєти, бо бібліотека яку використовуєти для запросів, понятія немає про цей заголовок, тобто самий кліент рішає чи зберігати йому цю картінку, браузери їх канешно зберігають.

  • Ivan Hrytskiv
    20 марта 2020, 20:52 |

    ось тут я і підвів Вас до рішення - сервер в кінцевій меті вирішує де ви і для кого ці кеші ставите а не Ви, чи Ваш браузер ))) 

    Тобто розробник сайту може для Вас дозволити, щоб  ви собі ці кеші ЛОКАЛЬНО установили, або ж цей розробник буде Вам слати кешовані дані , які зашиті в нього в коді хардкордно (response.headers.cachecontrol:max-age=300) і Ви це НІЯК не зміните уже = які б параметри не слали, куди б не слали = Ви отримуватимете одну і ту ж відповідь.

    От якщо розробник сайту встановлює що його респонс хедер змінюється в залежності від Вашого реквест хедеру = тоді ТАК - тоді Ви можете якось на це вплинути

    але якщо розробник вирішує від Вас ховати дані на 1 добу реальні = то цей розробник дасть Вам кеш своїх даних .

    і як не старайтеся - не отримаєте реальних його даних  = ну принаймі не таким чином )) треба БД ломати сайту а не реквестами )))


  • Олег Б.
    20 марта 2020, 20:58 |

    Вам проксі сервер шле кеш https://prnt.sc/rjtm2j, тобто самий Cloudflare

    Cloudflare ви канешно не взломаєти

    Ну якщо знайдети реальний IP сайта на якому немає Cloudflare https://prnt.sc/rjtkp9 

  • Олег Б.
    20 марта 2020, 20:59 |

    https://hackware.ru/?p=5762

  • Олег Б.
    20 марта 2020, 21:01 |

    Проксі сервери тоже кешують свій трафік для економії трафіка

  • Олег Б.
    20 марта 2020, 21:11 |

    Там один сайт під https://ru.wikipedia.org/wiki/Akamai_Technologies  другий https://www.cloudflare.com/ , ну корочім вам повезло)))

  • Ivan Hrytskiv
    20 марта 2020, 21:14 |

    Ну якщо знайдети реальний IP сайта на якому немає Cloudflare = так = я взяв для прикладу свій самописний сайт

    на моєму сайті є 

    HTTP/1.1 200 OK
    Date: Fri, 20 Mar 2020 18:55:25 GMT
    Server: Apache
    X-Powered-By: PHP/5.3.29
    Expires: Fri, 20 Mar 2020 17:55:25 GMT
    Cache-Control: post-check=0, pre-check=0
    Pragma: no-cache
    Content-Encoding: gzip
    Vary: Accept-Encoding
    Upgrade: h2,h2c
    Connection: Upgrade, Keep-Alive
    Last-Modified: Fri, 20 Mar 2020 17:55:25 GMT
    Keep-Alive: timeout=3, max=100
    Transfer-Encoding: chunked
    Content-Type: text/html; charset=UTF-8

    ось це
    Cache-Control: post-check=0, pre-check=0

    то поміняйте реквестом , чи в реквест хедері в параметрах чи в куках задайте,

    щоб отримати відповідь не таку з респонс хедера Cache-Control: post-check=0, pre-check=0

    а наприклад ось таку

    Cache-Control: max-age=0


    сайт = soh15.com

    зможете поміняти ? ))))

  • Олег Б.
    20 марта 2020, 21:24 |

    Не канешно, це вже на уровні сервера,https://prnt.sc/rju11m

    А смисл вам з цього заголовку?Ну відправить сервер цей заголовок, ну ваша бібліотека цього заголовка не пойме

  • Олег Б.
    20 марта 2020, 21:26 |

    https://prnt.sc/rju40p

  • Олег Б.
    20 марта 2020, 21:35 |

    тобто проксі сервера

  • Олег Б.
    20 марта 2020, 21:41 |

    Ну да по ідеї, сервер має відправити новий контент

  • Олег Б.
    20 марта 2020, 21:44 |

    Тобто ви хочете ламанути https://ru.wikipedia.org/wiki/Akamai_Technologies 😅 😄 , з всіма потрохами

  • Ivan Hrytskiv
    20 марта 2020, 21:46 |

    так, треба ламати )

  • Ivan Hrytskiv
    20 марта 2020, 21:44 |

    А смисл вам з цього заголовку? = в тому то і суть ))) що ніякої користі ))))

    є різні типи кешів = на даний момент їх біля 123 типів. і всі вони діляться шрубо на 4 категорії.

    ми, користувачі, можемо управляти тільки однією з них = і то якщо програміст-розробник для нас це передбачив )))

    а от розробники = ясен пень що всіма можуть управляти ))

    https://developer.mozilla.org/ru/docs/Web/HTTP/%D0%9A%D1%8D%D1%88%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5

    https://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/http-caching?hl=ru

    https://tproger.ru/translations/cache-levels-on-the-web/

    https://ru.stackoverflow.com/questions/2844/%D0%9A%D1%8D%D1%88-%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86-python

    http://xmlhack.ru/texts/06/doing-http-caching-right/doing-http-caching-right.html


  • Антон К.
    23 марта 2020, 23:24 |

    вы можете получать и не кешированые, это правило которое говорит браузеру чтобы он придержал у себя кеш на это время.

  • Профиль удален
    22 марта 2020, 11:01 |

    у меня без кеша https://paste.pics/56ca42d14d66909bdbd372e36a507391

    что именно вы там делаете?

  • Олександр Л.
    22 марта 2020, 11:19 |

    Вы попробуйте на страницу товара зайти

  • Профиль удален
    22 марта 2020, 14:27 |

    попробовал, -- хитро сделано.
    основная задача у вас попарсить немного картинок?

  • Олександр Л.
    22 марта 2020, 14:30 |

    Задача - парсить инфу о товарах, картинки в том числе. Для этого уже есть скрипт на питоне, но сайт отдаёт кешированные страницы, а нас нужно получить некешированные, чтобы response header был no-chache или max-age=0

  • Ivan Hrytskiv
    22 марта 2020, 11:27 |

    если просто на сайт - то да, все параметри ок, без кеша. а Ви зайдите на страницу конкретного товара = получите и блоки и кеши )))

  • Профиль удален
    22 марта 2020, 14:29 |

    курлом словил капчу
    а если попробовать headless browser?

  • Олександр Л.
    22 марта 2020, 14:32 |

    Все защиты мы проходим успешно и Парсинг работает ок, вопрос именно в кеше - читайте описание проекта внимательно и смотрите скрины!

  • Профиль удален
    22 марта 2020, 15:28 |

    возвращаемые заголовки предназначены для клиента.
    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, private\public указывают это же для проксей по пути следования пакетов.
    этот заголовок не говорит, что серверный кеш был сформирован 10 минут назад.
    с вас триста долларов за консультацию.

  • Ivan Hrytskiv
    22 марта 2020, 15:32 |

    почитайте вначале доки по кешам , какие то мануали по http протоколам ))))))))))))))))))))))))))))))))

  • Олег Б.
    22 марта 2020, 15:50 |

    возвращаемые заголовки предназначены для клиента.
    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, private\public указывают это же для проксей по пути следования пакетов.

    Ну тут він правий

  • Олег Б.
    22 марта 2020, 15:50 |

    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, 

  • Олег Б.
    22 марта 2020, 15:50 |

    cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, 

  • Ivan Hrytskiv
    22 марта 2020, 16:02 |

    але що з того ? я поняв що воно так і є = але це не вирішує поставленої таски = отримати нам в респонс хедері max-age=0 

    от задайте так параметри = з будь якої мови програмування, з будь якого пакету так = щоб було в респонс хедері max-age=0 

  • Олег Б.
    22 марта 2020, 16:07 |

    Ви не получите такого результата, сервер(проксі) налаштований так і всьо.

    Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN

  • Ivan Hrytskiv
    22 марта 2020, 16:11 |

    от про то і йшлося з самого початку в цій тасці ))))))))))))))

    Ви не получите такого результата, сервер(проксі) налаштований так і всьо. = ото ж бо й воно !!!  = я ж так і писав раніше ))) що власники тих ресурсів віддають щось типу того = response.header.cache-control:max-age=600 - і це не змінити уже ))) це як Танос-невідворотній з Месників )))))))))))

    Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN - це не важливо уже бо так сервер настроїний, і без всяких там захистів =і все ))) vpn пробували і т д )))

  • Олег Б.
    22 марта 2020, 16:21 |

    Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN - це не важливо уже бо так сервер настроїний, і без всяких там захистів =і все ))) vpn пробували і т д ))) 

    Ну це важливо, бо якщо у вас оператор екомить трафік, коли ви парсити сайт ви відправляєти один запрос і получаєти відповідь від сервера max-age=600 , то ваший оператор може закешувати цю відповідь до свого кеша і в подальшому надсилати відповідь на ваший запрос з свого кеша

  • Ivan Hrytskiv
    22 марта 2020, 17:16 |

    МІЙ оператор НЕ КЕШУЄ )))

    є в мене 4 оператори - я бачу які кешують, а які НІ)))

    і задача не в ому полягає, а в іншому )))

  • Олег Б.
    23 марта 2020, 23:35 |

    шукайте реальний сервер (не проксі), може він по другому налаштований

  • Антон К.
    23 марта 2020, 23:36 |

    не может, а так и есть дабл кэш вызывает колизии.

  • Профиль удален
    22 марта 2020, 16:10 |

    я здесь читаю https://tools.ietf.org/html/rfc7234 от 4.2 Calculating Freshness Lifetime , а вы где?
    неужели в http/2 кеши так сильно изменились?

  • Ivan Hrytskiv
    22 марта 2020, 16:12 |

    счас есть около 128 типом кешей , которие делятся на 4 категории.

  • Ivan Hrytskiv
    22 марта 2020, 15:38 |

    напишите как нам иметь в респонс хедерах cache-control: max-age=0  )))

    а не то что Ви пишите )))

  • Олег Б.
    22 марта 2020, 15:00 |

    А як ви обходите защіту , за допомогою емуляції браузера(selenium і тому подібних)?

  • Ivan Hrytskiv
    22 марта 2020, 15:02 |

    ні, по іншому )))

    клаудфюрі та амакамі по іншому обходимо = нестандартне рішення = не як інші привикли = в лоб, а по іншому )

  • Олег Б.
    22 марта 2020, 15:22 |

    Трохи деякі деталі непонятні, якщо наприклад ви не використовуєти браузер, то нащо вам кеш по суті.

    Якщо наприклад проксі кешує(яка знаходиться між вами і справжнім сервером) в свій кеш, то та проксі , перед надсилає до справнього сервера запрос, і провіряє коректність даних(тобто перевіряє хеш своїх даних, і хеш даних на сервері), якщо дані коректні то відправляє дані до вас.

    Якщо ви наприклад використовує прямий запрос до сервера, то смисл  вам даного заголовка, сервер вам надіслав заголовки що маєти зберегти в кеш певні дані, ну ви не маєти підкорятися серверу і зберігати ті дані в кеш, бо його  як такого то немає  в бібліотеці яку ви використовує(я точно незнаю яку ви бібліотеку використовуєти),ви просто надсилає ще один такий самий запрос до сервера і всьо , а сервер хай собі шле всьо що йому треба, це просто текст і всьо, для протокола http )))

    Якщо вам потрібні дані наприклад не з кешу самого сервера, а напряму, а смисл цього, я думаю адміністратор сервісу мав подумати щоб вам всігда приходили актуальні дані, бо по суті їм ж треба якось обновляти ціну наприклад на товар.

  • Ivan Hrytskiv
    22 марта 2020, 15:24 |

    Максим - те що Ви пишете - воно не так працює все

  • Олег Б.
    22 марта 2020, 15:25 |

    що саме?

  • Олександр Л.
    22 марта 2020, 15:19 |

    мы тут не обучаем фрилансеров, а сами хотим получить ответ на свой вопрос)

  • Олег Б.
    22 марта 2020, 15:25 |

    Та мені не дуже цікаве рішення, просто хтів взнати які решення використуються для обхода защіти, без цього неможна дати коректної відповід

  • Олександр Л.
    22 марта 2020, 15:33 |

    тут Вам Ivan Hrytskiv только подскажет, потому как он делал обход)

  • Олег Б.
    22 марта 2020, 15:34 |

    Та я поняв що це він робить обхід, ще зразу)))

  • Олександр Л.
    22 марта 2020, 15:20 |

    можем продать Вам решение за деньги))

    тут же коммерческая биржа, не форум по интересам)

    Вы же тоже не бесплатно выполняете работу по проектам)

  • Ivan Hrytskiv
    22 марта 2020, 15:22 |

    можем начать ставку от 2к баксов )))

  • Антон К.
    24 марта 2020, 0:00 |

    sneak-prod-main-primary-m-1135616142.eu-west-1.elb.amazonaws.com

    Увы доступ из мира закрыт.

  • Ivan Hrytskiv
    24 марта 2020, 0:33 |

    Било би не логично и старанно с их сторони, если би открит било ))

  • Антон К.
    24 марта 2020, 1:30 |

    И не такое бывало, вот у nordvpn экспайрился сервисный домен и его перехватывали.

Актуальные фриланс-проекты в категории Python

Нужен разработчик бота (BAS / Python) для автоматизации сайта лояльности

6110 UAH

Ищу опытного разработчика для создания бота, который будет автоматизировать регистрацию и получение бонусов на сайте (программа лояльности). Что должен делать бот: Полная автоматизация процесса: от регистрации до получения результата (ваучера). Работа с SMS-сервисами (через…

PythonРазработка ботов ∙ 1 час 55 минут назад ∙ 13 ставок

BuzzPost автоматизация Facebook под Израиль

Проект уже есть и он работает - задача решить вопрос по ограничению фб, при количестве постов в час более 3-4 (с 7 утра до 12 ночи) аккаунты клиентов ограничиваются фб. сайт - https://buzzpost.co.il/ Также поискать дыры в логике и в самом проекте и поправить их, опять же логика…

PythonРабота с клиентами ∙ 6 часов 39 минут назад ∙ 8 ставок

Создание Тик-ток фермы с генерацией дохода

27 000 UAH

в поиске человека, который может написать софт, для фермы тик ток, чтобы мы смогли генерировать трафик, получать доход. Ищем готовое решение с полным циклом.

PythonРазработка ботов ∙ 3 дня 1 час назад ∙ 16 ставок

AI Commenting Platform для TikTok и Instagram.

Цель проекта Разработать систему, которая позволяет управлять большим количеством аккаунтов TikTok и Instagram и автоматически публиковать релевантные комментарии под выбранными видео с использованием ИИ. Основной функционал1. Управление аккаунтами Необходимо реализовать…

AI и машинное обучениеPython ∙ 4 дня 8 часов назад ∙ 23 ставки

Построить модель классификации клиентов

1. Есть данные клиентов в Mongo/SQL (примерно 20 000 записей с сырыми данными). 2. Необходимо на их основе построить фичи и модель классификации клиентов на поведенческие группы. 3. Проект выполнить на Python.

AI и машинное обучениеPython ∙ 6 дней 3 часа назад ∙ 45 ставок

Заказчик
Олександр Л.
Украина Харьков  200  0
Проект опубликован
6 лет назад
260 просмотров