Freelance projects

Freelance projects

Получить некэшированные страницы с 2 сайтов

Data Parsing, Python — incorrectly specified categories?

Цель проект - получить некэшированные ответы для их парсинга на следующих сайтах:

Сайты (смотреть страницы товаров):

- https://www.endclothing.com/eu/

- https://www.sneakersnstuff.com/

Примеры ссылок:

Первый веб-сайт "END" - https://www.endclothing.com/eu/nike-air-max-720-818-ci3871-300.html или https://api2.endclothing.com/eu/rest/V1/end/catalog/link?link=%252Feu%252Fnike-air-max-720-818-ci3871-300.html&storeId=3

Второй сайт "SNS" - https://www.sneakersnstuff.com/en/product/40771/jordan-brand-air-jordan-3-retro-se

Cейчас в ответ на request сайта "END" мы получаем(скрин прилагаю):
cache-control: max-age=600

Cейчас в ответ на request сайта "SNS" мы получаем(скрин прилагаю):

cache-control: private

cf-cache-status: DYNAMIC

Задача: в ответ на request получать:

Cache-Control: max-age=0 или no-cache,
Pragma: no-cache

предпочтительно, используя Python requests или другое - открыт для предложений.

Proposals 2 Discussions 63

Anton K.

45 2

Projects 47
Rating -
Rating 1 268

Budget: 3500 UAH Deadline: 5 days

Добрый день, можно реализовать обход сloadflare что снимет кеширование.

Oleg B. 20 March 2020

Рекапчу ви вже грьохнули)
Тепер вам треба Cloudflare грьохнути)

Oleksandr L.

20 March 2020

Защиты все проходим, но не удается получить некешированные страницы.
То, что получаем - это кешированные, о чем и говорит response headers с моих скринов.
Я понимаю, что эти настройки со стороны владельца сайта, но все таки ищу способ обойти их)

Oleg B. 20 March 2020

cloudflare це мережа проксі серверів розкиданих по всьому світі, щось подібне на тор(якщо знаєти), а кешують вони сторінку, для збереження трафіка, щоб обійти це потрібно взнати IP сервера, а якщо його хтось взнає, це значить що cloudflare хтось ставив косячно

Oleg B. 20 March 2020

IP справжнього сервера

Ivan Hrytskiv 20 March 2020

або так )

https://docs.pylonsproject.org/projects/pylons-webframework/en/latest/caching.html

Oleg B. 20 March 2020

https://hackware.ru/?p=5762

Oleksandr L.

20 March 2020

Да я понимаю, но все таки! )

Ivan Hrytskiv 20 March 2020

це потрібно взнати IP сервера = от спробуйте це з google - відома айпішка. Чи з будь яким іншим сайтом, який кешує дані = чи у Вас це вийде знаючи реальну айпіху сайту )))
Як програміст для сайта написав = тобто в респонзі додаються ці параметри max-ege=100 = наприклад (https://stackoverflow.com/questions/23112316/using-flask-how-do-i-modify-the-cache-control-header-for-all-output)

ось таке наприклад
https://stackoverflow.com/questions/32235706/python-requests-module-caching-websites
чи з cachecontrol ліби для пайтона уже нічого не рішає

чи рішає ? ))) = ось питання для Вас )))

Oleg B. 20 March 2020

Ну по суті що кешувати рішає кліент ,тобто браузер, і оператори які економлять трафік.
Коли йде запрос до сервера під cloudflare, то це відбувається якось так
[кліент] => [проксі сервер] => [кінцевий сервер]
Щоб получити доступ до реального сервера (кінцевий сервер), потрібно пройти провірки проксі сервера(це і рекапча, і відповідність заголовків запроса до потрібного формата, і провірка IP в спам базах і базах DDOS,бо Cloudflare це защіта від DDOS а не від парсінга),вродіби якщо скопірувати куки з браузера, і послати в запросі то це поможе(ну це не точно), ну це чуточку костильно)

Ivan Hrytskiv 20 March 2020

,вродіби якщо скопірувати куки з браузера, і послати в запросі то це поможе(ну це не точно), ну це чуточку костильно)
=
не поможе )))

Ivan Hrytskiv 20 March 2020

не для кешування
не для РЕСПОНС ХЕДЕРІВ
)))

Ivan Hrytskiv 20 March 2020

Ну по суті що кешувати рішає кліент
НІ рішає не користувач а той, хто створює свій ресурс. і рішає він ось таким одним із способів:

@app.after_request
def add_header(response):
    response.cache_control.max_age = 300
    return response

якщо такого немає і є наскірзий трафік = то аж тоді (якщо ці дири не перекриті кодом) - то рішає користувач ось таким можливим способом

headers = {
 
    'cache-control': 'private, max-age=0, no-cache'
}

Oleg B. 20 March 2020

Ну ви коли відправляєти запрос до сервера, сервер відповідає, збережіть в кеші картінки(тобто збережіть на жосткім диску), ви їх не зберігаєти, бо бібліотека яку використовуєти для запросів, понятія немає про цей заголовок, тобто самий кліент рішає чи зберігати йому цю картінку, браузери їх канешно зберігають.

Ivan Hrytskiv 20 March 2020

ось тут я і підвів Вас до рішення - сервер в кінцевій меті вирішує де ви і для кого ці кеші ставите а не Ви, чи Ваш браузер )))
Тобто розробник сайту може для Вас дозволити, щоб ви собі ці кеші ЛОКАЛЬНО установили, або ж цей розробник буде Вам слати кешовані дані , які зашиті в нього в коді хардкордно (response.headers.cachecontrol:max-age=300) і Ви це НІЯК не зміните уже = які б параметри не слали, куди б не слали = Ви отримуватимете одну і ту ж відповідь.
От якщо розробник сайту встановлює що його респонс хедер змінюється в залежності від Вашого реквест хедеру = тоді ТАК - тоді Ви можете якось на це вплинути
але якщо розробник вирішує від Вас ховати дані на 1 добу реальні = то цей розробник дасть Вам кеш своїх даних .
і як не старайтеся - не отримаєте реальних його даних = ну принаймі не таким чином )) треба БД ломати сайту а не реквестами )))

Oleg B. 20 March 2020

Вам проксі сервер шле кеш https://prnt.sc/rjtm2j, тобто самий Cloudflare
Cloudflare ви канешно не взломаєти
Ну якщо знайдети реальний IP сайта на якому немає Cloudflare https://prnt.sc/rjtkp9

Oleg B. 20 March 2020

https://hackware.ru/?p=5762

Oleg B. 20 March 2020

Проксі сервери тоже кешують свій трафік для економії трафіка

Oleg B. 20 March 2020

Там один сайт під https://ru.wikipedia.org/wiki/Akamai_Technologies другий https://www.cloudflare.com/ , ну корочім вам повезло)))

Ivan Hrytskiv 20 March 2020

Ну якщо знайдети реальний IP сайта на якому немає Cloudflare = так = я взяв для прикладу свій самописний сайт
на моєму сайті є
HTTP/1.1 200 OK
Date: Fri, 20 Mar 2020 18:55:25 GMT
Server: Apache
X-Powered-By: PHP/5.3.29
Expires: Fri, 20 Mar 2020 17:55:25 GMT
Cache-Control: post-check=0, pre-check=0
Pragma: no-cache
Content-Encoding: gzip
Vary: Accept-Encoding
Upgrade: h2,h2c
Connection: Upgrade, Keep-Alive
Last-Modified: Fri, 20 Mar 2020 17:55:25 GMT
Keep-Alive: timeout=3, max=100
Transfer-Encoding: chunked
Content-Type: text/html; charset=UTF-8

ось це
Cache-Control: post-check=0, pre-check=0

то поміняйте реквестом , чи в реквест хедері в параметрах чи в куках задайте,
щоб отримати відповідь не таку з респонс хедера Cache-Control: post-check=0, pre-check=0
а наприклад ось таку
Cache-Control: max-age=0

сайт = soh15.com
зможете поміняти ? ))))

Oleg B. 20 March 2020

Не канешно, це вже на уровні сервера,https://prnt.sc/rju11m
А смисл вам з цього заголовку?Ну відправить сервер цей заголовок, ну ваша бібліотека цього заголовка не пойме

Oleg B. 20 March 2020

https://prnt.sc/rju40p

Oleg B. 20 March 2020

тобто проксі сервера

Oleg B. 20 March 2020

Ну да по ідеї, сервер має відправити новий контент

Oleg B. 20 March 2020

Тобто ви хочете ламанути https://ru.wikipedia.org/wiki/Akamai_Technologies 😅 😄 , з всіма потрохами

Ivan Hrytskiv 20 March 2020

так, треба ламати )

Ivan Hrytskiv 20 March 2020

А смисл вам з цього заголовку? = в тому то і суть ))) що ніякої користі ))))
є різні типи кешів = на даний момент їх біля 123 типів. і всі вони діляться шрубо на 4 категорії.
ми, користувачі, можемо управляти тільки однією з них = і то якщо програміст-розробник для нас це передбачив )))
а от розробники = ясен пень що всіма можуть управляти ))
https://developer.mozilla.org/ru/docs/Web/HTTP/%D0%9A%D1%8D%D1%88%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5
https://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/http-caching?hl=ru
https://tproger.ru/translations/cache-levels-on-the-web/
https://ru.stackoverflow.com/questions/2844/%D0%9A%D1%8D%D1%88-%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86-python
http://xmlhack.ru/texts/06/doing-http-caching-right/doing-http-caching-right.html

Anton K. 23 March 2020

вы можете получать и не кешированые, это правило которое говорит браузеру чтобы он придержал у себя кеш на это время.

Vadym Freelancer 22 March 2020

у меня без кеша https://paste.pics/56ca42d14d66909bdbd372e36a507391
что именно вы там делаете?

Oleksandr L.

22 March 2020

Вы попробуйте на страницу товара зайти

Vadym Freelancer 22 March 2020

попробовал, -- хитро сделано.
основная задача у вас попарсить немного картинок?

Oleksandr L.

22 March 2020

Задача - парсить инфу о товарах, картинки в том числе. Для этого уже есть скрипт на питоне, но сайт отдаёт кешированные страницы, а нас нужно получить некешированные, чтобы response header был no-chache или max-age=0

Ivan Hrytskiv 22 March 2020

если просто на сайт - то да, все параметри ок, без кеша. а Ви зайдите на страницу конкретного товара = получите и блоки и кеши )))

Vadym Freelancer 22 March 2020

курлом словил капчу
а если попробовать headless browser?

Oleksandr L.

22 March 2020

Все защиты мы проходим успешно и Парсинг работает ок, вопрос именно в кеше - читайте описание проекта внимательно и смотрите скрины!

Vadym Freelancer 22 March 2020

возвращаемые заголовки предназначены для клиента.
cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, private\public указывают это же для проксей по пути следования пакетов.
этот заголовок не говорит, что серверный кеш был сформирован 10 минут назад.
с вас триста долларов за консультацию.

Ivan Hrytskiv 22 March 2020

почитайте вначале доки по кешам , какие то мануали по http протоколам ))))))))))))))))))))))))))))))))

Oleg B. 22 March 2020

возвращаемые заголовки предназначены для клиента.
cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут, private\public указывают это же для проксей по пути следования пакетов.
Ну тут він правий

Oleg B. 22 March 2020

cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут,

Oleg B. 22 March 2020

cache-control: max-age=600 говорит браузеру, что он (браузер) может держать кеш максимум 10 минут,

Ivan Hrytskiv 22 March 2020

але що з того ? я поняв що воно так і є = але це не вирішує поставленої таски = отримати нам в респонс хедері max-age=0
от задайте так параметри = з будь якої мови програмування, з будь якого пакету так = щоб було в респонс хедері max-age=0

Oleg B. 22 March 2020

Ви не получите такого результата, сервер(проксі) налаштований так і всьо.
Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN

Ivan Hrytskiv 22 March 2020

от про то і йшлося з самого початку в цій тасці ))))))))))))))
Ви не получите такого результата, сервер(проксі) налаштований так і всьо. = ото ж бо й воно !!! = я ж так і писав раніше ))) що власники тих ресурсів віддають щось типу того = response.header.cache-control:max-age=600 - і це не змінити уже ))) це як Танос-невідворотній з Месників )))))))))))
Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN - це не важливо уже бо так сервер настроїний, і без всяких там захистів =і все ))) vpn пробували і т д )))

Oleg B. 22 March 2020

Може ваший оператор який інтернет вам роздає кешує ці дані для економії трафіку, попробуйте VPN - це не важливо уже бо так сервер настроїний, і без всяких там захистів =і все ))) vpn пробували і т д )))
Ну це важливо, бо якщо у вас оператор екомить трафік, коли ви парсити сайт ви відправляєти один запрос і получаєти відповідь від сервера max-age=600 , то ваший оператор може закешувати цю відповідь до свого кеша і в подальшому надсилати відповідь на ваший запрос з свого кеша

Ivan Hrytskiv 22 March 2020

МІЙ оператор НЕ КЕШУЄ )))
є в мене 4 оператори - я бачу які кешують, а які НІ)))
і задача не в ому полягає, а в іншому )))

Oleg B. 23 March 2020

шукайте реальний сервер (не проксі), може він по другому налаштований

Anton K. 23 March 2020

не может, а так и есть дабл кэш вызывает колизии.

Vadym Freelancer 22 March 2020

я здесь читаю https://tools.ietf.org/html/rfc7234 от 4.2 Calculating Freshness Lifetime , а вы где?
неужели в http/2 кеши так сильно изменились?

Ivan Hrytskiv 22 March 2020

счас есть около 128 типом кешей , которие делятся на 4 категории.

Ivan Hrytskiv 22 March 2020

напишите как нам иметь в респонс хедерах cache-control: max-age=0 )))
а не то что Ви пишите )))

Oleg B. 22 March 2020

А як ви обходите защіту , за допомогою емуляції браузера(selenium і тому подібних)?

Ivan Hrytskiv 22 March 2020

ні, по іншому )))
клаудфюрі та амакамі по іншому обходимо = нестандартне рішення = не як інші привикли = в лоб, а по іншому )

Oleg B. 22 March 2020

Трохи деякі деталі непонятні, якщо наприклад ви не використовуєти браузер, то нащо вам кеш по суті.
Якщо наприклад проксі кешує(яка знаходиться між вами і справжнім сервером) в свій кеш, то та проксі , перед надсилає до справнього сервера запрос, і провіряє коректність даних(тобто перевіряє хеш своїх даних, і хеш даних на сервері), якщо дані коректні то відправляє дані до вас.
Якщо ви наприклад використовує прямий запрос до сервера, то смисл вам даного заголовка, сервер вам надіслав заголовки що маєти зберегти в кеш певні дані, ну ви не маєти підкорятися серверу і зберігати ті дані в кеш, бо його як такого то немає в бібліотеці яку ви використовує(я точно незнаю яку ви бібліотеку використовуєти),ви просто надсилає ще один такий самий запрос до сервера і всьо , а сервер хай собі шле всьо що йому треба, це просто текст і всьо, для протокола http )))
Якщо вам потрібні дані наприклад не з кешу самого сервера, а напряму, а смисл цього, я думаю адміністратор сервісу мав подумати щоб вам всігда приходили актуальні дані, бо по суті їм ж треба якось обновляти ціну наприклад на товар.

Ivan Hrytskiv 22 March 2020

Максим - те що Ви пишете - воно не так працює все

Oleg B. 22 March 2020

що саме?

Oleksandr L.

22 March 2020

мы тут не обучаем фрилансеров, а сами хотим получить ответ на свой вопрос)

Oleg B. 22 March 2020

Та мені не дуже цікаве рішення, просто хтів взнати які решення використуються для обхода защіти, без цього неможна дати коректної відповід

Oleksandr L.

22 March 2020

тут Вам Ivan Hrytskiv только подскажет, потому как он делал обход)

Oleg B. 22 March 2020

Та я поняв що це він робить обхід, ще зразу)))

Oleksandr L.

22 March 2020

можем продать Вам решение за деньги))
тут же коммерческая биржа, не форум по интересам)
Вы же тоже не бесплатно выполняете работу по проектам)

Ivan Hrytskiv 22 March 2020

можем начать ставку от 2к баксов )))

Anton K. 24 March 2020

sneak-prod-main-primary-m-1135616142.eu-west-1.elb.amazonaws.com
Увы доступ из мира закрыт.

Ivan Hrytskiv 24 March 2020

Било би не логично и старанно с их сторони, если би открит било ))

Anton K. 24 March 2020

И не такое бывало, вот у nordvpn экспайрился сервисный домен и его перехватывали.

Add Comment

Oleksandr L.
Kharkiv, Ukraine

Projects 206
Rating 5.0
Rating 15 313

Получить некэшированные страницы с 2 сайтов

Anton K.

Proposals concealed

Proposals are currently absent

Current freelance projects in the category Data Parsing

Parsing open data about sellers from marketplaces

Pricing of auto parts from suppliers for auto parts websites based on Prom.

It is necessary to develop a Telegram bot for monitoring cars from auctions in the USA (Copart, IAAI)

Parsing products, preparation for import to WP