Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!
1300 ₽

Написать скрипт для парсинга с сайта

проект завершен


Есть сайт для парсинга фотографий с сайтов, в частности, для парсинга аккаунтов в ВК: http://backlinks-checker.dimax.biz/tools/parser_kartinok.php

Он позволяет за раз собрать и скачать фотографии до 10 аккаунтов. Формат входных данных - список ссылок на аккаунты вида: https://vk.com/id*номер id*

На выходе программа позволяет скачать 10 архивов .zip с названиями вида: VK_id*номер id*.zip 

И так можно делать много раз, парсить по 10 аккаунтов, пока суммарный объем всех закаченных файлов не превысит 10 Гб.

Нужно написать скрипт, который будет автоматизировать ввод ссылок на аккаунты и закачку готовых архивов с спаршенными фотографиями.


Подробности:

  1. На сайте необходимо быть зарегистрированным для парсинга. Формат логина: e-mail/пароль. - нужно предусмотреть задание через файл настройки
  2. На сайте можно задавать следующие настройки парсинга - нужно предусмотреть возможность их задания через файл настройки. Настройки:
    1. Сохранять картинки под родными именами? галочка да/нет
    2. Создавать название итогового архива из названия сайта? галочка да/нет
    3. Сохранять не все картинки, а только первые ... число ...  штук
    4. Min width ... число... - картинки с шириной, меньше этого значения, будут пропущены
    5. Min height ... число... - картинки с высотой, меньше этого значения, будут пропущены
  3. Кроме аккаунтов в Вк сайт позволяет парсить любые другие URL, соответственно, тогда будут другие названия скачиваемых архивов - надо это учесть

Как должен работать скрипт:

  1. На входе скрипту дается файл с настройками, содержащий емэйл, пароль и в подходящей форме настройки из п. 2.1-2.5 выше. Т.е. пример файла настроек:
    [email protected] /*емэйл=логин на сайте*/
    sfjwsnfk /*пароль на сайте*/
    no /*сохранять картинки под родными именами?*/
    yes /*Создавать название итогового архива из названия сайта?*/
    30 /*Сохранять не все картинки, а только первые ... число ...  штук*/
    100 /*картинки с шириной, меньше этого значения, будут пропущены*/
    100 /*картинки с высотой, меньше этого значения, будут пропущены*/
  2. Также на входе скрипту дается файл txt с ссылками на страницы для парсинга (в нашем случае - на аккаунты в Вк)
    Пример файла ссылок:
    https://vk.com/id432398
    https://vk.com/id436210
    https://vk.com/id444127
    https://vk.com/id448178
    https://vk.com/id451375
    https://vk.com/id453852
    Также могут быть любые другие ссылки, не только на Вк. Количество ссылок - от 1 до 1000000 🙂
  3. Скрипт "заходит" на страницу с урл: http://backlinks-checker.dimax.biz/tools/ 
    и "нажимает" "Вход для PRO": http://joxi.ru/D2P0lzWU0eLy23
  4. В возникающем всплывающем окне скрипт "вводит" емэйл и пароль из файла настроек: http://joxi.ru/Drl9GgniLRlomP
  5. После этого скрипт кидает на страницу личного кабинета с урл: http://backlinks-checker.dimax.biz/pro/
  6. Там скрипт должен "нажать" меню "Парсеры": http://joxi.ru/eAONbzVtMRBJ2o
  7. и в выпадающем меню выбрать "Парсер картинок с сайтов":
    %D1%81%D0%BA%D1%80%D0%B8%D0%BD4.jpg
  8. После этого скрипт попадает на страницу с урл: http://backlinks-checker.dimax.biz/tools/parser_kartinok.php
  9. На этой странице скрипт вводит в поле справа первые 10 ссылок из файла и удаляет их из файла, задает настройки в соответствии с файлом настроек и нажимает "спарсить картинки": http://joxi.ru/82QNbBdtEMJOAd
  10. После этого начинается парсинг. Он длится порядка 1,5 минуты. В браузере при этом видно следующее:
    %D1%81%D0%BA%D1%80%D0%B8%D0%BD5.jpg
    %D1%81%D0%BA%D1%80%D0%B8%D0%BD6.jpg
  11. Когда парсинг завершен, виден такой экран: http://joxi.ru/52aZxg4CMR59A0
    На нем скрипт должен "прокликать" по всем ссылкам на Zip-архивы с картинками - их будет ровно столько, со скольки ссылок удалось спарсить, по некоторым ссылкам возможны ошибки парсинга, тогда там вместо ссылок будет текст ошибки на красном фоне. Кнопка "Скачать все архивы" не работает, поэтому приходится прокликивать все ссылки по очереди. Скрипт должен сохранять полученные архивы с фотографиями в папку Results, находящуюся в корне папки со скриптом. 

  12. Необязательно, но круто будет если скрипт еще и сам все скачанные zip архивы разархивирует в папки с такими же именами в той же папке Results и удалит исходные архивы.

  13. Нажимать "спарсить еще картинок" и так по новой с этапа 8, пока не закончатся ссылки в файле, или пока не закончится лимит в 10 Гб на сайте.


Для работы с сайтом нужен логин и пароль и про аккаунт. Про аккаунт стоит 100 рублей. Выбранному исполнителю пришлю ключи от про аккаунта для работы.

Отзыв заказчика об исполнителе Олеге Бирюкове

Качество
Профессионализм
Стоимость
Контактность
Сроки

Олег - надежный исполнитель. Все в срок и по тз

Алексей П. Алексей Петухов | Сейф Сейф



  1.  4108 
    19   35   0

    3 дня1500 ₴
    Misha Titkov проверен 

    Добрый день, могу реализовать вашу задачу. Для написания программы использую C++.

    Один месяц бесплатная гарантия на поддержку готового продукта. Гарантии выполнения вашего тз в срок. MTitkov Telegram: @Zusykss (https://t.me/Zusykss) Сайт: http://smart-softs.com/

    Украина Днепр | 11 апреля 2017 |
  2.  фрилансер больше не работает на сервисе
  1.  фрилансер больше не работает на сервисе

Заказчик
Алексей Петухов
Россия Россия  8   0
Проект опубликован
12 апреля 2017
57 просмотров
Приглашены на проект