Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!
2 000 ₽

Парсинг выдачи поисковика и _пошаговая_ пост обработка

проект не выполнен


У меня в файле keys.txt лежат фразы (ключевые запросы)

Мне нужен скрипт на bash или на python или на php, в общем на скриптовом языке, который получив на входе эти фразы, сделал бы запросы к поисковикам Яндекс и/или Гугл и получил выдачу. Убрав всё не нужное и оставив только, в порядке следования, URL, сниппет, позицию в выдаче и пару других параметров, передал бы это в STDOUT.

cat keys.txt | ./parsing-search.sh > search.txt

Далее мне нужен скрипт на bash или на python или на php, в общем на скриптовом языке, который получив на входе данные из этого файла, сделал бы запросы ко всем URL и получивший html страницы, передал бы в STDOUT.

cat search.txt | ./parsing-url.sh > htmls.txt

Далее мне нужен скрипт на bash или на python или на php, в общем на скриптовом языке, который получив на входе данные из этого файла, определил бы основной блок текста, взял его и передал бы в STDOUT.

cat htmls.txt | ./parsing-text.sh > texts.txt

Далее мне нужен скрипт на bash или на python или на php, в общем на скриптовом языке, который получив на входе данные из этого файла, искал бы текст по определенным правилам: количество слов в предложении, находится ли он в абзаце, содержит ли оно такой то набор слов, а так же, соответствует ли например такой маске "существительное прилагательное глагол" или какой то другой, взял его и передал бы в STDOUT, а все не подходящие предложения в STDERR или сразу в файл error.txt
Примечание: я сам буду расширять эти правила, мне главное получить хороший инструмент для создания этих правил. А сами условия должны быть вынесены в отдельный конфигурационный файл.

cat texts.txt | ./template.sh > offers.txt

Тогда, при выполнении cat offers.txt я увижу сплошной поток предложений подходящих мне по шаблону.

А cat error.txt покажет те, что не прошли этот шаблон.

Каждое предложение с новой строки.


PS: Чтобы поисковик не забанил, можно брать у него XML выдачу. Я обычно использую xmlproxy.ru он полностью дублирует XML выдачу Яндекса.

Отзыв заказчика о сотрудничестве с Alexey Muravyov

Качество
Профессионализм
Стоимость
Контактность
Сроки

Просрочка. Не отвечает. Мне нужно выполненное задание. Беру деньги назад ищу другого. Конечно же жаль потраченное время.



  1. 4 дня2 000 ₽Победившая ставка
    Alexey Muravyov
     299   7  3   2

    Добрый день
    Если еще актуально - могу сделать
    большой опыт в создании парсеров

    Россия Сочи | 8 мая в 17:10 |
  2. 10 дней3 000 ₴
    Олег Василенко
     1114   33  0

    Могу написать консольные приложения или десктопное приложение на java. В качестве поисковика буду использовать Гугл. Можем созвонится по скайпу и все обсудить.

    skype: hdls19

    Украина Украина | 8 мая в 16:58 |