Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Нужен паук для наполнения БД данными

закрыт без выполнения


Паук парсит сайты по списку, который сам же и расширяет. Его цель не в складировании страниц, а в их анализе.

0. Без графического интерфейса. Командная строка linux.

1. Использует начальный список, который сам же расширяет

2. Игнорирует сайты:
- по списку
- по наличию в домене слов (регулярка)

3. Ставит сайты в начало списка:
- по списку
- по наличию в домене слов (регулярка)

4. Сканирует все страницы сайта и записывает в БД:
- связь донор => анкор => реципиент
- ссылку на сохраненный html файл страницы на локальном диске с именем md5(url+timeshtamp)
- ТИЦ и другие основные показатели сайта со сторонних ресурсов:
   - получение на этом сайте: https://www.linkpad.ru/default.aspx?r=3&i=имя_сайта этих данных http://skrinshoter.ru/s/040818/UjixSgBm и их запись в БД
- в каждой записи timeshtamp

5. простая консольная утилита, написанная очень просто, чтобы я мог дописать её:
- на входе фильтры и какие данные я хочу получить
- на выходе получаю к примеру список доменов с нужными данными из БД

6. Переобход сайтов - надо решить как это делать

7. Я должен как то влиять на парсинг сайтов в процессе. т.е. чтобы он далеко в сторону не уходил.

8. например, он понял, что на сайте порнуха и не стал бы на него время тратить, пометив его. Тоже самое казино и т.д. - чтобы я мог настроить эти темы сам.

9. К примеру, первичный заход - скан только главной страницы и до 10 внутренних.



  1. 14 днейскрыта
    Кирилл Нем
     87 

    Сделаю скрипт выполняющий описанное на Node.js

    Периодически делаю что-то подобное, один из примеров такой работы выложил на мой гитхаб https://github.com/nk221/f500

    Россия Екатеринбург | 8 августа в 21:59 |
  1. ставка отозвана
  • бгг.

    за каждый пункт $n за последний $n*10*(Go, Node.js, PHP) простая же утилита-то.

  • Дмитрий Кир — заказчик проекта
    Пожаловаться | 4 августа в 13:36 |

    За что там много денег?
    Сделать SELECT * FROM БД WHERE по указанным условиям и вывести в STDOUT.


  • Мог бы сделать это node.js, после получения недостающей информации смогу примерно определить сроки и цену.

    Накидаю немного вопросов

    Какой объем сайтов предполагается охватить?

    Какая БД будет использоваться для хранения данных?

    Новые сайты для сканирования будут находится среди ссылок на уже сканируемых сайтах?

    Как быть с современными SPA приложениями, где страница генерится на стороне клиента?

    Как быть с сайтами, где данные подгружаются динамически при помощи AJAX?

    Если данные с таких сайтов нужны, то придется использовать headless chrome или что-то подобное, а значит производительность сканирования драматически упадет. 

    Готовы ли вы к такому падению, есть ли у вас вычислительные мощности для такого сканирования?


  • Дмитрий Кир — заказчик проекта
    Пожаловаться | 8 августа в 20:56 |

    Сканировать всё время без передышки. всё время расширять БД сайтов.
    MySQL? Предлагайте.
    Да, среди ссылок.
    А как яндекс и гугл это решают?
    Я думаю, такие сайты надо обходить стороной.

  • А как яндекс и гугл это решают?

    В основном владельцы сайтов подстраиваются под поисковые машины, т.к. они заитересованы в этом, если заходит их робот, то делается SSR - вместо клиентского делается серверный рендеринг. Роботу отдается уже готовая страница. Сами поисковые роботы тоже могут исполнять JS клиентской стороны чтобы сформировать страницу, но это очень ресурсоемкая операция, по сравнению с обычным разбором html и она не всегда проходит гладко.

  • Добавить

Заказчик
Дмитрий Кир
Россия Россия  5   0
Проект опубликован
4 августа в 07:05
182 просмотра
Приглашены на проект