Скрипт парсера
Нужно написать скрипт парсер.
1. Скрипт берет входящие данные из формы, данные в форму вносит админ - список доменов по 1 в строке.
При нажатии на кнопку происходит сохранение данный в таблицу БД.
При повторном добавлении - дубликаты игнорируются.
2. Домены отображаются в таблице - домены.
Таблица имеет множественный выбор и поля сортировки.
Есть кнопка "выбрать все". При выборе одного или нескольких доменов разблокируються кнопки действий -
- Парсить
- Удалить (удаление из базы с подтверждением)
- Ссылки (открывает страницу домена с таблицей - найденных ссылок)
3. При выборе действия "парсить" - происходит собственно парсинг страницы:
В ходе которого парсер собирает все исходящие ссылки и приводит их в доменный вид DOMAINNAME.COM - сохраняя в базу.
4. Затем происходит поиск найденных ссылок на соответствие с таблицей "OR"
Таблица OR - отдельная страничка где по аналогии можно загрузить домены. Но в ней есть только действие "Удалить"
Если сравнение таблицы ссылок и таблицы OR дало положительный результат - то есть на домене есть ссылка хотя бы на один из сайтов таблицы OR то домену присваивается статус "Есть ссылка на OR" а в поле таблицы Домены "Страница с ссылками" заноситься индексная страница (/)
5. Если результат отрицательный то производиться поиск по анкорам внутренних ссылок и сравнение с таблицей "Внутренние анкоры" Этот список так же как и таблица OR - но уже имеет значения:
1. links
2. link
3. resources
4. reviews
5. review
6. testimonials
7. partners
8. partner
9. friends
10. sites
6. Если такая ссылка с нужным анкором найдена - скрипт парсит ЕЕ по аналогии с п3 и при успехе (нашел ссылки и соответствие) заносит эту страничку в поле Страница с ссылками"
7. При поиске в п4 отдельно производиться поиск по 1 специальному полю которое указывается в настройке - наш сайт - и если он найден в таблице доменов в поле Ссылка на наш сайт ставиться статус "Найден Наш сайт". Иначе - "нет ссылки на наш Сайт"
Процесс парсинга должен отображаться в виде прогресс бара с возможностью остановить/продолжить или отменить.
Результаты в виде отчета - количество найдено/ не найдено / всего обработано.
Интерфейс можно взять из любого красивого бесплатного UI
Реализация на любом языке с возможностью простой установки на сервер.
Можно юзать фреймворки.
Актуальные фриланс-проекты в категории Парсинг данных
Нужен парсер интернет-магазина https://www.lcsc.com/нужно регулярно (1 раз в месяц, или по запуску скрипта) получать актуальную информацию о товарах в наличии магазина https://www.lcsc.com/ из каталога всех разделов… Парсинг данных ∙ 8 часов 7 минут назад ∙ 32 ставки |
OpenCart — каталог аренды спецтехники
6000 UAH
OpenCart — каталог аренды спецтехникиНеобходимо запустить каталог аренды спецтехники на OpenCart.Тематика:экскаваторыавтовышкипогрузчикигенераторыкраныстроительные лесадругая строительная техника.Желательно, чтобы у вас уже был готовый шаблон или наработки под спецтехнику,… Веб-программирование, Парсинг данных ∙ 1 день назад ∙ 46 ставок |
Перенести программу - слетел сервер, где была программа (официальный разрешенный парсинг гос данных)
2064 UAH
Добрый! У меня у клиента произошел данный кейс описанный ниже. Нужно помочь перенести на новый сервер и оттестировать программу. Лучше программист, который разбирается в парсинге. Настройка ПО и серверов, Парсинг данных ∙ 1 день 4 часа назад ∙ 27 ставок |
Парсинг сайтаТребуется реализация 4 парсеров (сайты каталоги) Есть тз, есть пример кода как референс . В задачи входит: Написать парсер Прикрутить прокси Логика дедубликации (перенести логику из примера) Логика хешированя по 3 полям Парсер должен работать как пайплайн с логикой что… Парсинг данных ∙ 2 дня 20 часов назад ∙ 44 ставки |
Сбор(парсинг) базы товаров с сайтов поставщиков (Excel / CSV)
10 000 UAH
Сбор базы товаров с сайтов поставщиков (Excel / CSV) Добрый день. Требуется специалист для сбора и структурирования данных с нескольких сайтов поставщиков, доступ к которым будет предоставлен.Задача: Необходимо сформировать единую базу товаров в формате Excel (XLSX) или CSV.Для… Веб-программирование, Парсинг данных ∙ 4 дня 4 часа назад ∙ 105 ставок |