Скрипт парсера
Нужно написать скрипт парсер.
1. Скрипт берет входящие данные из формы, данные в форму вносит админ - список доменов по 1 в строке.
При нажатии на кнопку происходит сохранение данный в таблицу БД.
При повторном добавлении - дубликаты игнорируются.
2. Домены отображаются в таблице - домены.
Таблица имеет множественный выбор и поля сортировки.
Есть кнопка "выбрать все". При выборе одного или нескольких доменов разблокируються кнопки действий -
- Парсить
- Удалить (удаление из базы с подтверждением)
- Ссылки (открывает страницу домена с таблицей - найденных ссылок)
3. При выборе действия "парсить" - происходит собственно парсинг страницы:
В ходе которого парсер собирает все исходящие ссылки и приводит их в доменный вид DOMAINNAME.COM - сохраняя в базу.
4. Затем происходит поиск найденных ссылок на соответствие с таблицей "OR"
Таблица OR - отдельная страничка где по аналогии можно загрузить домены. Но в ней есть только действие "Удалить"
Если сравнение таблицы ссылок и таблицы OR дало положительный результат - то есть на домене есть ссылка хотя бы на один из сайтов таблицы OR то домену присваивается статус "Есть ссылка на OR" а в поле таблицы Домены "Страница с ссылками" заноситься индексная страница (/)
5. Если результат отрицательный то производиться поиск по анкорам внутренних ссылок и сравнение с таблицей "Внутренние анкоры" Этот список так же как и таблица OR - но уже имеет значения:
1. links
2. link
3. resources
4. reviews
5. review
6. testimonials
7. partners
8. partner
9. friends
10. sites
6. Если такая ссылка с нужным анкором найдена - скрипт парсит ЕЕ по аналогии с п3 и при успехе (нашел ссылки и соответствие) заносит эту страничку в поле Страница с ссылками"
7. При поиске в п4 отдельно производиться поиск по 1 специальному полю которое указывается в настройке - наш сайт - и если он найден в таблице доменов в поле Ссылка на наш сайт ставиться статус "Найден Наш сайт". Иначе - "нет ссылки на наш Сайт"
Процесс парсинга должен отображаться в виде прогресс бара с возможностью остановить/продолжить или отменить.
Результаты в виде отчета - количество найдено/ не найдено / всего обработано.
Интерфейс можно взять из любого красивого бесплатного UI
Реализация на любом языке с возможностью простой установки на сервер.
Можно юзать фреймворки.
Current freelance projects in the category Data Parsing
LinkedIn mailing
120 USD
LinkedIn Mailing It is necessary to launch a LinkedIn mailing to the specified database. 30,000+ contacts We are waiting for proposals Email Marketing, Data Parsing ∙ 15 hours 16 minutes back ∙ 8 proposals |
Parsing company emails from a specific industry
113 USD
Find contacts (e-mail, phone number) of companies engaged in the specified business mentioned in this Google document https://docs.google.com/document/d/1_d-iLxLSL3gjRvo1GmUpWNm0Pm5YoKGcEvaiDc_2I0g/edit?usp=sharing The result should be in the form of a table with the following… Data Parsing ∙ 1 day 15 hours back ∙ 31 proposals |
Need a parser for the online store https://www.lcsc.com/It is necessary to regularly (once a month, or upon script launch) obtain up-to-date information about the products available in the store. https://www.lcsc.com/ from the catalog of all sections.… Data Parsing ∙ 2 days 20 hours back ∙ 43 proposals |
OpenCart — rental catalog of special equipment
135 USD
OpenCart — Equipment Rental Catalog Need to launch an equipment rental catalog on OpenCart. Theme: excavators cherry pickers forklifts generators cranes scaffolding other construction equipment. It is preferable that you already have a ready-made template or developments… Web Programming, Data Parsing ∙ 3 days 13 hours back ∙ 58 proposals |
Transfer the program - the server where the program was located has crashed (officially permitted parsing of government data)
46 USD
Hello! My client has encountered the case described below. We need help transferring to a new server and testing the program. It would be better to have a programmer who understands parsing. Software & Server Configuration, Data Parsing ∙ 3 days 17 hours back ∙ 29 proposals |