Парсер данных
250 UAHЕсть файл XML:
resdata.xml
Его конструкция имеет вид:
<?xml version="1.0" encoding="UTF-8"?>
<urlset >
<url><loc>https://site-1.ru/contacts</loc></url>
<url><loc>https://site-2.ru/contacts</loc></url>
<url><loc>https://site-3.ru/contacts</loc></url>
<url><loc>https://site-4.ru/contacts</loc></url>
<url><loc>https://site-5.ru/contacts</loc></url>
....
</urlset>
Как видно, в файле присутствуют ссылки на сайты со страницами контактов.
При срабатывании крона, происходит загрузка первой страницы из списка.
Если на странице, например, присутствует Email или mailto:[email protected]
то с помощью регулярного выражения, например:
/([a-z0-9_\.\-])+\@(([a-z0-9\-])+\.)+([a-zа-я0-9]{2,4})+/i
или какого-то другого ( важно, чтобы отсекалось всякое mailto: и оставался чистый email адрес )
забирается электронная почта и записывается в результирующий файл с такой же конструкцией как resdata.xml,
но с именем, например: resmail.xml
Часто бывает, что на странице, которая парситься бывает несколько mail адресов.
Тут важно, чтобы можно было получать эти адреса отдельно по одному в переменную,
которая будет учавствовать в функции, которую я подключу самостоятельно.
Например, на странице спарсено 3 email адреса:
1. Берем [email protected] вызываю нужную мне функцию и передаю ей в виде параметра переменную, в которой содержиться [email protected]
Записываем этот email в файл resmail.xml:
<?xml version="1.0" encoding="UTF-8"?>
<urlset >
<url><loc>[email protected]</loc></url>
</urlset>
2. Берем [email protected] вызываю нужную мне функцию и передаю ей в виде параметра переменную, в которой содержиться [email protected]
Записываем этот email в файл resmail.xml:
<?xml version="1.0" encoding="UTF-8"?>
<urlset >
<url><loc>[email protected]</loc></url>
<url><loc>[email protected]</loc></url>
</urlset>
3. Берем [email protected] вызываю нужную мне функцию и передаю ей в виде параметра переменную, в которой содержиться [email protected]
Записываем этот email в файл resmail.xml:
<?xml version="1.0" encoding="UTF-8"?>
<urlset >
<url><loc>[email protected]</loc></url>
<url><loc>[email protected]</loc></url>
<url><loc>[email protected]</loc></url>
</urlset>
1. И так при каждом срабатывании крона будет читаться очередная строка с resdata.xml;
2. Парсится со страницы email адрес(а);
3. Вызываться некоторая функция, параметром которой является один email адрес, а если на странице их несколько, то функция вызывается столько же, сколько
с одной страницы спарсено адресов. Тут в скрипте нужно указать место куда я должен буду вставить вызов своей функции.
4. Записать все спарсенные со страницы email адреса в результирующий XML файл resmail.xml
Соответственно, при следующем срабатывании крона происходит чтение следующей строки с файла resdata.xml и все выше указанное повторяется снова.
Когда resdata.xml прочитан полностью, вывести на экран надпись типа "Работа окончена", а в процессе работы скрипта, при каждом срабатывании крона
выводить на экран общее кол-во елементов в файле resdata.xml, порядковый номер элемента, который обрабатывается и кол-во записанных в файл resmail.xml адресов.
Отзыв заказчика о сотрудничестве с Алексеем Масловым
Парсер данныхРаботает быстро и качественно. Быстро разбирается в чужом коде, даже если он написан крайне бессистемно)
Отзыв фрилансера о сотрудничестве с Русланом Пуршегой
Парсер данныхЧетко сработали! Отличный заказчик!
-
591 22 0 Добрый день. 0938387175
Скайп maslenza.
По поводу сайтов понял. Написал так же в ЛС.
-
1600 38 6 4 Готов выполнить за указанный срок
Решение будет работать на сервере, обрабатывать в указанное время нужный список страниц, получать и хранить данные которые можно будет в любой момент скачать
Можно сделать админу форму для добавления новых сайтов, удаления лишних емейлов
-
Сайт покажите? В лс. Спасибо.
-
подробней в личку пожалуйста , специализируюсь на парсинге
-
Актуальные фриланс-проекты в категории PHP
Специалист по HoroshopНужен специалист, который сможет правильно настроить товарный Feed. Проблема: Сейчас более 13 000 товаров выгружаются с одинаковым значением типа (например, «все для маникюра и педикюра»). Из-за этого в Google Ads невозможно разделить товары на сегменты и задать разные… PHP, Сопровождение сайтов ∙ 1 день назад ∙ 19 ставок |
Сделать так, чтобы письма о заказах из магазина не попадали в спамСейчас есть магазин на опенкарт, письма о заказах попадают в спам, нужно сделать так, чтобы они попадали во Входящие (ukr.net gmail), проверьте. Хостинг написал: Плохая доставка электронной почты может быть связана с низкой репутацией отправителя - IP или домена. В таком… PHP, Веб-программирование ∙ 2 дня 1 час назад ∙ 47 ставок |
Перенести полностью готовую адаптивную HTML5-структуру в WordPress.
12 000 UAH
Я ищу опытного WordPress-разработчика, который сможет преобразовать наш тщательно подготовленный статический HTML5/CSS3 код в высокопроизводимую кастомную WordPress-тему. Фронтенд уже практически готов (примерно 99%): семантическая разметка, метаданные и мультиязычная структура… CMS, PHP ∙ 5 дней 3 часа назад ∙ 69 ставок |
Интеграция GoPosПривет, делал кто нибудь интеграцию GoPos с кастомным сайтом для ресторана в Польше? Нужна помощь, у них очень скудная документация, есть только swagger и тот без описаний https://app.gopos.io/doc/swagger-ui/index.html Суть такая, использовали от них сайт для онлайн заказов,… PHP, Веб-программирование ∙ 5 дней 19 часов назад ∙ 26 ставок |
Прописать мета данные АЛЬТ при помощи ИИСайт на Laravel , на сайте много изображений, для которых нужно прописать корректные по семантики и релевантные для странице АЛЬТ описание изображения в автоматическом режиме, с возможностью проверки AI и машинное обучение, PHP ∙ 6 дней 16 часов назад ∙ 36 ставок |