20 000+ рецептов с сайта
Была поставлена задача спарсить более 20 000 разных рецептов и картинок к ним, с сайта allrecipesТОЧКАcom, после чего залить на сайт c CMS WordPress.
В процессе выполнения оказалось - что часть страниц с рецептами - повторяется
(на примере этих 1000 записей https://drive.google.com/open?id=1nkKVW-QHG_alIYCuDJ0ipurb1t-vhMLG - видно что уникальных только 65 строк, остальные 935 - повторяются).
Поэтому парсеру пришлось пройтись по 100 000 страниц, для достижения поставленной цели в уникальных 20 000+ рецептов.
После чего рецепты с картинками были импортированы самописным скриптом на сайт c CMS WordPress.
В процессе импорта некоторые данные трансформировались по задаче заказчика, например время приготовления преобразовалось с формата ЧЧ:ММ на МММ, тоесть если было "2 часа 30 минут" - стало "150 минут"
#Парсинг #веб-парсинг #Wordpress #cms #импорт
В процессе выполнения оказалось - что часть страниц с рецептами - повторяется
(на примере этих 1000 записей https://drive.google.com/open?id=1nkKVW-QHG_alIYCuDJ0ipurb1t-vhMLG - видно что уникальных только 65 строк, остальные 935 - повторяются).
Поэтому парсеру пришлось пройтись по 100 000 страниц, для достижения поставленной цели в уникальных 20 000+ рецептов.
После чего рецепты с картинками были импортированы самописным скриптом на сайт c CMS WordPress.
В процессе импорта некоторые данные трансформировались по задаче заказчика, например время приготовления преобразовалось с формата ЧЧ:ММ на МММ, тоесть если было "2 часа 30 минут" - стало "150 минут"
#Парсинг #веб-парсинг #Wordpress #cms #импорт