20 000+ рецептів з сайту
Було поставлено завдання спартувати понад 20 000 різних рецептів і зображень до них, з сайту allrecipesТОЧКАcom, а потім залити на сайт c CMS WordPress.
В процесі виконання виявилося - що частина сторінок з рецептами - повторюється
(на прикладі цих 1000 записів https://drive.google.com/open?id=1nkKVW-QHG_alIYCuDJ0ipurb1t-vhMLG - видно, що унікальних тільки 65 рядків, решта 935 - повторюються).
Тому парсеру довелося пройти по 100 000 сторінок, щоб досягти поставленої мети в унікальних 20 000+ рецептах.
Після цього рецепти з зображеннями були імпортовані самописним скриптом на сайт c CMS WordPress.
У процесі імпорту деякі дані трансформувалися за завданням замовника, наприклад час приготування перетворювався з формату ЧЧ:ММ на МММ, тобто якщо було "2 години 30 хвилин" - стало "150 хвилин".
#Парсінг #Веб-парсінг #Wordpress #cms #Імпорт
В процесі виконання виявилося - що частина сторінок з рецептами - повторюється
(на прикладі цих 1000 записів https://drive.google.com/open?id=1nkKVW-QHG_alIYCuDJ0ipurb1t-vhMLG - видно, що унікальних тільки 65 рядків, решта 935 - повторюються).
Тому парсеру довелося пройти по 100 000 сторінок, щоб досягти поставленої мети в унікальних 20 000+ рецептах.
Після цього рецепти з зображеннями були імпортовані самописним скриптом на сайт c CMS WordPress.
У процесі імпорту деякі дані трансформувалися за завданням замовника, наприклад час приготування перетворювався з формату ЧЧ:ММ на МММ, тобто якщо було "2 години 30 хвилин" - стало "150 хвилин".
#Парсінг #Веб-парсінг #Wordpress #cms #Імпорт