The Amazon.com - 3
Develop a script to parsing product data, ratings and reviews from the product page for assigned ASINs.The script will be used to collect data in real time.The results of the script are stored in the Google Sheet.Proxy support and rotating are required to prevent IP addresses from being blocked.Also, you need to create link triggers of certain parts of the parsing, with which you can run one or another type of parsing.Only 4 types of parsnyg that should be launched separately on the link:
1 .Function of parsing information about goods
2ndParking function only rating
ThreeThe parsing function is only "verified reviews" where we get a verified average product rating.4 .Parking functions only of the reviews themselves
The information will be stored in the Google Table.Example of the table: https://docs.google.com/spreadsheets/d/1kkcTfrhwowiejYBbvCy1qHaXmcSxe1AOU3m5I_QFVc0/edit
The table should be able to set the frequency with which the product ratings will be collected on Amazon, the setting is in the column.If there is a problem with running or running a script, you need to have easy access to the error log.I think it is best to write a log in a separate sheet in the table.The reviews of each product must be kept in separate lists.When parsim verified reviews- the list name will be “verified_reviews({ASIN})”
When we parish the usual reviews, the list’s name will be “all_reviews({ASIN})”
The required speed is at least 1000 goods per day.“
It needs to be improved in these aspects:
1) When launched on schedule, the next launch interrupts the previous and must wait for its end.2) Cleanse the leaf with the log once every 2 days (now cleanse once a day).Add to the logging sheet enough call-to-line to record (on now only 1000 lines and no further writing)
3) Part the reviews into separate tables instead of the sheets in one table by adding a link to the created tables to the main.4) Realize parsing in several flows parallel to increase the speed.It’s going very slow, though the proxy support is available.Control of versions through Git.The source code is required.Working under OS: Ubuntu 20.04
by Python3.11
Comments in the code and instructions in English.
Здравствуйте.
Есть парсер, разработанный по данному ТЗ:
"
Разработать скрипт для парсинга данных о товаре, рейтинга и отзывов со страницы товара для заданных ASIN.
Скрипт будет использоваться для сбора данных в режиме реального времени.
Результаты работы скрипта сохранять в Google Sheet.
Необходима поддержка и ротация прокси, чтобы предотвратить блокировку IP-адресов.
Также, нужно создание ссылок-триггеров определенных частей парсинга, с помощью которых можно запускать тот или иной вид парсинга. Всего 4 вида парснига, которые должны запускаться отдельно по ссылке:
1. Функция парсинга информации о товарах2. Функция парсинга только рейтинга
3. Функция парсинга только "verified reviews" где мы получаем проверенный средний рейтинг товаров.
4. Функция парсинга только самих отзывов
Информация будет сохранятся в гугл-таблицу.
Пример таблицы: https://docs.google.com/spreadsheets/d/1kkcTfrhwowiejYBbvCy1qHaXmcSxe1AOU3m5I_QFVc0/edit
В таблице должна быть возможность установить частоту, с которой рейтинги продуктов будут собираться на Amazon, настройка находится в столбце.
Если есть проблема с запуском или выполнением скрипта, нужно иметь легкий доступ к журналу ошибок. Думаю, оптимально, писать лог в отдельный лист в таблице.
Отзывы каждого товара нужно сохранять в отдельные листы.
Когда парсим verified reviews- название листа будет «verified_reviews({ASIN})»
Когда парсим обычные reviews - название листа будет «all_reviews({ASIN})»
Требуемая скорость - не менее 1000 товаров в день.
"
Необходимо его улучшить в данных аспектах:
1) При запуске по расписанию следующий запуск прерывает предыдущий, а должен ожидать его окончания.
2) Очищать лист с логом раз в 2 дня(сейчас очищается раз в сутки). Добавлять в logging лист достаточное кол-во строк для записи(сейчас только 1000 строк и дальше не пишет)
3) Парсить отзывы в отдельные таблицы вместо листов в одной таблице с добавлением ссылки на созданные таблицы в основную.
4) Реализовать парсинг в несколько потоков параллельно для увеличения скорости. Сейчас идет очень медленно, хотя поддержка прокси есть.
Контроль версий через Git.
Требуется предоставление исходного кода.
Работа под ОС: Убунту 20.04
Python3.11
Комментарии в коде и инструкции на английском языке.
-
Ссылка на ТЗ ведёт на персональный проект, видна только вам и исполнителю
-