Улучшить парсер на python
Парсер написан на python. Библиотека, которая реализует сбор данных reability.
Документация: https://pypi.org/project/readability/
Разработчик записал тз в голосовые, в чем проблема. Тз в архиве. 1 Голосовое за Reability и 2 голосовое за бутстамп. Также как приму вас в проект. Передам любые ваши вопросы разработчику.
У него вышло только так. Для новичков это, наверное, не под силу. Поэтому обращаюсь к профи.
На счет бутстампа. Он тоже на нем пытался реализовать, но бутстамп выдал худшие результаты в отличие от reability. Было много дублированного контента одного и того же. И брал лишний грязный код, не нужный код.
Про сам код: код написан на Python. Запросы на сервер выполняются через aiohttp,
потому что проект является асинхронным, то есть параллельно отправляются запросы на сервер, а не по порядку.
Сборка выполнена через библиотеку PyInstaller. Запускаю .exe программу, и запускается командная строка. А сам парсер открывается в браузере, локально по адресу 127: и так далее.
Чтобы оценить код и стоимость работы. И вы не писали цифру с потолка. Понимаю вас. Вы напишете условную. Поэтому удобный вариант. Подключились к моему пк. Посмотрели на код. Поняли, что можете улучшить результат парсинга, и решать задачу, чтобы брался не только текст, а картинки с сайтов. Тогда обновите свою ставку под проектом, приму вас в проект. Внесу резерв средств. И только так! Потому что! Если вы не посмотрите в код, напишете какую-нибудь ставку. То что на выходе будет? Потраченный мой время впустую и средства? А вам негативный отзыв? Думаю, вам так не нужно. Думаю, это выяснили. Сейчас такой результат для примера 10 сайтов. Из 10 сайтов берет только текст с 5 сайтов, и с остальных 5 сайтов берет текст+картинки. Текст берет со всех 10 сайтов. Думаю, логика понятна. Что нужно, чтобы и картинки подбирал так же, как и текст со всех сайтов.
Мне безразлично, как это реализовать через reability или через бутстамп. Мне главное, чтобы парсер брал точнее данные. Через reability берет с каждого сайта текст, но картинки не с каждого. Поэтому задача была усовершенствовать его, или скрестить его с другой библиотекой, алгоритмом, технологией. Которая подбирала бы картинки. А он текст.
Или вообще сделать через бутстамп. Но только чтобы брался и текст + картинки и со всех сайтов. Короче, чтобы работало на бутстампе не хуже, чем на reability.
Могу предоставить доступ через anydesk, могу сам скомпилировать и собрать в bild.exe. Вам только зайти на мой пк, оценить код. И посмотреть, сможете ли сделать в моем коде. На bs4. Если вы думаете, что это улучшит сбор данных и решит мою проблему, тогда без вопросов. Если мы с вами протестируем и увидим, что ваша технология лучше, я сразу выбираю вас в проект. Вношу резерв средств, вы вносите изменения в код. Тестим. Если результаты лучше, я принимаю проект.
Приложения 3
-
3893 24 0 Добрый день,
Готов взяться за ваш проект парсера на Python для сбора данных с помощью библиотеки Reability. У меня есть опыт разработки кода на Python и использования aiohttp для асинхронных запросов. Сжатый запуск программы через PyInstaller также находится в моем арсенале.
Чтобы оценить код и разработать стратегию для сбора как текста, так и картинок с сайтов, приглашаю вас подключиться к моему ПК через anydesk. При более глубоком обзоре кода и тестировании мы можем внести необходимые изменения и улучшения для достижения желаемого результата.
Моя почасовая ставка составляет 16$. Жду вашего ответа для дальнейшего сотрудничества.
С уважением,
… Максим
-
Доброго дня Александр
Вашу програму можна покращити, але це не буде саме те, що Ви хочете.
Розбирати правильно абсолютно будь який сайт неможливо, або близько до цього.
Як мінімум -- на данний час.
В те щоб зробити readability вкладено багато грошей і років часу.
Якщо у Вас є якийсь перелік сайті(лінків) які Ви регулярно скрейпите -- то надішліть мені. Я подивлюсь який відсоток вийде покращити.
Зараз я трохи зайнятий і не зможу відповідати миттєво
-
Актуальные фриланс-проекты в категории Python
Специалист по Excel / автоматизации процессов (Excel + желательно программирование)Ищем специалиста с ПРОДВИНУТЫМИ знаниями Excel для оптимизации существующего файла и автоматизации процессов. Будет большим преимуществом, если вы также имеете навыки программирования / VBA / Power Query / Power Automate или опыт создания сложной логики в Excel. Задачи проекта… Python, Базы данных и SQL ∙ 13 минут назад ∙ 2 ставки |
Автоматизация процессоів через API и PhytonНиже описал текущий процесс и то, к какому результату хотелось бы прийти. Также прикладіваю файлы реалтного процесса чтобы лучше понять как он выглядит в ревльности Текущий процесс Сейчас весь процесс выполняется вручную: загрузка/выгрузка файлов, перенос данных между… AI и машинное обучение, Python ∙ 1 час 14 минут назад ∙ 16 ставок |
Необходимо создать бота в ТГ для оплаты подписки.
2000 UAH
Необходимо создать бота в телеграме, где пользователь сможет оформить подписку на доступ к веб-камерам, которые находятся во дворе. Организовать в боте оплату двух видов подписок (на месяц и на один день). Бот должен автоматически проверять оплату и после выдавать ссылку-доступа. Python, Разработка ботов ∙ 14 часов 1 минута назад ∙ 67 ставок |
Парсинг и классификация большого массива изображенийНеобходимо реализовать проект по сбору и структурированию большого массива архитектурных изображений из открытых веб-источников.Задача включает: автоматизированный сбор изображений; загрузка файлов в максимально доступном качестве; классификацию изображений по категориям:… Python, Парсинг данных ∙ 21 час 50 секунд назад ∙ 30 ставок |
Бизнес-логикa платформы: подтверждение занятий, контроль посещаемости-и история уроков (DjangoДоработка бизнес-логики образовательной платформы: подтверждение занятий, контроль посещаемости и история уроков (Django + React) Необходимо реализовать полноценную систему подтверждения уроков, контроля посещаемости и хранения истории подтверждений. Важно Перед началом… Python ∙ 3 дня 2 часа назад ∙ 29 ставок |