Удосконалити парсер на python
Парсер написаний на python. Бібліотека яка реалізує збір даних reability.
Документація: https://pypi.org/project/readability/
Розробник записав тз в голосові, в чому проблема. Тз в архіві. 1 Голосове за Reability і 2 голосове за бутстамп. Також як прийму вас у проект. Передам любі ваші питання розробнику.
В нього вийшло тільки так. Для новачків це напевно не під силу. Тому звертаюсь до профі.
На рахунок бутстампа. Він теж на ньому намагався реалізувати, но бутстапм видав хужі результати на відміну від reability. Було багато дубльованого контента одного і тоже. І брав лишній грязний код не потрібний код.
Про сам код: код написаний на Python. Запити на сервер виконуються через aiohttp,
бо проект є асинхронним, тобто паралельно відправляються запити на сервер, а не по порядку.
Збірка виконана через бібліотеку PyInstaller. Запускаю .exe программу, і запускається командна строка. А сам парсер відкривається в браузері, локально по адресу 127: і так далі.
Щоб оцінити код і вартість роботи. І ви не писали цифру з потолка. Розумію вас. Ви напишете умовну. Тому зручний варіант. Під'єдналися до мого пк. Глянули на код. Зрозуміли що можете покращити результат парсингу, і розв'язувати задачу, щоб брався не тільки текст, а картинки з сайтів. Тоді обновите свою ставку під проектом, прийму вас у проект. Внесу резерв коштів. І тільки так! Бо! Як що ви не глянете у код, напишете яку небудь ставку. То що на виході буде? Потрачений мій час впусту і кошти? А вам негативний відгук? Думаю вам так не потрібно. Думаю це вияснили. Зараз такий результат для прикладу 10 сайтів. Із 10 сайтів бере тільки текст з 5 сайтів, і з решти 5 сайтів бере текст+картинки. Текст бере з усіх 10 сайтів. Думаю логіка зрозуміла. Що потрібно щоб і картинки підбирав так само як і текст з усіх сайтів.
Мені байдуже як це реалізувати через reability чи через бутстамп. Мені головне. Щоб парсер брав точніше дані. Через reability бере з кожного сайту текст, но картинки не з кожного. Тому задача була удосконалити його, або зхрестити його з другою біліотекою, алгоримтом, технологією. Яка підбирала б картинки. А він текст.
Або взагалі зробити черз бутстамп. Но тільки щоб брався і текст + картинки і з усіх сайтів. Короче, щоб працювало на бутстампі не хуже, чим на reability.
Можу надати доступ через anydesk, можу сам скомпілювати та зібрати в bild.exe. Вам тільки зайти на мій пк, оцінити код. І подивитись чи зможете зробити в мому коді. На bs4. Як що ви думаєте, що це покращить збір даних, і вирішить мою проблему, тоді без питань. Як що ми з вами протестимо і побачимо що ваша технологія краща. Я відразу обираю вас у проект. Вношу резерв коштів, ви вносите зміни в код. Тестим. Як що результати кращі. Я приймаю проект.
Додатки 3
-
3893 24 0 Добрий день,
Готовий взятися за ваш проект парсера на Python для збору даних за допомогою бібліотеки Reability. Я маю досвід у розробці коду на Python і використанні aiohttp для асинхронних запитів. Згорнутий запуск програми через PyInstaller також знаходиться у моєму арсеналі.
Щоб оцінити код та розробити стратегію для збору як тексту, так і картинок з сайтів, запрошую вас підключитися до мого ПК через anydesk. При глибшому огляді коду та тестуванні можемо внести необхідні зміни та покращення для досягнення бажаного результату.
Моя годинна ставка становить 16$. Чекаю на ваш відповідь для подальшої співпраці.
З повагою,
… Максим
-
Доброго дня Александр
Вашу програму можна покращити, але це не буде саме те, що Ви хочете.
Розбирати правильно абсолютно будь який сайт неможливо, або близько до цього.
Як мінімум -- на данний час.
В те щоб зробити readability вкладено багато грошей і років часу.
Якщо у Вас є якийсь перелік сайті(лінків) які Ви регулярно скрейпите -- то надішліть мені. Я подивлюсь який відсоток вийде покращити.
Зараз я трохи зайнятий і не зможу відповідати миттєво
-
Актуальні фриланс-проєкти в категорії Python
Потрібно створити бот в тг для оплати підписки.
2000 UAH
Потрібно створити бот в телеграмі де користувач зможе оформити підписку на доступ до веб камер котрі знгаходяться у дворі. Організувати в боті оплату двух видів підписок (на місяць і на один день). Бот повинен автоматично перевірити оплату і після видавати посилання-доступу Python, Розробка ботів ∙ 12 годин 42 хвилини тому ∙ 64 ставки |
Парсинг та класифікація великого масиву зображеньПотрібно реалізувати проєкт зі збору та структурування великого масиву архітектурних зображень із відкритих вебджерел.Задача включає: автоматизований збір зображень; завантаження файлів у максимально доступній якості; класифікацію зображень за категоріями: Exterior; Interior;… Python, Парсинг даних ∙ 19 годин 42 хвилини тому ∙ 30 ставок |
Бізнес-логіка платформи: підтвердження занять, контроль відвідуваності та історія уроків (DjangoДоопрацювання бізнес-логіки освітньої платформи: підтвердження занять, контроль відвідуваності та історія уроків (Django + React) Необхідно реалізувати повноцінну систему підтвердження уроків, контролю відвідуваності та зберігання історії підтверджень. Важливо Перед початком… Python ∙ 3 дні тому ∙ 29 ставок |
Доопрацювання адміністративної панелі освітньої платформи (Django + React)Доопрацювання адміністративної панелі освітньої платформи (Django + React) Опис проекту: Є діюча освітня платформа (маркетплейс, аналог Preply), розроблена на Django + React. Необхідно доопрацювати існуючу адміністративну панель і реалізувати відсутній функціонал управління… Python, Веб-програмування ∙ 4 дні 22 години тому ∙ 58 ставок |
Скрипт сбору даних (виконання JS)Добрий день, є список ссилок на оголошення 0lx, потрібно написати скрипт якій буде збиратителефон. Він з'являється при натисканні на кнопку "показати телефон". Бажано виконати на python, але інші варіанти теж ок. Скілько приблизно по вартості та часу? Python, Парсинг даних ∙ 5 днів 12 годин тому ∙ 47 ставок |