Udoskonalić parser w pythonie
Parser napisany w Pythonie. Biblioteka, która realizuje zbieranie danych reability.
Dokumentacja: https://pypi.org/project/readability/
Programista nagrał tzw. wideo, w czym jest problem. Tz w archiwum. 1 Wideo za Reability i 2 wideo za bootstrap. Także jak przyjmę cię do projektu. Przekażę wszelkie twoje pytania programiście.
U niego wyszło tylko tak. Dla nowicjuszy to pewnie nie w ich zasięgu. Dlatego zwracam się do profesjonalistów.
Co do bootstrapa. On też próbował to zrealizować, ale bootstrap dał gorsze wyniki w porównaniu do reability. Było dużo powielonej treści tego samego. I brał dodatkowy brudny kod, niepotrzebny kod.
O samym kodzie: kod napisany w Pythonie. Zapytania do serwera są wykonywane przez aiohttp,
bo projekt jest asynchroniczny, czyli równolegle wysyłane są zapytania do serwera, a nie po kolei.
Budowa wykonana przez bibliotekę PyInstaller. Uruchamiam program .exe, i uruchamia się wiersz poleceń. A sam parser otwiera się w przeglądarce, lokalnie pod adresem 127: i tak dalej.
Aby ocenić kod i koszt pracy. I żebyś nie pisał liczby z sufitu. Rozumiem cię. Napiszesz warunkową. Dlatego wygodna opcja. Podłączyli się do mojego komputera. Zobaczyli kod. Zrozumieli, że możesz poprawić wyniki parsowania i rozwiązać zadanie, aby brał nie tylko tekst, ale także obrazy ze stron. Wtedy zaktualizujesz swoją ofertę pod projektem, przyjmę cię do projektu. Wprowadzę rezerwę funduszy. I tylko tak! Bo! Jeśli nie spojrzysz w kod, napiszesz jakąkolwiek ofertę. Co z tego wyjdzie? Stracony mój czas na marne i pieniądze? A ty negatywna opinia? Myślę, że nie potrzebujesz tego. Myślę, że to wyjaśniliśmy. Teraz taki wynik dla przykładu 10 stron. Z 10 stron bierze tylko tekst z 5 stron, a z pozostałych 5 stron bierze tekst + obrazy. Tekst bierze ze wszystkich 10 stron. Myślę, że logika jest zrozumiała. Co potrzebne, aby obrazy były wybierane tak samo jak tekst ze wszystkich stron.
Nie obchodzi mnie, jak to zrealizować przez reability czy przez bootstrap. Najważniejsze, aby parser brał dokładniejsze dane. Przez reability bierze z każdej strony tekst, ale obrazy nie z każdej. Dlatego zadanie polegało na udoskonaleniu go lub połączeniu go z drugą biblioteką, algorytmem, technologią. Która wybierałaby obrazy. A on tekst.
Albo w ogóle zrobić przez bootstrap. Ale tylko, aby brał i tekst + obrazy i ze wszystkich stron. Krótko mówiąc, aby działało na bootstrapie nie gorzej niż na reability.
Mogę zapewnić dostęp przez anydesk, mogę sam skompilować i zebrać w bild.exe. Ty tylko wejdziesz na mój komputer, oceniasz kod. I zobaczysz, czy możesz coś zrobić w moim kodzie. Na bs4. Jeśli myślisz, że to poprawi zbieranie danych i rozwiąże mój problem, wtedy bez pytań. Jeśli przetestujemy i zobaczymy, że twoja technologia jest lepsza. Od razu wybieram cię do projektu. Wprowadzam rezerwę funduszy, ty wprowadzasz zmiany w kodzie. Testujemy. Jeśli wyniki są lepsze. Przyjmuję projekt.
Załączniki 3
-
3893 24 0 Dzień dobry,
Jestem gotów zająć się Państwa projektem parsera w Pythonie do zbierania danych za pomocą biblioteki Reability. Mam doświadczenie w tworzeniu kodu w Pythonie i używaniu aiohttp do asynchronicznych zapytań. Złożone uruchomienie programu przez PyInstaller również znajduje się w moim arsenale.
Aby ocenić kod i opracować strategię zbierania zarówno tekstu, jak i obrazków z witryn, zapraszam do połączenia się z moim komputerem przez anydesk. Przy dokładniejszym przeglądzie kodu i testowaniu możemy wprowadzić niezbędne zmiany i ulepszenia, aby osiągnąć pożądany rezultat.
Moja stawka godzinowa wynosi 16$. Czekam na Państwa odpowiedź w celu dalszej współpracy.
Z poważaniem,
… Maksym
-
Доброго дня Александр
Вашу програму можна покращити, але це не буде саме те, що Ви хочете.
Розбирати правильно абсолютно будь який сайт неможливо, або близько до цього.
Як мінімум -- на данний час.
В те щоб зробити readability вкладено багато грошей і років часу.
Якщо у Вас є якийсь перелік сайті(лінків) які Ви регулярно скрейпите -- то надішліть мені. Я подивлюсь який відсоток вийде покращити.
Зараз я трохи зайнятий і не зможу відповідати миттєво
-
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Potrzebny parser sklepu internetowego https://www.lcsc.com/należy regularnie (1 raz w miesiącu, lub przy uruchomieniu skryptu) uzyskiwać aktualne informacje o produktach dostępnych w sklepie https://www.lcsc.com/ z katalogu wszystkich działów… Parsowanie danych ∙ 9 minut temu ∙ 6 ofert |
OpenCart — katalog wynajmu sprzętu specjalistycznego
492 PLN
OpenCart — katalog wynajmu sprzętu specjalistycznegoPotrzebne jest uruchomienie katalogu wynajmu sprzętu specjalistycznego na OpenCart.Tematyka:koparkipodnośnikiładowarkigeneratorydźwigirusztowaniainny sprzęt budowlany.Preferowane, abyście mieli już gotowy szablon lub… Programowanie stron internetowych, Parsowanie danych ∙ 16 godzin 36 minut temu ∙ 42 oferty |
Przenieść program - serwer, na którym był program, padł (oficjalne dozwolone parsowanie danych publicznych)
169 PLN
Witaj! Mój klient ma przypadek opisany poniżej. Potrzebna pomoc w przeniesieniu na nowy serwer i przetestowaniu programu. Lepiej, aby to był programista, który zna się na parsowaniu. Konfigurowanie oprogramowania i serwerów, Parsowanie danych ∙ 20 godzin 28 minut temu ∙ 25 ofert |
Parsowanie i klasyfikacja dużej liczby obrazówNależy zrealizować projekt zbierania i strukturyzacji dużej ilości architektonicznych obrazów z otwartych źródeł internetowych.Zadanie obejmuje: automatyczne zbieranie obrazów; ładowanie plików w maksymalnie dostępnej jakości; klasyfikację obrazów według kategorii: Exterior;… Python, Parsowanie danych ∙ 20 godzin 56 minut temu ∙ 30 ofert |
Parsowanie CV z Work.ua i Rabota.uaNależy pobrać w formacie Excel bazę aktualnych CV z Work.ua i Работа.ua. Preferowane, aby plik Excel zawierał następujące kolumny:ImięNumer telefonu (w formacie +380...)Adres e-mailStanowisko (zawód)Stanowiska, które rozważaKategoria branży (rubryka)Branża, w której… Wyszukiwanie i zbieranie informacji, Parsowanie danych ∙ 1 dzień 20 godzin temu ∙ 18 ofert |