Zbieranie i parsowanie informacji
Potrzebne jest zparsowanie i zebranie zorganizowanych informacji z stron ukraińskich i zagranicznych uczelni, szkół wyższych oraz platform kursów online (Abiturients, Mudra, Coursera, Udemy itp.) z dalszym przygotowaniem plików Excel według gotowej struktury.
Zakres:
Ukraińskie szkoły wyższe — ~650+ wpisów
Ukraińskie uczelnie — ~350+ wpisów
Zagraniczne uczelnie — wszystkie z źródła strony
Kursy online w języku ukraińskim — ~9 000+ wpisów
Kursy online w językach obcych — ~26 000+ wpisów
Opinie — min. 180 000 wpisów
Termin realizacji: 6 dni, z etapowym oddawaniem.
Szukamy specjalisty z doświadczeniem w parsowaniu dużych zbiorów danych i przygotowywaniu ważnych zestawów danych.
Opinia zleceniodawcy o współpracy z Luka Grachov
Zbieranie i parsowanie informacjiNiestety, nie mogliśmy zamknąć zadania z powodu choroby wykonawcy.
-
310 2 1 Witaj!
Nazywam się Semen, jestem menedżerem firmy Wanord. Specjalizujemy się w parserach, zbieraniu dużych zbiorów danych oraz przygotowywaniu uporządkowanych zestawów danych (Excel/CSV) zgodnie z gotowym TZ.
📌 Co jest potrzebne:
Zebrać i uporządkować dane ze stron ukraińskich i zagranicznych uczelni/kollegiów oraz platform kursów online (Abiturients, Mudra, Coursera, Udemy itp.) z formowaniem plików Excel według określonej struktury. Zakres — dziesiątki tysięcy rekordów + minimum 180 000 recenzji, etapowe oddanie w ciągu 6 dni.
🔧 Co zrobimy:
Przeanalizujemy Twoją docelową strukturę plików Excel i uzgodnimy format pól (typy, obowiązkowość, kodowanie, języki).
…
Opracujemy osobne parsery dla:
ukraińskich collegiów (~650+);
ukraińskich uczelni (~350+);
zagranicznych uczelni (pełna lista ze strony źródłowej);
kursów online (UA ~9 000+, zagraniczne ~26 000+);
recenzji (180 000+).
Zrealizujemy stabilne zbieranie danych z uwzględnieniem limitów/ochrony antybotowej (rotacja IP, przerwy, logowanie błędów).
Przeprowadzimy czyszczenie i walidację danych (duplikaty, puste pola, format dat, kodowanie).
Przygotujemy pliki Excel ściśle według Twojej struktury + podstawowa kontrola jakości (spot-check, losowa próbka).
Oddamy wyniki etapowo: najpierw część uczelni/kollegiów, następnie kursy online, potem blok recenzji.
💼 Doświadczenie:
Mamy doświadczenie w parsowaniu dużych zbiorów (setki tysięcy+ wierszy), budowaniu stabilnych parserów działających pod obciążeniem oraz przygotowywaniu zestawów danych do analizy/ML. Przykłady możemy przesłać w prywatnej wiadomości.
💰 Orientacyjny budżet: 1500–2300 $
⏱️ Termin: do 6 dni z etapowym oddaniem (pod warunkiem dostępu do wszystkich źródeł i ostatecznie uzgodnionej struktury plików).
Jesteśmy gotowi zająć się projektem i od razu przejść do ustalenia struktury Excel oraz planu etapów. Napisz w wiadomości prywatnej — prześlij szablon plików i źródła, uzgodnimy ostateczny budżet i harmonogram oddania.
-
316 1 0 Cześć!
Mam doświadczenie w tworzeniu skryptów Pythona do zbierania danych. Jestem gotów wykonać ten projekt.
Piszcie w wiadomościach prywatnych.
-
1964 25 1 Cześć, zajmuję się parsowaniem na stałe. Mogę pomóc Ci w rozwiązaniu Twojego zadania. Napisz do mnie prywatnie, uzgodnimy szczegóły.
Minimalna cena za etap
-
875 51 0 1 Gotowy do współpracy. Dokładna cena i terminy po uzyskaniu bardziej szczegółowych informacji.
-
201 1 1 Witam! Mogę napisać prostego i niezawodnego asynchronicznego parsera, aby działał szybciej. Dane mogę zapisywać tam, gdzie będzie to dla Ciebie wygodne, ale w rezultacie ma powstać plik Excel o wymaganej strukturze.
-
8977 367 0 Dzień dobry
Zainteresował mnie wasz projekt.
Chciałbym omówić wszystko bardziej szczegółowo.
-
248 Dzień dobry!
Chcę wyjaśnić, że 6 dni to zbyt krótki czas na projekt takiego rozmachu i objętości danych. Z mojego doświadczenia wynika, że zadania związane z parsowaniem dużych ilości informacji wymagają znacznie więcej czasu na jakościową realizację.
Mam duże doświadczenie w automatyzacji przeglądarek z wykorzystaniem narzędzi Selenium i Playwright. Tworzyłem skomplikowane parsery dla różnych platform, w tym dla dynamicznych i zabezpieczonych stron. Na przykład opracowałem skomplikowany parser dla THREADS (X), który działa z obfuskującym dynamicznym HTML. Dzięki komputerowemu widzeniu zbieraliśmy dane o liczbie subskrybentów, polubień, komentarzy, repostów i wiadomości prywatnych, analizowaliśmy wiralność postów, akumulowaliśmy je w bazie i tworzyliśmy analityczny pulpit. W systemie znajdowało się ponad sześć oddzielnych skryptów, takich jak automatyczne polubienia, komentowanie i monitorowanie osobistych tematów.
Mam również doświadczenie w budowaniu niezawodnych pipeline'ów do oczyszczania i przechowywania dużych zbiorów informacji, a także integracji z API. Pracuję z narzędziami do omijania ograniczeń i zapewniam stabilność oraz skalowalność rozwiązań.
Jeśli potrzebna jest pomoc w przygotowaniu ważnych i uporządkowanych zbiorów danych oraz poprawnym parsowaniu, jestem gotów omówić terminy i etapy pracy, aby zapewnić jakość wyniku.
…
Z poważaniem