Stworzyć program lub skrypt dla Pythona /notepad++ lub innej aplikacji do filtrowania danych
jest wiele plików csv, w których każdy ma około 10-20 milionów wierszy
sublime text nie radzi sobie z otwieraniem takiej ilości
ale notepad++ otwiera szybko
powinien również umieć otwierać pliki txt
rozważę wasze propozycje, być może skrypt dla podobnego programu z pomocą Pythona
lub osobna aplikacja
głównym zadaniem jest, aby aplikacja mogła otwierać tak duże pliki, działać bez zawieszania się
po otwarciu pliku potrzebuję możliwości filtrowania danych
według miasta, wieku, daty urodzenia lub innych danych, które wskażę
również z określeniem, ile wierszy potrzebuję zebrać, na przykład 500
oprogramowanie powinno zebrać te 500 wierszy (potrzebna możliwość wskazania zbierania w kolejności lub losowo) według potrzebnych filtrów, powinienem mieć możliwość zapisania go w Excelu lub csv
po tym, jak odfiltrowałem wiersze, te, które zostały odfiltrowane, powinny być oznaczone i przy następnej filtracji nie powinny być używane
JEDNAK, jeśli po filtracji oprogramowanie zebrało niewystarczającą liczbę numerów z określonymi filtrami, może mi zaproponować użycie poprzednich wierszy, które już zostały oznaczone jako użyte, z możliwością wskazania, ile dodać do pliku
po tym tworzy plik Excel lub csv z określoną liczbą numerów.
-
Mam doświadczenie w podobnych projektach DataScience, gdzie trzeba czytać i przetwarzać miliony wierszy. Specjalizuję się w rozwoju w Pythonie, gotów stworzyć dla Ciebie program do czytania + interfejs GUI do filtrowania i wyświetlania danych. Mogę pracować z różnymi formatami plików, takimi jak txt, csv, xlsx, json i innymi.
Jestem gotów zaproponować następujące rozwiązanie:
- autorski program w Pythonie do szybkiego czytania plików csv lub txt za pomocą pandas/polars;
- możemy rozważyć opcje zmiany formatu plików przed przetwarzaniem w celu przyspieszenia czytania lub przetwarzania (do csv lub import do bazy danych);
- wygodny interfejs GUI przez PyQT/tkinter z filtrowaniem i wizualizacją danych;
- eksport do dowolnego formatu po zakończeniu przetwarzania;
Pisz, możemy omówić, co jest niejasne i przystąpić do rozwoju!
-
Cześć! To bardzo interesujące i klasyczne zadanie w dziedzinie przetwarzania danych. Masz całkowitą rację: edytory tekstu, nawet tak potężne jak Notepad++, nie są przeznaczone do przetwarzania i filtrowania danych. Mogą wyświetlić plik, szybko go czytając po częściach, ale każda operacja "Znajdź" lub "Filtruj" spowoduje zawieszenie.
Problem, z którym się borykasz, to brak pamięci RAM. 20 milionów wierszy to zbyt wiele, aby załadować je do pamięci w całości do analizy.
Rozwiązanie, które proponuję, nie będzie się zawieszać i poradzi sobie z tym zadaniem.
-
Dokładnie przeczytałem Twoje wymagania i polecam przenieść wszystkie dane z plików csv do bazy danych, ponieważ tam będzie najłatwiej zrobić wszystko, czego potrzebujesz. Albo trzeba napisać skrypty w Pythonie do tego zadania.
Bardzo trudno ocenić pracę, nie widząc struktury plików. Czy wszystkie mają taką samą strukturę, czy są różne? Możesz przesłać kilka plików do zapoznania się?
Jestem gotów wszystko wykonać na wysokim poziomie.
Skontaktuj się ze mną.
-
Cześć, pracowałem nad Projektem "Folder": przetwarzałem pliki CSV z ponad 15 milionami wierszy, optymalizowałem filtrowanie i eksport do XLSX.
Jak chcesz priorytetowo przetwarzać wiersze: w kolejności czy wybiórczo, aby zapewnić szybkość i wygodę?
Proponuję się skontaktować, bezpłatnie doradzę Ci z technicznej strony i stworzymy plan rozwoju + opowiem o moim zespole!
-
1345 4 0 Świetne zapytanie — mam gotowe podejście techniczne, które bez zawieszeń obsługuje 10–20 mln wierszy i daje szybkie filtry + eksport.
Co zrobię
Otworzę ogromne pliki CSV/TXT bez zawieszeń: ładowanie wierszowe/kolumnowe i leniwe czytanie (bez pełnego wczytywania do pamięci).
Natychmiastowe filtrowanie według: miasta, wieku, daty urodzenia, dowolnych pól (multi-filtrowanie, AND/OR, zawiera/równa się/zasięgi).
Wybór N wierszy (w kolejności lub losowo) — na przykład dokładnie 500.
Eksport do CSV lub Excel (XLSX).
Oznaczanie “użytych” wierszy: nie bierzemy ich ponownie; jeśli brakuje — zaproponuję „uzupełnienie” z już użytych z wskazaniem, ile dodać.
Bardzo szybki podgląd dużych plików z paginacją (wirtualna tabela, nie blokująca UI).
…
Jak to będzie działać (pod maską)
Python + Polars/DuckDB do przetwarzania 10–20 mln wierszy ze streamingiem i predykcyjnym pushdownem.
Aplikacja desktopowa (PySide6/Qt): tabela z wirtualnym ładowaniem stron, natychmiastowe filtry, zapisane presety.
Indeks “użytych” wierszy — osobna lekka baza danych (SQLite) z kluczami według pliku i przesunięć/hashy: nie przepisujemy ogromnego pliku, ale pamiętamy, co już wydaliśmy.
Losowy wybór — deterministyczne/prawdziwie losowe próbkowanie (do wyboru).
TXT — analizujemy według separatora lub według wzoru (ustawię domyślnie, można zmienić w ustawieniach).
Zalety mojego podejścia
Nie zawiesza się na plikach 10–20 mln wierszy (streaming/leniwe ładowanie).
Filtry są bardzo szybkie (czytanie tylko potrzebnych kolumn).
“Użyte” wiersze są oznaczane bez nadpisywania źródła.
Gotowe na wzrost: później można dodać indeksy, konwersję do Parquet dla super szybkości.
Co otrzymasz
.exe/.app (przenośna wersja) + źródła.
Prosty interfejs:
1) Otwórz plik - 2) Wybierz filtry - 3) Podaj “500, kolejność/losowo” - 4) Zapisz CSV/XLSX.
Dziennik działań i możliwość ponownego uruchomienia ostatniego scenariusza.
Krótko o mnie
Programista Python, tworzę szybkie narzędzia do danych i boty. Mam doświadczenie z Flask/integracjami i przetwarzaniem dużych danych.
Jestem gotów od razu przystąpić do pracy. Jeśli prześlesz przykład jednego dużego pliku CSV/TXT (lub schemat kolumn) — przygotuję testową wersję demo pod Twoje przypadki.
-
2264 18 3 Dzień dobry. Zajmuję się programowaniem w Pythonie. Mogę stworzyć dla Państwa program do wygodnego i szybkiego przetwarzania dużych plików CSV, stos: Python + Pandas + SQLite + interfejs graficzny przez Streamlit (idealnie nadaje się do przetwarzania danych). Proszę pisać - omówimy szczegóły i od razu przystąpię do pracy.
-
316 1 0 Witam. Jestem gotów zrealizować Twój projekt. Napisz do mnie, a omówimy szczegóły.
-
82 Dzień dobry, można stworzyć mały program z możliwością graficznego interfejsu i przy wyborze dowolnego pliku oraz filtrowaniu, mogę to zrealizować w Pythonie + PyQt5.
-
1337 25 0 Zrobię na c++, będzie działać niezależnie od sublime, notepad czy czegokolwiek. Zgłaszajcie się do omówienia szczegółów zadania.
-
2810 10 0 Cześć 👋🏻
Jestem gotowa opracować program w Pythonie do przetwarzania dużych plików CSV i TXT (do dziesiątek milionów wierszy) bez zawieszania się.
Skrypt będzie otwierał pliki wiersz po wierszu, filtrował dane według potrzebnych kryteriów (miasto, wiek, data urodzenia itp.), uwzględniał limity wierszy (na przykład 500), oznaczał już wykorzystane rekordy i proponował uzupełnienie w przypadku niedoboru.
Wyniki są zapisywane w Excelu lub CSV, z możliwością ponownego filtrowania bez nakładania się.
Używam przetwarzania strumieniowego i optymalizacji pamięci (pandas/polars, chunksize), aby wszystko działało szybko nawet na słabym komputerze.
Termin realizacji — 3–5 dni, koszt — 5 000 zł.
Jestem gotowa omówić szczegóły i pokazać przykład demo. 💻
-
357 Witam! Jestem gotów zrealizować Twój projekt w Pythonie. Mogę stworzyć aplikację, która bez zawieszania otwiera duże pliki CSV/TXT (10–20 mln wierszy), wspiera filtrowanie według miasta, wieku, daty urodzenia itp., z możliwością wyboru liczby wierszy (w kolejności lub losowo). Zrealizuję również oznaczanie użytych wierszy, ponowne wykorzystanie przy braku danych oraz zapis w CSV lub Excel. Chciałbym doprecyzować szczegóły — format plików, przykłady danych oraz pożądany interfejs.
-
690 5 0 Cześć, Igor!
Chciałbym zadać ci kilka interesujących mnie pytań dotyczących pracy z takim tzw. Również byłoby dobrze zobaczyć przybliżoną strukturę plików, usłyszeć, jakie typy plików są ci potrzebne i inne.
Będę czekać!
-
656 9 0 Dobry wieczór, Igor!
Ogólnie zadanie jest jasne, aby dokładnie odpowiedzieć na pytania dotyczące terminów i ceny, chciałbym wyjaśnić kilka kwestii, które pojawiły się po analizie twojego zadania.
Piszesz w prywatnych wiadomościach — omówimy szczegóły i twoje życzenia.
-
172 1 1 Witaj! Jestem gotów zrealizować ten projekt, mam duże doświadczenie w tworzeniu różnych aplikacji.
-
691 8 0 mogę napisać w pythonie lub bash, możliwe z interfejsem webowym,
wieloletnie doświadczenie w przetwarzaniu plików tekstowych i innych,
-
5923 345 0 Rozważę przykład pliku, zaproponuję konkretną realizację programową.
-
6396 74 1 Dzień dobry. Mam duże doświadczenie w takich zadaniach. Zrobię filtry i zapis w dowolnym formacie. Potrzebuję bardziej szczegółowego opisu technicznego oraz przykładu danych. Będę zadowolony, mogąc pomóc.
-
1595 7 0 Nazywam się Roman i jestem w czołówce 5 deweloperów w kategorii „Sztuczna inteligencja i uczenie maszynowe” wśród ~1600 specjalistów na platformie. Gwarantuję: - Szybkie i wysokiej jakości wykonanie zadania - Ścisłe przestrzeganie terminów - Regularny kontakt przez cały proces Będę zadowolony, aby omówić szczegóły twojego projektu w prywatnych wiadomościach.
-
Добрый день, а взять что-то готовое? Может гит уже может что-то предложить?
-
Доброго дня!
Якщо я правильно зрозумів, то Вам необхідна утиліта для швидкого опрацювання великих файлів таблиць csv з функціонаом фільтрації, редагування та експорту в Excel/csv?
Задачка цікава, але хотілося б поглянути на файл прикладу, щоб зрозуміти деякі технічні нюанси... -
Можно увидеть образец файла для понимания? Выполнить не проблема, нужно более детальное описание задачи.
-
Aktualne zlecenia dla freelancerów w kategorii Bazy danych i SQL
Audyt bezpieczeństwa aplikacji internetowej i bazy danych dla niestandardowego CRM — specjalista BaaS / Database-as-API (PenetrPrzegląd projektu Obsługujemy platformę zarządzania relacjami z klientami (CRM) stworzoną na zamówienie, która prowadzi dwa biznesy usługowe w jednym systemie. Jest to nowoczesna aplikacja internetowa JavaScript wspierana przez bazę danych jako usługa (BaaS) i wdrożona na… Bazy danych i SQL, Testowanie i kontrola jakości ∙ 7 minut temu ∙ 1 oferta |
Synchronizacja baz danychSynchronizacja programów Microsoft Access i CRM SalesDrive. Przekazywanie danych z CRM do Microsoft Access na pierwszym etapie (zmiana statusu lejka). Przekazywanie danych z Microsoft Access do CRM na drugim etapie (zmiana statusu w programie). Bazy danych i SQL ∙ 5 godzin 59 minut temu ∙ 8 ofert |
Konfiguracja systemu kopii zapasowej i optymalizacja infrastruktury serwerowejCel prac: Zapewnienie niezawodnego przechowywania danych systemu CRM i aplikacji poprzez wdrożenie zautomatyzowanego systemu tworzenia kopii zapasowych (Backups), a także przeprowadzenie szeregu poprawek serwerowych w celu zwiększenia stabilności, bezpieczeństwa i wydajności… DevOps, Bazy danych i SQL ∙ 1 dzień 4 godziny temu ∙ 23 oferty |
System PIM
817 PLN
Trzeba zrobić system PIM. Liczba produktów — kilka milionów. Jest kilku dostawców, którzy podają dane w różnych formatach: csv, xml, API. Dane są ograniczone, często trzeba znajdować cechy produktów w innych źródłach i uzupełniać. Trzeba zrobić tabelę, w której będą… Bazy danych i SQL, Programowanie stron internetowych ∙ 1 dzień 6 godzin temu ∙ 43 oferty |
Integracja BAS szwejk 8
817 PLN
Dzień dobry, trzeba zintegrować BAS szwejk 8, podłączyć stronę i CRM sales drive, ustawić raporty i inne dane Bazy danych i SQL ∙ 1 dzień 7 godzin temu ∙ 10 ofert |