Создать программу или скрипт для питона /notepad++ или другого приложения для фильтрации данных
есть много файлов csv.в которых в каждом примерно по 10-20 млн строк
sublime text не справляется с открытием такого количества
а вот notepad++ быстро открывает
так же должен уметь открывать txt
рассмотрю ваши предложения ,возможно скрипт для подобной программы с помощью питона
или отдельное приложение
главная задача-что бы приложение смогло открывать такие большие файлы ,работать не зависая
после того как файл открыт,мне нужна возможность фильтрации данных
по городу , возрасту ,дате рождения или других данных которые я укажу
так же с указанием какое-количество строк мне нужно собрать,к примеру 500
софт должен собрать эти 500 строк(нужна возможность указать сбор по порядку или в разброс) по нужным фильтрам,я должен иметь возможность сохранить его в ексель или csv
после того как я отфильтровал строки,те,которые отфильтровались-должны помечаться,и при следующей фильтрации не использоваться
НО,если после фильтрации софт собрал недостаточное кол-во номеров с указанными фильтрами,он может мне предложить использовать предыдущие строки,которые уже помечены как использованы,с возможностью указать сколько добавить к файлу
после этого он создает ексель или csv файл с указанным количеством номеров.
-
У меня есть опыт в подобных проектах DataScience, где нужно читать и обрабатывать миллионы строк. Специализируюсь на разработке на Python, готов разработать для вас программу для чтения + GUI интерфейс для фильтрации и отображения данных. Могу работать с различными форматами файлов, будь то txt, csv, xlsx, json или другие.
Готов предложить следующее решение:
- самописная программа на Python для быстрого чтения файлов csv или txt с помощью pandas/polars;
- можем рассмотреть варианты изменения формата файлов перед обработкой для ускорения чтения или обработки (в csv, или импорт в базу данных);
- удобный GUI интерфейс через PyQT/tkinter с фильтрацией и визуализацией данных;
- экспорт в любой формат по завершении обработки;
Пишите, можем обсудить, что непонятно, и приступить к разработке!
-
Здравствуйте! Это очень интересная и классическая задача в области обработки данных. Вы совершенно правы: текстовые редакторы, даже такие мощные, как Notepad++, не предназначены для обработки и фильтрации данных. Они могут отобразить файл, быстро прочитав его по частям, но любая операция "Найти" или "Отфильтровать" вызовет зависание.
Проблема, с которой вы столкнулись, — это нехватка оперативной памяти (RAM). 20 миллионов строк — это слишком много, чтобы загрузить их в память целиком для анализа.
Решение, которое я предлагаю, не будет зависать и справится с этой задачей.
-
Я уважно прочитал Ваше ТЗ и рекомендую Вам все данные из csv файлов перенести в базу данных, потому что там будет проще делать все, что Вам нужно. Или нужно писать Python скрипты для этой задачи.
Еще очень трудно оценить работу, не видя структуру файлов. У всех структура одинаковая или разная? Можете скинуть пару файлов для ознакомления?
Готов качественно все выполнить. Обращайтесь.
-
Привет, я работал над Проектом "Folder": обрабатывал файлы CSV с более чем 15 миллионами строк, оптимизировал фильтрацию и экспорт в XLSX.
Как вы хотите приоритизировать обработку строк: по порядку или выборочно, чтобы обеспечить скорость и удобство?
Предлагаю связаться, я бесплатно проконсультирую вас с технической стороны и составим план разработки + расскажу о моей команде!
-
1345 4 0 Отличный запрос — у меня есть готовый техподход, который без зависаний тянет 10–20 млн строк и даёт быстрые фильтры + выгрузку.
Что сделаю
Открою огромные CSV/TXT без зависаний: построчная/колоночная загрузка и ленивое чтение (без полного чтения в память).
Мгновенная фильтрация по: город, возраст, дата рождения, любые поля (мульти-фильтры, AND/OR, contains/equals/диапазоны).
Отбор N строк (по порядку или вразброс) — например, ровно 500.
Экспорт в CSV или Excel (XLSX).
Маркировка “использованных” строк: повторно не берём; если не хватает — предложу «добрать» из уже использованных с указанием, сколько дозалить.
Очень быстрый просмотр больших файлов с пагинацией (виртуальная таблица, не блокирующая UI).
…
Как это будет работать (под капотом)
Python + Polars/DuckDB для обработки 10–20 млн строк со стримингом и предикатным пушдауном.
Десктоп-приложение (PySide6/Qt): таблица с виртуальной подгрузкой страниц, мгновенные фильтры, сохранённые пресеты.
Индекс “использованных” строк — отдельная лёгкая БД (SQLite) с ключами по файлу и смещениям/хэшам: не переписываем огромный файл, но помним, что уже отдали.
Случайный отбор — детерминированное/по-настоящему рандомное семплирование (на выбор).
TXT — разбираем по разделителю или по шаблону (задам по умолчанию, можно сменить в настройках).
Плюсы моего подхода
Не падает на файлах 10–20 млн строк (стриминг/ленивая загрузка).
Фильтры очень быстрые (чтение только нужных столбцов).
“Использованные” строки метятся без перезаписи исходника.
Готово к росту: позже можно добавить индексы, перевод в Parquet для сверхскорости.
Что получите
.exe/.app (портативная сборка) + исходники.
Простой интерфейс:
Открыть файл - 2) Выбрать фильтры - 3) Указать “500, порядок/рандом” - 4) Сохранить CSV/XLSX.
Журнал действий и повтор запуска последнего сценария.
Коротко обо мне
Python-разработчик, делаю быстрые data-инструменты и боты. Есть опыт с Flask/интеграциями и обработкой больших данных.
Готов сразу приступить. Если пришлёте пример одного большого CSV/TXT (или схему колонок) — соберу тестовую демо-сборку под ваши кейсы.
-
2264 18 3 Добрый день. Занимаюсь разработкой на Python. Могу разработать для вас программу для удобной и быстрой обработки больших csv файлов, стек: Python + Pandas + SQLite + графический интерфейс через Streamlit (идеально подходит для обработки данных). Пишите - обсудим детали и сразу приступлю к работе.
-
316 1 0 Здравствуйте. Готов выполнить Ваш проект. Напишите мне и мы обсудим подробности.
-
82 Добрый день, можно будет создать небольшую программу с возможностью графической оболочкой и при выборе любого файла и фильтрации, могу оформить Вам на Python+PyQt5
-
1337 25 0 Сделаю на c++, будет работать независимо от sublime, notepad или чего-либо еще. Обращайтесь для обсуждения деталей задания.
-
2810 10 0 Привет 👋🏻
Готова разработать программу на Python для обработки больших CSV и TXT-файлов (до десятков миллионов строк) без зависаний.
Скрипт будет открывать файлы построчно, фильтровать данные по нужным критериям (город, возраст, дата рождения и т.д.), учитывать лимиты строк (например, 500), помечать уже использованные записи и предлагать добор при нехватке.
Результаты сохраняются в Excel или CSV, с возможностью повторной фильтрации без пересечений.
Использую потоковую обработку и оптимизацию памяти (pandas/polars, chunksize), чтобы всё работало быстро даже на слабом ПК.
Срок выполнения — 3–5 дней, стоимость — 5 000 грн.
Готова обсудить детали и показать демо-пример. 💻
-
357 Здравствуйте! Готов реализовать ваш проект на Python. Могу создать приложение, которое без зависаний открывает большие CSV/TXT файлы (10–20 миллионов строк), поддерживает фильтрацию по городу, возрасту, дате рождения и т.д., с возможностью выбора количества строк (по порядку или в случайном порядке). Также реализую обозначение использованных строк, повторное использование при нехватке данных и сохранение в CSV или Excel. Хотел бы уточнить детали — формат файлов, примеры данных и желаемый интерфейс.
-
690 5 0 Здравствуйте, Игорь!
Хотелось бы задать вам пару интересующих мне вопросов для работы с таким тз. Также было бы хорошо увидеть приблизительную структуру файлов, услышать какие типы файлов вам нужны и прочее.
Буду ждать!
-
656 9 0 Добрый вечер, Игорь!
В целом задача ясна, для точного ответа по срокам и цене, хотелось бы уточнить некоторые вопросы, которые у меня возникли после анализа вашей задачи.
Пишите в приватные сообщения — обсудим детали и ваши пожелания.
-
172 1 1 Здравствуйте! Готов выполнить данный проект есть большой опыт разработки различных приложений
-
691 8 0 могу написать на python или bash , возможно с веб интерфесом ,
многолетний опыт обработки текстовых файлов , и других ,
-
5928 345 0 Рассмотрю пример файла, предложу конкретную программную реализацию
-
6396 74 1 Добрый день. У меня большой опыт таких задач. Сделаю фильтры и сохранение в любой формат. Нужно более детальное ТЗ и образец данных. Буду рад помочь.
-
1595 7 0 Меня зовут Роман, и я вхожу в топ-5 разработчиков в категории «Искусственный интеллект и машинное обучение» среди ~1600 специалистов на платформе. Гарантирую: - Быстрое и качественное выполнение задания - Четкое соблюдение дедлайнов - Регулярная связь на протяжении всего процесса Буду рад обсудить детали вашего проекта в личных сообщениях.
-
Добрый день, а взять что-то готовое? Может гит уже может что-то предложить?
-
Доброго дня!
Якщо я правильно зрозумів, то Вам необхідна утиліта для швидкого опрацювання великих файлів таблиць csv з функціонаом фільтрації, редагування та експорту в Excel/csv?
Задачка цікава, але хотілося б поглянути на файл прикладу, щоб зрозуміти деякі технічні нюанси... -
Можно увидеть образец файла для понимания? Выполнить не проблема, нужно более детальное описание задачи.
-
Актуальные фриланс-проекты в категории Python
Создать бота в телеграм (кабинет продавца)
700 UAH
Всем привет Нужен личный кабинет пользователя в формате бота в телеграм После запуска и прохождения опроса, под пользователя создается личный кабинет (его допускает в систему на дальнейшие кнопки) Чтобы у каждого, кто зарегистрировался, высвечивался в отдельном меню Уникальный… Python, Разработка ботов ∙ 19 часов 33 минуты назад ∙ 90 ставок |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 1 день 5 часов назад ∙ 19 ставок |
Розработка Тик-Ток фермы (контент-завод)Необзодимо разработать систему для централизованного управления несколькими TikTok-аккаунтами с автоматической публикацией контента, использованием индивидуальных прокси и имитацией естественной активности аккаунтов. Функциональные требования1. Управление аккаунтами Добавление… Python, Разработка ботов ∙ 1 день 17 часов назад ∙ 17 ставок |
Улучшить работу Claude Code и работа с написанием софтаСейчас разрабатываю СРМ и Аналитику, софт. Делаю через Клод Код, но понимаю что результаты не лучшие в плане изменений. Есть 2 задачи - Нужно помочь сделать пресет по навыкам, мд и так далее чтобы улучшить качество. Взять проверенные с которыми работали, а не с интернета… AI и машинное обучение, Python ∙ 1 день 23 часа назад ∙ 23 ставки |
Система OCRНужна система распознавания текста на почтовых конвертах (индекс кому - только числа). Текст иногда может быть рукописным. Распознавание марок (подсчет количества и номинала) Python ∙ 2 дня 2 часа назад ∙ 25 ставок |