Решить проблему с парсингом лотов с Copart и их отображением в каталоге после индексации в El..
1. Описание задания:
• Необходимо исправить проблему, когда лоты с аукциона Copart парсятся через CSV, но не отображаются в каталоге до того, как будут проиндексированы в Elasticsearch.
2. Цели:
• Обеспечить корректный парсинг лотов с Copart через CSV.
• Автоматически индексировать лоты в Elasticsearch и отображать их в каталоге без задержек.
• Обеспечить сохранение всех данных и изображений в базе данных и их корректную индексацию.
3. Этапы работы:
3.1. Анализ текущего процесса парсинга:
• Изучить текущий процесс парсинга лотов с Copart (инструмент или скрипт, который используется).
• Оценить формат данных (CSV), который используется для парсинга, и процесс преобразования этих данных в Parquet.
• Определить, как передаются данные из Parquet в базу данных (Postgres/MSSQL).
3.2. Анализ обработки и индексации данных:
• Просмотреть процесс индексации данных в Elasticsearch.
• Проверить конфигурацию Elasticsearch (индексы, типы данных, шардирование).
• Проанализировать логи индексации для выявления причин задержки или тайм-аута.
3.3. Исправление проблемы с парсингом и индексацией:
• Исправить процесс обработки CSV, чтобы данные корректно индексировались в Elasticsearch.
• Обеспечить правильную передачу и обработку изображений (особенно HD-версии) в базе данных и во время индексации.
• Настроить контроль за индексацией и проверить, корректно ли лоты появляются в каталоге после обработки.
3.4. Исправление проблем с зависанием файлов Copart:
• Изучить проблему тайм-аута при загрузке файлов с Copart.
• Определить, почему процесс загрузки зависает и решить это (возможно, из-за изменений на стороне Copart или проблем с соединением).
• Проверить и настроить логирование процесса, чтобы избежать таких проблем в будущем.
4. Технические требования:
• Владение базовыми знаниями по работе с базами данных (Postgres, MSSQL) и индексации в Elasticsearch.
• Понимание принципов парсинга данных и работы с форматами CSV и Parquet.
• Доступ к логам процессов парсинга, индексации и базы данных.
5. Критерии выполнения:
• Лоты с аукциона Copart должны парситься без задержек и сразу отображаться в каталоге после индексации в Elasticsearch.
• Все изображения лотов должны корректно сохраняться в базе данных и быть доступными в высоком качестве (HD).
• Тайм-аут при загрузке файлов с Copart должен быть устранен.
-
1094 10 0 Добрый вечер!
У меня есть API одной команды, который очень помогает быстро парсить Copart/Iaai.
Пример есть в портфолио.
Пишите, обсудим детали и начнем!
С Уважением, Андрей!
-
8788 60 0 1 Привет!
У нас есть опыт в парсинге и интеграции с Elasticsearch. Быстро исправим проблемы с индексацией, оптимизируем процессы и обеспечим стабильную работу.
Наша ставка 20$ в час
Пишу на Python. Занимаю 3-е место на платформе по этому языку.
Портфолио:Freelancehunt
-
Valeriu Y. company
парсинг через cvs думаю не очень хорошая идея, там много данных отсуствуют, рекомендую лучше использовать готовые решения, что-то типо carstat.dev
насчет postgresql, думаю данные можно писать сразу в БД и elasticsearch, без использования parquet
объем данных не такой велик чтоб использовать parquet -
Актуальные фриланс-проекты в категории Python
~5 микросервисов на FastAPI + правки и рефакторинг
15 719 UAH
Есть проект состоящий примерно из ~11 микросервисов на FastAPI с интеграциями, который более, чем на половину готов. Задача доделать остальные ~5 микросервисов (более конкретно - subscription/billing и интеграция с Revenuecat, abuse protection для биллинга, Notifications,… Python, Веб-программирование ∙ 52 минуты назад ∙ 12 ставок |
Power BI
700 UAH
Дашборд работает на гугл сервере, нужно перенести всю логику+код Какие нужны скиллы: развертывание etl процессов на linux сервере + работа с BigQuery и Postgre Есть рабочий код, который работает на google, где есть сама БД, нужно перенести на другой сервер, возможно переписать… Python, Базы данных и SQL ∙ 1 день 6 часов назад ∙ 15 ставок |
Телеграм-бот для найма/поиска работников. Для поиска работы
1100 UAH
1. Общая концепция Создание Telegram-бота для автоматизации подбора персонала и двустороннего поиска работы. Система работает по принципу активного отклика и взаимного подтверждения интереса (Double Opt-In). В системе предусмотрены две роли: Работодатель (Владелец фирмы) и… Python, Разработка ботов ∙ 2 дня 14 часов назад ∙ 91 ставка |
Техническая поддержка веб-платформы (Python/Django)Есть работающий веб-проект, нужно поддерживать и постепенно приводить в порядок, без переписывания с нуля. Стек проекта: Backend: Python, Django, Django Rest Framework Frontend: Next.js База данных: PostgreSQL Инфраструктура: AWS (EC2), Nginx Есть интеграции с внешними API… Python, Веб-программирование ∙ 2 дня 16 часов назад ∙ 72 ставки |
Создание приложенияЖелаю создать мобильное приложение для общения, в приложении должны быть аудио, видео звонок, создание групповых чатов, возможность синхронизировать с контактами телефона, настройками аккаунта: привязка по email, 2fa, номеру телефона, возможность настраивать уведомления… Java, Python ∙ 4 дня 15 часов назад ∙ 39 ставок |