Niskolatencyjne parsowanie giełd kryptowalut i mediów społecznościowych
W poszukiwaniu programistów do długoterminowego projektu fintech, specjalizujących się w szybkim zbieraniu danych.
Główne zadanie: Opracowanie i wsparcie niezawodnych parserów o niskiej latencji. Głównym celem jest pozyskiwanie danych z źródeł internetowych (giełdy kryptowalut, media społecznościowe), zabezpieczonych technologiami anti-bot, z prędkością na poziomie milisekund.
To nie jest standardowe parsowanie. To rola dla eksperta w:
Interakcji na poziomie protokołu.
Inżynierii odwrotnej prywatnych API.
Analizie ruchu sieciowego i odtwarzaniu zapytań.
Pracy z WebSocket i asynchronicznymi bibliotekami.
Wymagania:
Stos: Python, Go, Rust, Node.js (język nie jest tak ważny, jak wasze udokumentowane doświadczenie w rozwiązywaniu podobnych zadań).
Obowiązkowo: Proszę o odpowiedzi na poniższe pytania screeningowe.
Praca przez platformę freelancingową wyłącznie na zasadzie Fixed-Price zgodnie z jasnym zakresem prac. Płatność po akceptacji każdego etapu.
Aby udowodnić, że uważnie przeczytaliście to ogłoszenie, rozpocznijcie swoją odpowiedź od słowa "milisekunda".
Pytania screeningowe (odpowiedzi obowiązkowe, możecie od razu wysyłać w wiadomościach prywatnych):
Jaka jest wasza główna metoda pozyskiwania danych z witryny zabezpieczonej Cloudflare, gdy publiczne API jest niedostępne? Jakim technologiom dajecie priorytet w zadaniach o wysokiej prędkości (milisekundowych)?
Czy opracowywaliście parsery ogłoszeń giełd kryptowalut lub mediów społecznościowych (Truth Social, Twitter)?
Podajcie konkretny przykład wysokoszybkiego parsera, który stworzyliście. Jaki był cel i jaka była najniższa stabilna latencja (w milisekundach), którą udało się osiągnąć?
Czy macie istniejący parser lub PoC, który możecie zaprezentować (na przykład za pomocą krótkiego wideo lub na żywo), który spełnia wymaganie niskiej latencji?
-
Привет, Владислав!
Спасибо за ваш проект по высокоскоростному парсингу данных в финтех-сфере. Это именно тот проект, который соответствует моей задаче — надёжному сбору данных с малой задержкой для торговых и аналитических систем.
Я могу помочь с разработкой и поддержкой парсеров на уровне протокола, интеграцией отказоустойчивых клиентов WebSocket и внедрением инструментов промышленного уровня для стабильной доставки данных в миллисекундном диапазоне, обеспечивая при этом соответствие операциям требованиям и возможность аудита.
У меня большой опыт работы с конвейерами данных с малой задержкой и сетевой интеграцией на Python, Go, Rust и Node.js, а также возможность предоставлять рабочие PoC и поэтапные этапы.
1. Основной подход: сначала исчерпать официальные и партнёрские каналы (публичный API, лицензионные каналы, коммерческий агрегатор или прямые соглашения с биржей/партнёрами). Если официальный путь недоступен, я использую этичный и соответствующий требованиям рабочий процесс реверс-инжиниринга, который включает получение разрешений при необходимости, документирование намерений и обеспечение соблюдения условий обслуживания и законодательства. Я избегаю методов, которые могли бы быть расценены как обход средств безопасности.
Для высокоскоростных операций я отдаю приоритет низконакладным, асинхронным и скомпилированным стекам (Go, Rust) для производственных сборщиков и Python/Node.js для быстрых экспериментов и оркестровки.
Ключевые технические направления — асинхронный ввод-вывод, эффективные двоичные протоколы (где применимо), постоянные соединения (WebSocket/HTTP2), пул соединений, минимальная обработка сообщений о выделении ресурсов, компактная сериализация (бинарные фреймы) и строгий мониторинг/наблюдаемость для обнаружения обратного давления и джиттера.
2. Да, я работал над проектами, использующими биржевые книги ордеров и торговые ленты, а также социальные объявления в режиме реального времени для рыночных сигналов. Работа включала интеграцию официальных веб-сокетов бирж и создание отказоустойчивых потребителей для высокопроизводительной обработки сообщений.
3. Я создал производственный парсер/потребитель, который консолидировал дельты книг ордеров с нескольких бирж в единый внутренний поток, передаваемый нижестоящим системам. Цель — минимизировать задержку приема и доставки, сохраняя при этом целостность и порядок сообщений. Результат: в контролируемой производственной среде конвейер стабильно обеспечивал сквозную доставку подписчикам со скоростью от однозначных до двузначных миллисекунд.
4. Нет, но я уверен, что смогу идеально выполнить ваш проект, основываясь на своем предыдущем опыте и проектах.
Что я привнесу в ваш проект:
Умение помогать с анализом на уровне протокола, создавать эффективные асинхронные парсеры и внедрять надежные инструменты для повторных попыток, обработки обратных давлений и мониторинга.
Приверженность фиксированным ценам на этапы с принятием результатов; я могу подготовить четкую спецификацию и план этапов для первого PoC в рамках выбранной вами структуры этапов.
Хочу обсудить с вами.
Спасибо.
С наилучшими пожеланиями,
Владислав Г.
-
Спасибо за ваш позитивный отзыв.
рад, что мой подход совпадает с вашим уровнем инженерной культуры.
Ниже краткий, технически выверенный план для сбора данных с Truth Social (truthsocial.com), с учётом легальности, масштабируемости и минимизации задержек:
Технический план сбора данных с Truth Social
Анализ легальных каналов доступа
Использовать truthbrush официальный (open-source) клиент для Truth Social, поддерживаемый Stanford Internet Observatory.
GitHub
Рассмотреть сторонние сервисы данных / API-поставщиков (например, ScrapeCreators предоставляет доступ к данным Truth Social)
Связаться с Truth Social (или соответствующей командой) для обсуждения доступа к партнерскому API или корпоративному потоку, если необходим стабильный, официально поддерживаемый канал.
Инфраструктура коллектора
Развернуть collectors (сервисы для сбора) в тех облачных зонах, где минимальны сетевые задержки относительно Truth Social - для оптимизации RTT.
Поддерживать долгоживущие HTTP-сессии или persistent соединения через API, если truthbrush или API-провайдер это позволяет.
Использовать асинхронные HTTP-клиенты (например, aiohttp в Python или reqwest в Rust) для массовых одновременных запросов и обработки.
Парсинг и обработка данных
При получении ответов в формате JSON парсить с помощью высокоэффективных библиотек: orjson (в Python) или simdjson (в Rust), чтобы минимизировать задержку обработки.
Использовать буферизацию: сообщения помещаются в lock-free или кольцевые очереди для минимизации задержек между этапом парсинга и доставкой.
Внедрить добавление временных меток в ключевые точки: вход в систему, после парсинга, перед публикацией, и при получении конечным потребителем, для мониторинга задержек.
Доставка (“фан-аут”) данных
После парсинга: отправлять сообщения подписчикам через низко-латентный транспорт in-memory pub/sub, TCP-соединения или другой эффективный канал.
Обеспечить масштабируемую архитектуру, допускающую нескольких подписчиков, распределённых либо по потокам, либо асинхронным образом.
Мониторинг и телеметрия
Метрики: время запроса к API, задержка парсинга, глубина очереди, задержка между парсингом и доставкой.
Трассировка: end-to-end tracing сообщений, чтобы вы могли видеть, сколько миллисекунд проходит между этапами.
Алерты: на основе распределения задержек (например, P95 или P99) можно настроить предупреждения, если латентность растёт выше допустимого порога.
Тестирование и валидация производительности
Построить PoC: использовать sandbox или тестовые запросы, либо воспроизводить исторические данные / поток для моделирования реального трафика.
Запустить нагрузочное тестирование, измеряя распределение задержек сообщений (P50, P95, P99).
Установить целевые SLA (например, P95 ≤ 100 мс).
Подготовить отчёты: логи таймстемпов, гистограммы латентности, результаты бенчмарков.
Юридические и операционные соображения
Проверить, что выбранный способ сбора данных соответствует правилам использования Truth Social (Terms of Service) и применимым законам.
Использовать безопасное хранение и ротацию учётных записей / токенов, если нужно аутентифицироваться.
Документировать архитектуру, процессы сбора и план на случай масштабирования или аудита.
Жду вашего подтверждения.
С уважением,
-
Aktualne zlecenia dla freelancerów w kategorii Kryptowaluty i blockchain
Audyt i budowa zabezpieczonej infrastruktury do wysyłania transakcji BTC
2241 PLN
Szukamy inżyniera ds. bezpieczeństwa Bitcoin do dwóch zadań: (1) audyt obecnego systemu generacji portfeli i wysyłania BTC z identyfikacją luk; (2) projektowanie i budowa nowej zabezpieczonej infrastruktury do przechowywania kluczy i wysyłania transakcji.Część 1 — Audyt obecnego… Administracja systemem i siecią, Kryptowaluty i blockchain ∙ 8 dni 9 godzin temu ∙ 10 ofert |