Голосовой AI assistant, для стран центр Азии.
149 737 UAHВакансия: Lead AI / Fullstack Engineer — Проект "Cataleya" (Voice-to-Voice AI)
Название проекта: Cataleya
Формат: Проектная работа / Удаленно (с доступом к локальному кластеру)
Стек: PersonaPlex (Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App.
Локация железа: Узбекистан Казахстан (TAS-IX), кластеры на базе NVIDIA RTX 4090.
Описание проекта
Cataleya — это инновационная мультимодальная экосистема «Голос-в-Голос» (S2S), создающая эффект живого общения. Мы разрабатываем ИИ-ассистента, совмещающего роли экспертного учителя (химия, история, биология), эмпатичного собеседника и синхронного переводчика. Система работает напрямую с аудио-токенами, обеспечивая беспрецедентную скорость взаимодействия.
Текущее состояние: Базовая модель (на английском языке) работает стабильно. Необходимо адаптировать ее под региональную специфику и упаковать в высокотехнологичное приложение.
Ключевые задачи
1. Core AI & ML (Адаптация и Интеллект)
Мультиязычность: Кросс-языковой Fine-tuning модели для нативной поддержки русского, узбекского (с учетом диалектов) и казахского языков.
Low Latency: Оптимизация инференса для достижения задержки ответа 0.07 сек.
Smart RAG (100 ГБ): Построение векторной базы знаний по учебным материалам с механизмом «тройной проверки» данных для исключения галлюцинаций.
NVIDIA Stack: Оптимизация инференса под RTX 4090 (vLLM, TensorRT-LLM, квантование INT4/FP8).
2. Telegram Mini App & Real-time Web
Потоковое аудио: Реализация передачи звука в реальном времени через WebRTC / WebSockets (без использования стандартных голосовых сообщений).
Full-Duplex UI: Интерфейс, поддерживающий прерывания (Interruptibility) с мгновенной реакцией ИИ.
Vocal ID: Внедрение голосовой биометрии для авторизации пользователей.
Биллинг: Интеграция платежных систем (Payme, Click) для управления подписками.
3. Архитектура и Оптимизация
Highload: Проектирование системы с возможностью горизонтального масштабирования.
AEC & Noise Suppression: Программное эхо- и шумоподавление для качественного общения в любой среде.
Локализация трафика: Оптимизация маршрутизации для работы внутри сети TAS-IX.
Требования к кандидату
AI / ML Инженер:
Опыт работы с End-to-end речевыми моделями (Moshi, AudioLM или аналоги).
Свободное владение PyTorch и опыт работы с трансформерами.
Навыки дообучения моделей (Fine-tuning) для новых языковых групп.
Умение работать с CUDA 12.x и библиотеками оптимизации NVIDIA.
Fullstack Разработчик:
Экспертные знания WebRTC / WebSockets для потоковой передачи аудио.
Опыт разработки Telegram Mini Apps (TMA).
Профессиональное владение FastAPI и React / Next.js.
Понимание специфики Low-latency систем.
Оплата по согласованию после обсуждения