Голосовий AI асистент для країн Центральної Азії.
Вакансія: Lead AI / Fullstack Engineer — Проект "Cataleya" (Voice-to-Voice AI)
Назва проекту: Cataleya
Формат: Проектна робота / Віддалено (з доступом до локального кластера)
Стек: PersonaPlex (Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App.
Локація заліза: Узбекистан Казахстан (TAS-IX), кластери на базі NVIDIA RTX 4090.
Опис проекту
Cataleya — це інноваційна мультимодальна екосистема «Голос-в-Голос» (S2S), що створює ефект живого спілкування. Ми розробляємо ІІ-асистента, що поєднує ролі експертного вчителя (хімія, історія, біологія), емпатичного співрозмовника та синхронного перекладача. Система працює безпосередньо з аудіо-токенами, забезпечуючи безпрецедентну швидкість взаємодії.
Поточний стан: Базова модель (англійською мовою) працює стабільно. Необхідно адаптувати її під регіональну специфіку та упакувати в високотехнологічний додаток.
Ключові завдання
1. Core AI & ML (Адаптація та Інтелект)
Мультимовність: Крос-мовний Fine-tuning моделі для нативної підтримки російської, узбецької (з урахуванням діалектів) та казахської мов.
Low Latency: Оптимізація інференсу для досягнення затримки відповіді 0.07 сек.
Smart RAG (100 ГБ): Побудова векторної бази знань по навчальним матеріалам з механізмом «троякої перевірки» даних для виключення галюцинацій.
NVIDIA Stack: Оптимізація інференсу під RTX 4090 (vLLM, TensorRT-LLM, квантування INT4/FP8).
2. Telegram Mini App & Real-time Web
Потокове аудіо: Реалізація передачі звуку в реальному часі через WebRTC / WebSockets (без використання стандартних голосових повідомлень).
Full-Duplex UI: Інтерфейс, що підтримує переривання (Interruptibility) з миттєвою реакцією ІІ.
Vocal ID: Впровадження голосової біометрії для авторизації користувачів.
Білінг: Інтеграція платіжних систем (Payme, Click) для управління підписками.
3. Архітектура та Оптимізація
Highload: Проектування системи з можливістю горизонтального масштабування.
AEC & Noise Suppression: Програмне ехо- та шумоподавлення для якісного спілкування в будь-якому середовищі.
Локалізація трафіку: Оптимізація маршрутизації для роботи всередині мережі TAS-IX.
Вимоги до кандидата
AI / ML Інженер:
Досвід роботи з End-to-end мовними моделями (Moshi, AudioLM або аналоги).
Вільне володіння PyTorch та досвід роботи з трансформерами.
Навички дообучення моделей (Fine-tuning) для нових мовних груп.
Уміння працювати з CUDA 12.x та бібліотеками оптимізації NVIDIA.
Fullstack Розробник:
Експертні знання WebRTC / WebSockets для потокової передачі аудіо.
Досвід розробки Telegram Mini Apps (TMA).
Професійне володіння FastAPI та React / Next.js.
Розуміння специфіки Low-latency систем.
Оплата за погодженням після обговорення