Głosowy asystent AI, dla krajów Azji Centralnej.
Wakaty: Lead AI / Fullstack Engineer — Projekt "Cataleya" (Voice-to-Voice AI)
Nazwa projektu: Cataleya
Format: Praca projektowa / Zdalnie (z dostępem do lokalnego klastra)
Stos technologiczny: PersonaPlex (Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App.
Lokalizacja sprzętu: Uzbekistan Kazachstan (TAS-IX), klastry oparte na NVIDIA RTX 4090.
Opis projektu
Cataleya to innowacyjny multimodalny ekosystem „Głos-w-Głos” (S2S), tworzący efekt żywego komunikowania się. Opracowujemy asystenta AI, łączącego role eksperckiego nauczyciela (chemia, historia, biologia), empatycznego rozmówcy i tłumacza symultanicznego. System działa bezpośrednio z tokenami audio, zapewniając bezprecedensową szybkość interakcji.
Aktualny stan: Podstawowy model (w języku angielskim) działa stabilnie. Należy dostosować go do specyfiki regionalnej i zapakować w zaawansowaną aplikację.
Kluczowe zadania
1. Core AI & ML (Dostosowanie i Inteligencja)
Wielojęzyczność: Krzyżowy Fine-tuning modelu dla natywnego wsparcia języka rosyjskiego, uzbeckiego (z uwzględnieniem dialektów) i kazachskiego.
Niska latencja: Optymalizacja inferencji w celu osiągnięcia opóźnienia odpowiedzi 0.07 sek.
Smart RAG (100 GB): Budowa wektorowej bazy wiedzy na podstawie materiałów edukacyjnych z mechanizmem „potrójnej weryfikacji” danych w celu wyeliminowania halucynacji.
Stos NVIDIA: Optymalizacja inferencji pod RTX 4090 (vLLM, TensorRT-LLM, kwantyzacja INT4/FP8).
2. Telegram Mini App & Real-time Web
Strumieniowe audio: Realizacja przesyłania dźwięku w czasie rzeczywistym przez WebRTC / WebSockets (bez użycia standardowych wiadomości głosowych).
Full-Duplex UI: Interfejs wspierający przerywanie (Interruptibility) z natychmiastową reakcją AI.
Vocal ID: Wdrożenie biometrii głosowej do autoryzacji użytkowników.
Billing: Integracja systemów płatności (Payme, Click) do zarządzania subskrypcjami.
3. Architektura i Optymalizacja
Highload: Projektowanie systemu z możliwością poziomego skalowania.
AEC & Noise Suppression: Programowe echo- i tłumienie hałasu dla jakościowej komunikacji w każdej atmosferze.
Lokalizacja ruchu: Optymalizacja routingu do pracy w sieci TAS-IX.
Wymagania dla kandydata
Inżynier AI / ML:
Doświadczenie w pracy z modelami mowy End-to-end (Moshi, AudioLM lub analogi).
Swobodne posługiwanie się PyTorch i doświadczenie w pracy z transformatorami.
Umiejętności dostosowywania modeli (Fine-tuning) dla nowych grup językowych.
Umiejętność pracy z CUDA 12.x i bibliotekami optymalizacji NVIDIA.
Fullstack Programista:
Ekspercka wiedza WebRTC / WebSockets do strumieniowego przesyłania audio.
Doświadczenie w tworzeniu Telegram Mini Apps (TMA).
Profesjonalna znajomość FastAPI i React / Next.js.
Zrozumienie specyfiki systemów o niskiej latencji.
Wynagrodzenie do uzgodnienia po dyskusji