Cataleya (Sztuczna inteligencja głosowa)
Stos technologii: PersonaPlex (architektura oparta na Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App (TMA).
Lokalizacja sprzętu: Uzbekistan i Kazachstan (sieć TAS-IX), klastry oparte na NVIDIA RTX 4090.
- Wielojęzyczność: Dostosowanie (fine-tuning) modelu w celu zapewnienia natywnego poziomu wsparcia dla języka uzbeckiego (w tym regionalne dialekty), kazachskiego i rosyjskiego.
- Optymalizacja opóźnienia: Optymalizacja potoków inferencyjnych w celu osiągnięcia docelowego opóźnienia odpowiedzi w 0,07 sekundy.
- Smart RAG (100 GB): Architektura wektorowej bazy wiedzy dla materiałów edukacyjnych z wdrożeniem mechanizmu „potrójnej weryfikacji” w celu wyeliminowania halucynacji.
- Stos NVIDIA: Optymalizacja inferencji dla środowiska RTX 4090 z wykorzystaniem vLLM, TensorRT-LLM i kwantyzacji INT4/FP8.
- Streaming audio: Realizacja transmisji dźwięku w czasie rzeczywistym z niskim opóźnieniem przez WebRTC / WebSockets (wykraczając poza standardowe protokoły wiadomości głosowych).
- Interfejs Full-Duplex: Opracowanie interfejsu z obsługą przerywalności (interruptibility), umożliwiającego AI natychmiastową reakcję, gdy użytkownik go przerywa.
- Vocal ID: Integracja biometrii głosowej dla bezpiecznej autoryzacji użytkowników.
- Billing: Integracja lokalnych bramek płatniczych (Payme, Click) do zarządzania subskrypcjami.
- Highload Design: Projektowanie systemu o poziomej skalowalności, zdolnego do obsługi wysokich obciążeń konkurencyjnych użytkowników.
- Przetwarzanie sygnałów: Wdrożenie programowego tłumienia echa (AEC) i tłumienia hałasu w celu zapewnienia wysokiej jakości komunikacji.
- Lokalizacja ruchu: Optymalizacja protokołów routingu w celu maksymalizacji wydajności w sieci TAS-IX.
- Wymagania dla kandydata
- Potwierdzone doświadczenie w pracy z modelami mowy End-to-end (E2E) (Moshi, AudioLM lub analogi).
- Głębokie zrozumienie PyTorch i architektur Transformer.
- Praktyczne doświadczenie w fine-tuningu modeli LLM/S2S dla nowych grup językowych.
- Ekspertyza w CUDA 12.x i bibliotekach optymalizacji NVIDIA.
- Ekspert w WebRTC / WebSockets do transmisji mediów w czasie rzeczywistym.
- Doświadczenie w tworzeniu Telegram Mini Apps (TMA).
- Profesjonalna znajomość FastAPI i React / Next.js.
- Głębokie zrozumienie ograniczeń i wymagań systemów o niskim opóźnieniu (Low-latency).
-
11 dni8180 PLN
172 1 1 11 dni8180 PLNWitaj! Jestem gotów zrealizować ten projekt, mam duże doświadczenie w tworzeniu różnych aplikacji.
-
20 dni9295 PLN
1117 4 0 20 dni9295 PLNCześć!
Cataleya brzmi ekscytująco, a ja również rozumiem, jak trudno jest osiągnąć naprawdę naturalne brzmienie mowy. Pracowałem z modelami opartymi na PyTorch i procesami przetwarzania dźwięku w czasie rzeczywistym, i mogę pomóc twojemu zespołowi w starannym dopracowaniu opóźnienia, stabilności i całego procesu od mikrofonu do GPU i do mówiącego.
Zacząłbym od małych i praktycznych kroków. Najpierw przeprowadziłbym profilowanie obecnej ścieżki przetwarzania języka angielskiego od początku do końca i zanotowałbym, gdzie marnuje się czas na przechwytywanie, przetwarzanie tokenów, wyjście i strumieniowanie. Następnie zająłbym się największymi opóźnieniami jedno po drugim, zapewniając łatwe do weryfikacji zmiany i bezpieczne wdrożenie na waszych klastrach 4090. Dla języków uzbeckiego, kazachskiego i rosyjskiego pomógłbym stworzyć prosty zestaw testowy, obejmujący regionalne wzorce mowy, aby dostrajanie opierało się na rzeczywistych przykładach, a nie tylko na ogólnych oszacowaniach.
Jeszcze jeden prosty, ale przydatny pomysł, który mogę dodać, to wewnętrzna reprezentacja śledzenia opóźnienia dla zespołu. Umożliwia to uzyskanie krótkiej analizy każdego wywołania, aby określić, czy spowolnienie jest spowodowane pracą WebRTC, serwerem czy procesorem graficznym. To znacznie upraszcza bieżące ustawienia, nie komplikując zadania użytkownikom.
https://storyai.cc
… https://oscarstories.com
Dziękuję!
-
15 dni8180 PLN
12784 4 2 15 dni8180 PLNCześć,
Jestem zainteresowany uczestnictwem w projekcie Cataleya i doskonale rozumiem techniczną oraz architektoniczną złożoność zadania. Mam praktyczne doświadczenie w zakresie modeli mowy i multimodalnych od początku do końca, niskolatencyjnych potoków wnioskowania oraz dużych wdrożeń na klastrach GPU NVIDIA. Pracuję pewnie z PyTorch, architekturami opartymi na Transformerach, optymalizacją CUDA, kwantyzacją oraz przyspieszaniem wnioskowania (w tym TensorRT-LLM i vLLM), a także z wielojęzycznym dostrajaniem dla grup językowych, które nie są angielskie.
Po stronie produktu i infrastruktury mam doświadczenie w budowaniu systemów audio w czasie rzeczywistym z użyciem WebRTC i WebSockets, rozwijaniu niskolatencyjnych interfejsów pełnodupleksowych oraz integrowaniu usług AI w środowiskach produkcyjnych za pomocą FastAPI. Rozumiem również specyfikę Telegram Mini Apps, logikę subskrypcyjną oraz integracje płatności, a projektowanie systemów traktuję z silnym naciskiem na skalowalność, odporność na błędy oraz optymalizację sieci regionalnych.
Pracuję jako inżynier z myśleniem produktowym, czuję się komfortowo w badaniach, adaptacji i dostarczaniu produkcji, i jestem pewien, że mogę przyczynić się zarówno do rdzenia inteligencji S2S, jak i warstwy aplikacji w czasie rzeczywistym w projekcie Cataleya.
Z poważaniem,
… Jeo Vincent Carretas