Cataleya (Sztuczna inteligencja głosowa)

AI i uczenie maszynowe, Parsowanie danych — podano nieprawidłowe kategorie?

8343 PLN

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Format: Praca projektowa / Zdalnie (z dostępem do lokalnych klastrów GPU)
Stos technologii: PersonaPlex (architektura oparta na Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App (TMA).
Lokalizacja sprzętu: Uzbekistan i Kazachstan (sieć TAS-IX), klastry oparte na NVIDIA RTX 4090.

Przegląd projektu

Cataleya to innowacyjny multimodalny ekosystem „mowa-w-mowę” (S2S), naśladujący naturalną ludzką komunikację. Tworzymy asystenta AI, który łatwo przełącza się między rolami: ekspert w dziedzinie (chemia, historia, biologia), empatyczny rozmówca i tłumacz symultaniczny. Dzięki bezpośredniemu przetwarzaniu tokenów audio system osiąga bezprecedensową szybkość interakcji.

Aktualny status: Podstawowy model (język angielski) jest stabilny. Obecnie skalujemy rozwiązanie z uwzględnieniem specyfiki regionalnej i wdrażamy je w ramach zaawansowanej aplikacji.

Kluczowe obowiązki

1. Core AI & ML (Adaptacja i inteligencja)

Wielojęzyczność: Dostosowanie (fine-tuning) modelu w celu zapewnienia natywnego poziomu wsparcia dla języka uzbeckiego (w tym regionalne dialekty), kazachskiego i rosyjskiego.
Optymalizacja opóźnienia: Optymalizacja potoków inferencyjnych w celu osiągnięcia docelowego opóźnienia odpowiedzi w 0,07 sekundy.
Smart RAG (100 GB): Architektura wektorowej bazy wiedzy dla materiałów edukacyjnych z wdrożeniem mechanizmu „potrójnej weryfikacji” w celu wyeliminowania halucynacji.
Stos NVIDIA: Optymalizacja inferencji dla środowiska RTX 4090 z wykorzystaniem vLLM, TensorRT-LLM i kwantyzacji INT4/FP8.

2. Telegram Mini App i Real-time Web

Streaming audio: Realizacja transmisji dźwięku w czasie rzeczywistym z niskim opóźnieniem przez WebRTC / WebSockets (wykraczając poza standardowe protokoły wiadomości głosowych).
Interfejs Full-Duplex: Opracowanie interfejsu z obsługą przerywalności (interruptibility), umożliwiającego AI natychmiastową reakcję, gdy użytkownik go przerywa.
Vocal ID: Integracja biometrii głosowej dla bezpiecznej autoryzacji użytkowników.
Billing: Integracja lokalnych bramek płatniczych (Payme, Click) do zarządzania subskrypcjami.

3. Architektura i infrastruktura

Highload Design: Projektowanie systemu o poziomej skalowalności, zdolnego do obsługi wysokich obciążeń konkurencyjnych użytkowników.
Przetwarzanie sygnałów: Wdrożenie programowego tłumienia echa (AEC) i tłumienia hałasu w celu zapewnienia wysokiej jakości komunikacji.
Lokalizacja ruchu: Optymalizacja protokołów routingu w celu maksymalizacji wydajności w sieci TAS-IX.
Wymagania dla kandydata

AI / ML Engineering:

Potwierdzone doświadczenie w pracy z modelami mowy End-to-end (E2E) (Moshi, AudioLM lub analogi).
Głębokie zrozumienie PyTorch i architektur Transformer.
Praktyczne doświadczenie w fine-tuningu modeli LLM/S2S dla nowych grup językowych.
Ekspertyza w CUDA 12.x i bibliotekach optymalizacji NVIDIA.

Fullstack Development:

Ekspert w WebRTC / WebSockets do transmisji mediów w czasie rzeczywistym.
Doświadczenie w tworzeniu Telegram Mini Apps (TMA).
Profesjonalna znajomość FastAPI i React / Next.js.
Głębokie zrozumienie ograniczeń i wymagań systemów o niskim opóźnieniu (Low-latency).

Oferty 4

Dmytro Zmenkov

1 1

Zlecenia -
Ocena -
Ranking 121

Budżet: 2200 USD Termin: 11 dni

Witaj! Jestem gotów zrealizować ten projekt, mam duże doświadczenie w tworzeniu różnych aplikacji.

Tamara Ibrahim Sule A.

4 0

Budżet: 2500 USD Termin: 20 dni

Cześć!

Cataleya brzmi ekscytująco, a ja również rozumiem, jak trudno jest osiągnąć naprawdę naturalne brzmienie mowy. Pracowałem z modelami opartymi na PyTorch i procesami przetwarzania dźwięku w czasie rzeczywistym, i mogę pomóc twojemu zespołowi w starannym dopracowaniu opóźnienia, stabilności i całego procesu od mikrofonu do GPU i do mówiącego.

Zacząłbym od małych i praktycznych kroków. Najpierw przeprowadziłbym profilowanie obecnej ścieżki przetwarzania języka angielskiego od początku do końca i zanotowałbym, gdzie marnuje się czas na przechwytywanie, przetwarzanie tokenów, wyjście i strumieniowanie. Następnie zająłbym się największymi opóźnieniami jedno po drugim, zapewniając łatwe do weryfikacji zmiany i bezpieczne wdrożenie na waszych klastrach 4090. Dla języków uzbeckiego, kazachskiego i rosyjskiego pomógłbym stworzyć prosty zestaw testowy, obejmujący regionalne wzorce mowy, aby dostrajanie opierało się na rzeczywistych przykładach, a nie tylko na ogólnych oszacowaniach.

Jeszcze jeden prosty, ale przydatny pomysł, który mogę dodać, to wewnętrzna reprezentacja śledzenia opóźnienia dla zespołu. Umożliwia to uzyskanie krótkiej analizy każdego wywołania, aby określić, czy spowolnienie jest spowodowane pracą WebRTC, serwerem czy procesorem graficznym. To znacznie upraszcza bieżące ustawienia, nie komplikując zadania użytkownikom.

https://storyai.cc
https://oscarstories.com

Dziękuję!

Jeo Vincent C.

4 2

Budżet: 2200 USD Termin: 15 dni

Cześć,

Jestem zainteresowany uczestnictwem w projekcie Cataleya i doskonale rozumiem techniczną oraz architektoniczną złożoność zadania. Mam praktyczne doświadczenie w zakresie modeli mowy i multimodalnych od początku do końca, niskolatencyjnych potoków wnioskowania oraz dużych wdrożeń na klastrach GPU NVIDIA. Pracuję pewnie z PyTorch, architekturami opartymi na Transformerach, optymalizacją CUDA, kwantyzacją oraz przyspieszaniem wnioskowania (w tym TensorRT-LLM i vLLM), a także z wielojęzycznym dostrajaniem dla grup językowych, które nie są angielskie.

Po stronie produktu i infrastruktury mam doświadczenie w budowaniu systemów audio w czasie rzeczywistym z użyciem WebRTC i WebSockets, rozwijaniu niskolatencyjnych interfejsów pełnodupleksowych oraz integrowaniu usług AI w środowiskach produkcyjnych za pomocą FastAPI. Rozumiem również specyfikę Telegram Mini Apps, logikę subskrypcyjną oraz integracje płatności, a projektowanie systemów traktuję z silnym naciskiem na skalowalność, odporność na błędy oraz optymalizację sieci regionalnych.

Pracuję jako inżynier z myśleniem produktowym, czuję się komfortowo w badaniach, adaptacji i dostarczaniu produkcji, i jestem pewien, że mogę przyczynić się zarówno do rdzenia inteligencji S2S, jak i warstwy aplikacji w czasie rzeczywistym w projekcie Cataleya.

Z poważaniem,
Jeo Vincent Carretas

W liście nie są widoczne oferty ukryte przez zleceniodawcę lub freelancerów z profilem Plus, a także oferty, które naruszają regulamin

Tulkin Said
Taszkent, Uzbekistan

Zleceń -
Ocena -
Ranking 65