Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Opublikuj swoje zlecenie za darmo i otrzymaj oferty od wykonawców freelancerów już minutę po opublikowaniu!

Cataleya (Sztuczna inteligencja głosowa)

Translated8180 PLN

  1. 172    1  1
    11 dni8180 PLN

    Witaj! Jestem gotów zrealizować ten projekt, mam duże doświadczenie w tworzeniu różnych aplikacji.

  2. 1117    4  0
    20 dni9295 PLN

    Cześć!

    Cataleya brzmi ekscytująco, a ja również rozumiem, jak trudno jest osiągnąć naprawdę naturalne brzmienie mowy. Pracowałem z modelami opartymi na PyTorch i procesami przetwarzania dźwięku w czasie rzeczywistym, i mogę pomóc twojemu zespołowi w starannym dopracowaniu opóźnienia, stabilności i całego procesu od mikrofonu do GPU i do mówiącego.

    Zacząłbym od małych i praktycznych kroków. Najpierw przeprowadziłbym profilowanie obecnej ścieżki przetwarzania języka angielskiego od początku do końca i zanotowałbym, gdzie marnuje się czas na przechwytywanie, przetwarzanie tokenów, wyjście i strumieniowanie. Następnie zająłbym się największymi opóźnieniami jedno po drugim, zapewniając łatwe do weryfikacji zmiany i bezpieczne wdrożenie na waszych klastrach 4090. Dla języków uzbeckiego, kazachskiego i rosyjskiego pomógłbym stworzyć prosty zestaw testowy, obejmujący regionalne wzorce mowy, aby dostrajanie opierało się na rzeczywistych przykładach, a nie tylko na ogólnych oszacowaniach.

    Jeszcze jeden prosty, ale przydatny pomysł, który mogę dodać, to wewnętrzna reprezentacja śledzenia opóźnienia dla zespołu. Umożliwia to uzyskanie krótkiej analizy każdego wywołania, aby określić, czy spowolnienie jest spowodowane pracą WebRTC, serwerem czy procesorem graficznym. To znacznie upraszcza bieżące ustawienia, nie komplikując zadania użytkownikom.

    https://storyai.cc
    https://oscarstories.com

    Dziękuję!

  3. 12784    4  2
    15 dni8180 PLN

    Cześć,

    Jestem zainteresowany uczestnictwem w projekcie Cataleya i doskonale rozumiem techniczną oraz architektoniczną złożoność zadania. Mam praktyczne doświadczenie w zakresie modeli mowy i multimodalnych od początku do końca, niskolatencyjnych potoków wnioskowania oraz dużych wdrożeń na klastrach GPU NVIDIA. Pracuję pewnie z PyTorch, architekturami opartymi na Transformerach, optymalizacją CUDA, kwantyzacją oraz przyspieszaniem wnioskowania (w tym TensorRT-LLM i vLLM), a także z wielojęzycznym dostrajaniem dla grup językowych, które nie są angielskie.

    Po stronie produktu i infrastruktury mam doświadczenie w budowaniu systemów audio w czasie rzeczywistym z użyciem WebRTC i WebSockets, rozwijaniu niskolatencyjnych interfejsów pełnodupleksowych oraz integrowaniu usług AI w środowiskach produkcyjnych za pomocą FastAPI. Rozumiem również specyfikę Telegram Mini Apps, logikę subskrypcyjną oraz integracje płatności, a projektowanie systemów traktuję z silnym naciskiem na skalowalność, odporność na błędy oraz optymalizację sieci regionalnych.

    Pracuję jako inżynier z myśleniem produktowym, czuję się komfortowo w badaniach, adaptacji i dostarczaniu produkcji, i jestem pewien, że mogę przyczynić się zarówno do rdzenia inteligencji S2S, jak i warstwy aplikacji w czasie rzeczywistym w projekcie Cataleya.

    Z poważaniem,
    Jeo Vincent Carretas

  4. 1 oferta jest ukryta

Zleceniodawca
Tulkin Said
Uzbekistan Taszkent
Zlecenie zostało opublikowane
4 miesiące 23 dni temu
122 wyświetlenia
Tagi
  • webrtc
  • pytorch
  • telegram mini app
  • fastapi
  • TensorRT-LLM
  • NVIDIA RTX 4090
  • Moshi