Switch to English version?

Yes

Переключитись на українську версію?

Так

Переключиться на русскую версию?

Да

Przełączyć się na polską wersję?

Tak

Zaloguj się
Rejestracja
- Witamy na Freelancehunt
  
  Pracuj bez ryzyka, oszczędzaj czas i pieniądze
  
  Zaloguj się Rejestracja

Opublikuj swoje zlecenie za darmo i otrzymaj oferty od wykonawców freelancerów już minutę po opublikowaniu!

12 186 PLN

Głosowy asystent AI, dla krajów Azji Centralnej.

12 186 PLN

AI i uczenie maszynowe, Bazy danych i SQL

3 z 3

zamknięto przez moderatora

publikacja
przyjmowanie ofert
zamknięto przez moderatora

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Wakaty: Lead AI / Fullstack Engineer — Projekt "Cataleya" (Voice-to-Voice AI)

Nazwa projektu: Cataleya

Format: Praca projektowa / Zdalnie (z dostępem do lokalnego klastra)

Stos technologiczny: PersonaPlex (Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App.

Lokalizacja sprzętu: Uzbekistan Kazachstan (TAS-IX), klastry oparte na NVIDIA RTX 4090.

Opis projektu

Cataleya to innowacyjny multimodalny ekosystem „Głos-w-Głos” (S2S), tworzący efekt żywego komunikowania się. Opracowujemy asystenta AI, łączącego role eksperckiego nauczyciela (chemia, historia, biologia), empatycznego rozmówcy i tłumacza symultanicznego. System działa bezpośrednio z tokenami audio, zapewniając bezprecedensową szybkość interakcji.

Aktualny stan: Podstawowy model (w języku angielskim) działa stabilnie. Należy dostosować go do specyfiki regionalnej i zapakować w zaawansowaną aplikację.

Kluczowe zadania

1. Core AI & ML (Dostosowanie i Inteligencja)

Wielojęzyczność: Krzyżowy Fine-tuning modelu dla natywnego wsparcia języka rosyjskiego, uzbeckiego (z uwzględnieniem dialektów) i kazachskiego.

Niska latencja: Optymalizacja inferencji w celu osiągnięcia opóźnienia odpowiedzi 0.07 sek.

Smart RAG (100 GB): Budowa wektorowej bazy wiedzy na podstawie materiałów edukacyjnych z mechanizmem „potrójnej weryfikacji” danych w celu wyeliminowania halucynacji.

Stos NVIDIA: Optymalizacja inferencji pod RTX 4090 (vLLM, TensorRT-LLM, kwantyzacja INT4/FP8).

2. Telegram Mini App & Real-time Web

Strumieniowe audio: Realizacja przesyłania dźwięku w czasie rzeczywistym przez WebRTC / WebSockets (bez użycia standardowych wiadomości głosowych).

Full-Duplex UI: Interfejs wspierający przerywanie (Interruptibility) z natychmiastową reakcją AI.

Vocal ID: Wdrożenie biometrii głosowej do autoryzacji użytkowników.

Billing: Integracja systemów płatności (Payme, Click) do zarządzania subskrypcjami.

3. Architektura i Optymalizacja

Highload: Projektowanie systemu z możliwością poziomego skalowania.

AEC & Noise Suppression: Programowe echo- i tłumienie hałasu dla jakościowej komunikacji w każdej atmosferze.

Lokalizacja ruchu: Optymalizacja routingu do pracy w sieci TAS-IX.

Wymagania dla kandydata

Inżynier AI / ML:

Doświadczenie w pracy z modelami mowy End-to-end (Moshi, AudioLM lub analogi).

Swobodne posługiwanie się PyTorch i doświadczenie w pracy z transformatorami.

Umiejętności dostosowywania modeli (Fine-tuning) dla nowych grup językowych.

Umiejętność pracy z CUDA 12.x i bibliotekami optymalizacji NVIDIA.

Fullstack Programista:

Ekspercka wiedza WebRTC / WebSockets do strumieniowego przesyłania audio.

Doświadczenie w tworzeniu Telegram Mini Apps (TMA).

Profesjonalna znajomość FastAPI i React / Next.js.

Zrozumienie specyfiki systemów o niskiej latencji.

Wynagrodzenie do uzgodnienia po dyskusji

Oferty 1

1 oferta jest ukryta

Matthew Ts

Ałmaty (Alma-Ata)