Каталeya (Голос до Голосу ШІ)
Стек технологій: PersonaPlex (архітектура на базі Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App (TMA).
Локація обладнання: Узбекистан і Казахстан (мережа TAS-IX), кластери на базі NVIDIA RTX 4090.
- Мультимовність: Тонка настройка (fine-tuning) моделі для забезпечення нативного рівня підтримки узбецької (включаючи регіональні діалекти), казахської та російської мов.
- Оптимізація затримки: Оптимізація конвеєрів інференсу для досягнення цільової затримки відповіді в 0,07 секунди.
- Smart RAG (100 ГБ): Архітектура векторної бази знань для освітніх матеріалів з впровадженням механізму «тройної перевірки» для виключення галюцинацій.
- Стек NVIDIA: Оптимізація інференсу для середовища RTX 4090 з використанням vLLM, TensorRT-LLM та квантування INT4/FP8.
- Аудіострімінг: Реалізація передачі звуку в реальному часі з низькою затримкою через WebRTC / WebSockets (вихід за рамки стандартних протоколів голосових повідомлень).
- Full-Duplex UI: Розробка інтерфейсу з підтримкою перериваності (interruptibility), що дозволяє ІІ миттєво реагувати, якщо користувач його перебиває.
- Vocal ID: Інтеграція голосової біометрії для безпечної аутентифікації користувачів.
- Білінг: Інтеграція локальних платіжних шлюзів (Payme, Click) для управління підписками.
- Highload Design: Проектування горизонтально масштабованої системи, здатної витримувати високі навантаження конкурентних користувачів.
- Обробка сигналів: Впровадження програмного ехоподавлення (AEC) та подавлення шуму для забезпечення високої якості зв'язку.
- Локалізація трафіку: Оптимізація протоколів маршрутизації для максимізації продуктивності всередині мережі TAS-IX.
- Вимоги до кандидата
- Підтверджений досвід роботи з End-to-end (E2E) мовними моделями (Moshi, AudioLM або аналоги).
- Глибоке володіння PyTorch та архітектурами Transformer.
- Практичний досвід тонкої настройки (Fine-tuning) LLM/S2S моделей для нових мовних груп.
- Експертиза в CUDA 12.x та бібліотеках оптимізації NVIDIA.
- Експертні знання WebRTC / WebSockets для потокової передачі медіа в реальному часі.
- Досвід розробки Telegram Mini Apps (TMA).
- Професійне володіння FastAPI та React / Next.js.
- Глибоке розуміння обмежень та вимог систем з низькою затримкою (Low-latency).
-
11 днів98 691 UAH
148 1 1 11 днів98 691 UAHПривіт! Готовий виконати цей проект, маю великий досвід розробки різних додатків.
-
20 днів112 149 UAH
1117 4 0 20 днів112 149 UAHПривіт!
Cataleya звучить захоплююче, і я також розумію, наскільки складно досягти справді природного звучання мови. Я працював з моделями на основі PyTorch і конвеєрами обробки звуку в реальному часі, і можу допомогти вашій команді в ретельній доопрацюванні затримки, стабільності та всього процесу від мікрофона до GPU і до мовця.
Я б почав з малого і практичного. Спочатку я б провів профілювання поточного шляху обробки англійської мови від початку до кінця і записав би, де витрачається час на захоплення, обробку токенів, вивід і потокову передачу. Потім я б опрацював найбільші затримки одну за одною, забезпечуючи легко перевіряємi зміни та безпечне впровадження на ваших кластерах 4090. Для узбецької, казахської та російської мов я б допоміг створити простий тестовий набір, що включає регіональні мовні патерни, щоб тонка настройка базувалася на реальних прикладах, а не лише на загальних оцінках.
Ще одна проста, але корисна ідея, яку я можу додати, — це внутрішнє представлення трасування затримки для команди. Це дозволяє отримати короткий аналіз кожного виклику, щоб визначити, чи викликане уповільнення роботою WebRTC, сервером чи графічним процесором. Це значно спрощує поточну настройку, не ускладнюючи задачу користувачам.
https://storyai.cc
… https://oscarstories.com
Дякую!
-
15 днів98 691 UAH
12784 4 2 15 днів98 691 UAHПривіт,
Я зацікавлений у участі в проекті Cataleya і чітко розумію технічну та архітектурну складність завдання. У мене є практичний досвід роботи з кінцевими моделями мовлення та мультимодальними моделями, конвеєрами висновків з низькою затримкою та масштабним розгортанням на кластерах NVIDIA GPU. Я впевнено працюю з PyTorch, архітектурами на основі Transformer, оптимізацією CUDA, квантизацією та прискоренням висновків (включаючи TensorRT-LLM та vLLM), а також багатомовним доопрацюванням для груп мов, що не є англійськими.
Щодо продукту та інфраструктури, я маю досвід створення систем аудіо в реальному часі, використовуючи WebRTC та WebSockets, розробки інтерфейсів з низькою затримкою з повним дуплексом та інтеграції AI-сервісів у виробничі середовища через FastAPI. Я також розумію специфіку Telegram Mini Apps, логіку підписки та інтеграцію платежів, і підходжу до проектування систем з сильним акцентом на масштабованість, стійкість до збоїв та оптимізацію регіональних мереж.
Я працюю як інженер, орієнтований на продукт, мені комфортно займатися дослідженнями, адаптацією та доставкою в виробництво, і я впевнений, що можу внести свій внесок як у основну інтелектуальну систему S2S, так і в шар реальних застосувань Cataleya.
З найкращими побажаннями,
… Джео Вінсент Карретас