Каталeya (Голос до Голосу ШІ)

AI та машинне навчання, Парсинг даних — неправильно зазначені категорії?

98 496 UAH

Проєкт перекладено автоматично. Увійдіть або зареєструйтесь, щоб побачити оригінал

Формат: Проектна робота / Віддалено (з доступом до локальних GPU-кластерів)
Стек технологій: PersonaPlex (архітектура на базі Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App (TMA).
Локація обладнання: Узбекистан і Казахстан (мережа TAS-IX), кластери на базі NVIDIA RTX 4090.

Огляд проекту

Cataleya — це інноваційна мультимодальна екосистема «мова-в-мову» (S2S), що імітує природне людське спілкування. Ми створюємо ІІ-асистента, який легко перемикається між ролями: експертний тьютор (хімія, історія, біологія), емпатичний співрозмовник і синхронний перекладач. Завдяки прямій обробці аудіо-токенів система досягає безпрецедентної швидкості взаємодії.

Поточний статус: Базова модель (англійська мова) стабільна. Зараз ми масштабуємо рішення з урахуванням регіональної специфіки та розгортаємо його в рамках високотехнологічного застосунку.

Ключові обов'язки

1. Core AI & ML (Адаптація та інтелект)

Мультимовність: Тонка настройка (fine-tuning) моделі для забезпечення нативного рівня підтримки узбецької (включаючи регіональні діалекти), казахської та російської мов.
Оптимізація затримки: Оптимізація конвеєрів інференсу для досягнення цільової затримки відповіді в 0,07 секунди.
Smart RAG (100 ГБ): Архітектура векторної бази знань для освітніх матеріалів з впровадженням механізму «тройної перевірки» для виключення галюцинацій.
Стек NVIDIA: Оптимізація інференсу для середовища RTX 4090 з використанням vLLM, TensorRT-LLM та квантування INT4/FP8.

2. Telegram Mini App та Real-time Web

Аудіострімінг: Реалізація передачі звуку в реальному часі з низькою затримкою через WebRTC / WebSockets (вихід за рамки стандартних протоколів голосових повідомлень).
Full-Duplex UI: Розробка інтерфейсу з підтримкою перериваності (interruptibility), що дозволяє ІІ миттєво реагувати, якщо користувач його перебиває.
Vocal ID: Інтеграція голосової біометрії для безпечної аутентифікації користувачів.
Білінг: Інтеграція локальних платіжних шлюзів (Payme, Click) для управління підписками.

3. Архітектура та інфраструктура

Highload Design: Проектування горизонтально масштабованої системи, здатної витримувати високі навантаження конкурентних користувачів.
Обробка сигналів: Впровадження програмного ехоподавлення (AEC) та подавлення шуму для забезпечення високої якості зв'язку.
Локалізація трафіку: Оптимізація протоколів маршрутизації для максимізації продуктивності всередині мережі TAS-IX.
Вимоги до кандидата

AI / ML Engineering:

Підтверджений досвід роботи з End-to-end (E2E) мовними моделями (Moshi, AudioLM або аналоги).
Глибоке володіння PyTorch та архітектурами Transformer.
Практичний досвід тонкої настройки (Fine-tuning) LLM/S2S моделей для нових мовних груп.
Експертиза в CUDA 12.x та бібліотеках оптимізації NVIDIA.

Fullstack Development:

Експертні знання WebRTC / WebSockets для потокової передачі медіа в реальному часі.
Досвід розробки Telegram Mini Apps (TMA).
Професійне володіння FastAPI та React / Next.js.
Глибоке розуміння обмежень та вимог систем з низькою затримкою (Low-latency).

Ставки 4

Dmytro Zmenkov

1 1

Проєкти -
Оцінка -
Рейтинг 121

Бюджет: 2200 USD Термін: 11 днів

Привіт! Готовий виконати цей проект, маю великий досвід розробки різних додатків.

Tamara Ibrahim Sule A.

4 0

Проєкти 4
Оцінка 5.0
Рейтинг 1 032

Бюджет: 2500 USD Термін: 20 днів

Привіт!

Cataleya звучить захоплююче, і я також розумію, наскільки складно досягти справді природного звучання мови. Я працював з моделями на основі PyTorch і конвеєрами обробки звуку в реальному часі, і можу допомогти вашій команді в ретельній доопрацюванні затримки, стабільності та всього процесу від мікрофона до GPU і до мовця.

Я б почав з малого і практичного. Спочатку я б провів профілювання поточного шляху обробки англійської мови від початку до кінця і записав би, де витрачається час на захоплення, обробку токенів, вивід і потокову передачу. Потім я б опрацював найбільші затримки одну за одною, забезпечуючи легко перевіряємi зміни та безпечне впровадження на ваших кластерах 4090. Для узбецької, казахської та російської мов я б допоміг створити простий тестовий набір, що включає регіональні мовні патерни, щоб тонка настройка базувалася на реальних прикладах, а не лише на загальних оцінках.

Ще одна проста, але корисна ідея, яку я можу додати, — це внутрішнє представлення трасування затримки для команди. Це дозволяє отримати короткий аналіз кожного виклику, щоб визначити, чи викликане уповільнення роботою WebRTC, сервером чи графічним процесором. Це значно спрощує поточну настройку, не ускладнюючи задачу користувачам.

https://storyai.cc
https://oscarstories.com

Дякую!

Jeo Vincent C.

4 2

Проєкти 4
Оцінка 4.6
Рейтинг 12 784

Бюджет: 2200 USD Термін: 15 днів

Привіт,

Я зацікавлений у участі в проекті Cataleya і чітко розумію технічну та архітектурну складність завдання. У мене є практичний досвід роботи з кінцевими моделями мовлення та мультимодальними моделями, конвеєрами висновків з низькою затримкою та масштабним розгортанням на кластерах NVIDIA GPU. Я впевнено працюю з PyTorch, архітектурами на основі Transformer, оптимізацією CUDA, квантизацією та прискоренням висновків (включаючи TensorRT-LLM та vLLM), а також багатомовним доопрацюванням для груп мов, що не є англійськими.

Щодо продукту та інфраструктури, я маю досвід створення систем аудіо в реальному часі, використовуючи WebRTC та WebSockets, розробки інтерфейсів з низькою затримкою з повним дуплексом та інтеграції AI-сервісів у виробничі середовища через FastAPI. Я також розумію специфіку Telegram Mini Apps, логіку підписки та інтеграцію платежів, і підходжу до проектування систем з сильним акцентом на масштабованість, стійкість до збоїв та оптимізацію регіональних мереж.

Я працюю як інженер, орієнтований на продукт, мені комфортно займатися дослідженнями, адаптацією та доставкою в виробництво, і я впевнений, що можу внести свій внесок як у основну інтелектуальну систему S2S, так і в шар реальних застосувань Cataleya.

З найкращими побажаннями,
Джео Вінсент Карретас

У списку не показані ставки, приховані замовником чи фрилансером з Plus, а також ставки, що порушують правила

Tulkin Said
Ташкент, Узбекистан

Проєктів -
Оцінка -
Рейтинг 65