Cataleya (Voice-to-Voice AI)

AI и машинное обучение, Парсинг данных — неверно указаны категории?

98 584 UAH

Формат: Проектная работа / Удаленно (с доступом к локальным GPU-кластерам)
Стек технологий: PersonaPlex (архитектура на базе Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App (TMA).
Локация оборудования: Узбекистан и Казахстан (сеть TAS-IX), кластеры на базе NVIDIA RTX 4090.

Обзор проекта

Cataleya — это инновационная мультимодальная экосистема «речь-в-речь» (S2S), имитирующая естественное человеческое общение. Мы создаем ИИ-ассистента, который легко переключается между ролями: экспертный тьютор (химия, история, биология), эмпатичный собеседник и синхронный переводчик. Благодаря прямой обработке аудио-токенов система достигает беспрецедентной скорости взаимодействия.

Текущий статус: Базовая модель (английский язык) стабильна. Сейчас мы масштабируем решение с учетом региональной специфики и развертываем его в рамках высокотехнологичного приложения.

Ключевые обязанности

1. Core AI & ML (Адаптация и интеллект)

Мультиязычность: Тонкая настройка (fine-tuning) модели для обеспечения нативного уровня поддержки узбекского (включая региональные диалекты), казахского и русского языков.
Оптимизация задержки: Оптимизация конвейеров инференса для достижения целевой задержки ответа в 0,07 секунды.
Smart RAG (100 ГБ): Архитектура векторной базы знаний для образовательных материалов с внедрением механизма «тройной проверки» для исключения галлюцинаций.
Стек NVIDIA: Оптимизация инференса для среды RTX 4090 с использованием vLLM, TensorRT-LLM и квантования INT4/FP8.

2. Telegram Mini App и Real-time Web

Аудиостриминг: Реализация передачи звука в реальном времени с низкой задержкой через WebRTC / WebSockets (выход за рамки стандартных протоколов голосовых сообщений).
Full-Duplex UI: Разработка интерфейса с поддержкой прерываемости (interruptibility), позволяющего ИИ мгновенно реагировать, если пользователь его перебивает.
Vocal ID: Интеграция голосовой биометрии для безопасной аутентификации пользователей.
Биллинг: Интеграция локальных платежных шлюзов (Payme, Click) для управления подписками.

3. Архитектура и инфраструктура

Highload Design: Проектирование горизонтально масштабируемой системы, способной выдерживать высокие нагрузки конкурентных пользователей.
Обработка сигналов: Внедрение программного эхоподавления (AEC) и подавления шума для обеспечения высокого качества связи.
Локализация трафика: Оптимизация протоколов маршрутизации для максимизации производительности внутри сети TAS-IX.
Требования к кандидату

AI / ML Engineering:

Подтвержденный опыт работы с End-to-end (E2E) речевыми моделями (Moshi, AudioLM или аналоги).
Глубокое владение PyTorch и архитектурами Transformer.
Практический опыт тонкой настройки (Fine-tuning) LLM/S2S моделей для новых языковых групп.
Экспертиза в CUDA 12.x и библиотеках оптимизации NVIDIA.

Fullstack Development:

Экспертные знания WebRTC / WebSockets для потоковой передачи медиа в реальном времени.
Опыт разработки Telegram Mini Apps (TMA).
Профессиональное владение FastAPI и React / Next.js.
Глубокое понимание ограничений и требований систем с низкой задержкой (Low-latency).

Ставки 4

Dmytro Zmenkov

1 1

Проекты -
Оценка -
Рейтинг 121

Бюджет: 2200 USD Срок: 11 дней

Здравствуйте! Готов выполнить данный проект есть большой опыт разработки различных приложений

Tamara Ibrahim Sule A.

4 0

Проекты 4
Оценка 5.0
Рейтинг 1 032

Бюджет: 2500 USD Срок: 20 дней

Привет!

Cataleya звучит захватывающе, и я также понимаю, насколько сложно добиться действительно естественного звучания речи. Я работал с моделями на основе PyTorch и конвейерами обработки звука в реальном времени, и могу помочь вашей команде в тщательной доработке задержки, стабильности и всего процесса от микрофона до GPU и до говорящего.

Я бы начал с малого и практичного. Сначала я бы провел профилирование текущего пути обработки английского языка от начала до конца и записал бы, где тратится время на захват, обработку токенов, вывод и потоковую передачу. Затем я бы проработал самые большие задержки одну за другой, обеспечивая легко проверяемые изменения и безопасное внедрение на ваших кластерах 4090. Для узбекского, казахского и русского языков я бы помог создать простой тестовый набор, включающий региональные речевые паттерны, чтобы тонкая настройка основывалась на реальных примерах, а не только на общих оценках.

Еще одна простая, но полезная идея, которую я могу добавить, — это внутреннее представление трассировки задержки для команды. Это позволяет получить краткий анализ каждого вызова, чтобы определить, вызвано ли замедление работой WebRTC, сервером или графическим процессором. Это значительно упрощает текущую настройку, не усложняя задачу пользователям.

https://storyai.cc
https://oscarstories.com

Спасибо!

Jeo Vincent C.

4 2

Проекты 4
Оценка 4.6
Рейтинг 12 784

Бюджет: 2200 USD Срок: 15 дней

Здравствуйте,

Я заинтересован в участии в проекте Cataleya и четко понимаю техническую и архитектурную сложность задачи. У меня есть практический опыт работы с моделями речи и мультимодальными моделями от начала до конца, с низколатентными инференс-пайплайнами и крупномасштабным развертыванием на кластерах NVIDIA GPU. Я уверенно работаю с PyTorch, архитектурами на основе Transformer, оптимизацией CUDA, квантизацией и ускорением инференса (включая TensorRT-LLM и vLLM), а также с многоязычной донастройкой для групп языков, отличных от английского.

С точки зрения продукта и инфраструктуры, у меня есть опыт создания систем аудио в реальном времени с использованием WebRTC и WebSockets, разработки низколатентных полно-дуплексных интерфейсов и интеграции AI-сервисов в производственные среды через FastAPI. Я также понимаю специфику Telegram Mini Apps, логику подписок и интеграции платежей, и подхожу к проектированию систем с сильным акцентом на масштабируемость, отказоустойчивость и оптимизацию региональных сетей.

Я работаю как инженер с продуктовым мышлением, мне комфортно заниматься исследованиями, адаптацией и доставкой в производство, и я уверен, что могу внести вклад как в основную S2S интеллектуальную систему, так и в слой приложений в реальном времени Cataleya.

С наилучшими пожеланиями,
Джео Винсент Карретас

В списке не показаны ставки, скрытые заказчиком или фрилансером c профилем Plus, а также ставки, нарушающие правила

Tulkin Said
Ташкент, Узбекистан

Проектов -
Оценка -
Рейтинг 65