Cataleya (Voice-to-Voice AI)
98 808 UAHСтек технологий: PersonaPlex (архитектура на базе Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App (TMA).
Локация оборудования: Узбекистан и Казахстан (сеть TAS-IX), кластеры на базе NVIDIA RTX 4090.
- Мультиязычность: Тонкая настройка (fine-tuning) модели для обеспечения нативного уровня поддержки узбекского (включая региональные диалекты), казахского и русского языков.
- Оптимизация задержки: Оптимизация конвейеров инференса для достижения целевой задержки ответа в 0,07 секунды.
- Smart RAG (100 ГБ): Архитектура векторной базы знаний для образовательных материалов с внедрением механизма «тройной проверки» для исключения галлюцинаций.
- Стек NVIDIA: Оптимизация инференса для среды RTX 4090 с использованием vLLM, TensorRT-LLM и квантования INT4/FP8.
- Аудиостриминг: Реализация передачи звука в реальном времени с низкой задержкой через WebRTC / WebSockets (выход за рамки стандартных протоколов голосовых сообщений).
- Full-Duplex UI: Разработка интерфейса с поддержкой прерываемости (interruptibility), позволяющего ИИ мгновенно реагировать, если пользователь его перебивает.
- Vocal ID: Интеграция голосовой биометрии для безопасной аутентификации пользователей.
- Биллинг: Интеграция локальных платежных шлюзов (Payme, Click) для управления подписками.
- Highload Design: Проектирование горизонтально масштабируемой системы, способной выдерживать высокие нагрузки конкурентных пользователей.
- Обработка сигналов: Внедрение программного эхоподавления (AEC) и подавления шума для обеспечения высокого качества связи.
- Локализация трафика: Оптимизация протоколов маршрутизации для максимизации производительности внутри сети TAS-IX.
- Требования к кандидату
- Подтвержденный опыт работы с End-to-end (E2E) речевыми моделями (Moshi, AudioLM или аналоги).
- Глубокое владение PyTorch и архитектурами Transformer.
- Практический опыт тонкой настройки (Fine-tuning) LLM/S2S моделей для новых языковых групп.
- Экспертиза в CUDA 12.x и библиотеках оптимизации NVIDIA.
- Экспертные знания WebRTC / WebSockets для потоковой передачи медиа в реальном времени.
- Опыт разработки Telegram Mini Apps (TMA).
- Профессиональное владение FastAPI и React / Next.js.
- Глубокое понимание ограничений и требований систем с низкой задержкой (Low-latency).
-
11 дней98 808 UAH
172 1 1 11 дней98 808 UAHЗдравствуйте! Готов выполнить данный проект есть большой опыт разработки различных приложений
-
20 дней112 281 UAH
1117 4 0 20 дней112 281 UAHПривет!
Cataleya звучит захватывающе, и я также понимаю, насколько сложно добиться действительно естественного звучания речи. Я работал с моделями на основе PyTorch и конвейерами обработки звука в реальном времени, и могу помочь вашей команде в тщательной доработке задержки, стабильности и всего процесса от микрофона до GPU и до говорящего.
Я бы начал с малого и практичного. Сначала я бы провел профилирование текущего пути обработки английского языка от начала до конца и записал бы, где тратится время на захват, обработку токенов, вывод и потоковую передачу. Затем я бы проработал самые большие задержки одну за другой, обеспечивая легко проверяемые изменения и безопасное внедрение на ваших кластерах 4090. Для узбекского, казахского и русского языков я бы помог создать простой тестовый набор, включающий региональные речевые паттерны, чтобы тонкая настройка основывалась на реальных примерах, а не только на общих оценках.
Еще одна простая, но полезная идея, которую я могу добавить, — это внутреннее представление трассировки задержки для команды. Это позволяет получить краткий анализ каждого вызова, чтобы определить, вызвано ли замедление работой WebRTC, сервером или графическим процессором. Это значительно упрощает текущую настройку, не усложняя задачу пользователям.
https://storyai.cc
… https://oscarstories.com
Спасибо!
-
15 дней98 808 UAH
12784 4 2 15 дней98 808 UAHЗдравствуйте,
Я заинтересован в участии в проекте Cataleya и четко понимаю техническую и архитектурную сложность задачи. У меня есть практический опыт работы с моделями речи и мультимодальными моделями от начала до конца, с низколатентными инференс-пайплайнами и крупномасштабным развертыванием на кластерах NVIDIA GPU. Я уверенно работаю с PyTorch, архитектурами на основе Transformer, оптимизацией CUDA, квантизацией и ускорением инференса (включая TensorRT-LLM и vLLM), а также с многоязычной донастройкой для групп языков, отличных от английского.
С точки зрения продукта и инфраструктуры, у меня есть опыт создания систем аудио в реальном времени с использованием WebRTC и WebSockets, разработки низколатентных полно-дуплексных интерфейсов и интеграции AI-сервисов в производственные среды через FastAPI. Я также понимаю специфику Telegram Mini Apps, логику подписок и интеграции платежей, и подхожу к проектированию систем с сильным акцентом на масштабируемость, отказоустойчивость и оптимизацию региональных сетей.
Я работаю как инженер с продуктовым мышлением, мне комфортно заниматься исследованиями, адаптацией и доставкой в производство, и я уверен, что могу внести вклад как в основную S2S интеллектуальную систему, так и в слой приложений в реальном времени Cataleya.
С наилучшими пожеланиями,
… Джео Винсент Карретас