Switch to English version?

Yes

Переключитись на українську версію?

Так

Переключиться на русскую версию?

Да

Przełączyć się na polską wersję?

Tak

Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

149 737 UAH

Голосовой AI assistant, для стран центр Азии.

149 737 UAH

AI и машинное обучение, Базы данных и SQL

3 из 3

закрыт администрацией

публикация
прием ставок
закрыт администрацией

Вакансия: Lead AI / Fullstack Engineer — Проект "Cataleya" (Voice-to-Voice AI)

Название проекта: Cataleya

Формат: Проектная работа / Удаленно (с доступом к локальному кластеру)

Стек: PersonaPlex (Moshi), PyTorch, TensorRT-LLM, FastAPI, WebRTC, Telegram Mini App.

Локация железа: Узбекистан Казахстан (TAS-IX), кластеры на базе NVIDIA RTX 4090.

Описание проекта

Cataleya — это инновационная мультимодальная экосистема «Голос-в-Голос» (S2S), создающая эффект живого общения. Мы разрабатываем ИИ-ассистента, совмещающего роли экспертного учителя (химия, история, биология), эмпатичного собеседника и синхронного переводчика. Система работает напрямую с аудио-токенами, обеспечивая беспрецедентную скорость взаимодействия.

Текущее состояние: Базовая модель (на английском языке) работает стабильно. Необходимо адаптировать ее под региональную специфику и упаковать в высокотехнологичное приложение.

Ключевые задачи

1. Core AI & ML (Адаптация и Интеллект)

Мультиязычность: Кросс-языковой Fine-tuning модели для нативной поддержки русского, узбекского (с учетом диалектов) и казахского языков.

Low Latency: Оптимизация инференса для достижения задержки ответа 0.07 сек.

Smart RAG (100 ГБ): Построение векторной базы знаний по учебным материалам с механизмом «тройной проверки» данных для исключения галлюцинаций.

NVIDIA Stack: Оптимизация инференса под RTX 4090 (vLLM, TensorRT-LLM, квантование INT4/FP8).

2. Telegram Mini App & Real-time Web

Потоковое аудио: Реализация передачи звука в реальном времени через WebRTC / WebSockets (без использования стандартных голосовых сообщений).

Full-Duplex UI: Интерфейс, поддерживающий прерывания (Interruptibility) с мгновенной реакцией ИИ.

Vocal ID: Внедрение голосовой биометрии для авторизации пользователей.

Биллинг: Интеграция платежных систем (Payme, Click) для управления подписками.

3. Архитектура и Оптимизация

Highload: Проектирование системы с возможностью горизонтального масштабирования.

AEC & Noise Suppression: Программное эхо- и шумоподавление для качественного общения в любой среде.

Локализация трафика: Оптимизация маршрутизации для работы внутри сети TAS-IX.

Требования к кандидату

AI / ML Инженер:

Опыт работы с End-to-end речевыми моделями (Moshi, AudioLM или аналоги).

Свободное владение PyTorch и опыт работы с трансформерами.

Навыки дообучения моделей (Fine-tuning) для новых языковых групп.

Умение работать с CUDA 12.x и библиотеками оптимизации NVIDIA.

Fullstack Разработчик:

Экспертные знания WebRTC / WebSockets для потоковой передачи аудио.

Опыт разработки Telegram Mini Apps (TMA).

Профессиональное владение FastAPI и React / Next.js.

Понимание специфики Low-latency систем.

Оплата по согласованию после обсуждения

Ставки 1

1 ставка скрыта

Matthew Ts

Алматы (Алма-Ата)