Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Cataleya (Voice-to-Voice AI)

98 808 UAH

  1. 172    1  1
    11 дней98 808 UAH

    Здравствуйте! Готов выполнить данный проект есть большой опыт разработки различных приложений

  2. 1117    4  0
    20 дней112 281 UAH

    Привет!

    Cataleya звучит захватывающе, и я также понимаю, насколько сложно добиться действительно естественного звучания речи. Я работал с моделями на основе PyTorch и конвейерами обработки звука в реальном времени, и могу помочь вашей команде в тщательной доработке задержки, стабильности и всего процесса от микрофона до GPU и до говорящего.

    Я бы начал с малого и практичного. Сначала я бы провел профилирование текущего пути обработки английского языка от начала до конца и записал бы, где тратится время на захват, обработку токенов, вывод и потоковую передачу. Затем я бы проработал самые большие задержки одну за другой, обеспечивая легко проверяемые изменения и безопасное внедрение на ваших кластерах 4090. Для узбекского, казахского и русского языков я бы помог создать простой тестовый набор, включающий региональные речевые паттерны, чтобы тонкая настройка основывалась на реальных примерах, а не только на общих оценках.

    Еще одна простая, но полезная идея, которую я могу добавить, — это внутреннее представление трассировки задержки для команды. Это позволяет получить краткий анализ каждого вызова, чтобы определить, вызвано ли замедление работой WebRTC, сервером или графическим процессором. Это значительно упрощает текущую настройку, не усложняя задачу пользователям.

    https://storyai.cc
    https://oscarstories.com

    Спасибо!

  3. 12784    4  2
    15 дней98 808 UAH

    Здравствуйте,

    Я заинтересован в участии в проекте Cataleya и четко понимаю техническую и архитектурную сложность задачи. У меня есть практический опыт работы с моделями речи и мультимодальными моделями от начала до конца, с низколатентными инференс-пайплайнами и крупномасштабным развертыванием на кластерах NVIDIA GPU. Я уверенно работаю с PyTorch, архитектурами на основе Transformer, оптимизацией CUDA, квантизацией и ускорением инференса (включая TensorRT-LLM и vLLM), а также с многоязычной донастройкой для групп языков, отличных от английского.

    С точки зрения продукта и инфраструктуры, у меня есть опыт создания систем аудио в реальном времени с использованием WebRTC и WebSockets, разработки низколатентных полно-дуплексных интерфейсов и интеграции AI-сервисов в производственные среды через FastAPI. Я также понимаю специфику Telegram Mini Apps, логику подписок и интеграции платежей, и подхожу к проектированию систем с сильным акцентом на масштабируемость, отказоустойчивость и оптимизацию региональных сетей.

    Я работаю как инженер с продуктовым мышлением, мне комфортно заниматься исследованиями, адаптацией и доставкой в производство, и я уверен, что могу внести вклад как в основную S2S интеллектуальную систему, так и в слой приложений в реальном времени Cataleya.

    С наилучшими пожеланиями,
    Джео Винсент Карретас

  4. 1 ставка скрыта

Заказчик
Tulkin Said
Узбекистан Ташкент
Проект опубликован
4 месяца 21 день назад
122 просмотра
Метки
  • webrtc
  • pytorch
  • telegram mini app
  • fastapi
  • TensorRT-LLM
  • NVIDIA RTX 4090
  • Moshi