Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Розмістіть свій проєкт безплатно та почніть отримувати пропозиції від фрилансерів-виконавців уже через хвилини після публікації!

Каталeya (Голос до Голосу ШІ)

Translated98 691 UAH

  1. 148    1  1
    11 днів98 691 UAH

    Привіт! Готовий виконати цей проект, маю великий досвід розробки різних додатків.

  2. 1117    4  0
    20 днів112 149 UAH

    Привіт!

    Cataleya звучить захоплююче, і я також розумію, наскільки складно досягти справді природного звучання мови. Я працював з моделями на основі PyTorch і конвеєрами обробки звуку в реальному часі, і можу допомогти вашій команді в ретельній доопрацюванні затримки, стабільності та всього процесу від мікрофона до GPU і до мовця.

    Я б почав з малого і практичного. Спочатку я б провів профілювання поточного шляху обробки англійської мови від початку до кінця і записав би, де витрачається час на захоплення, обробку токенів, вивід і потокову передачу. Потім я б опрацював найбільші затримки одну за одною, забезпечуючи легко перевіряємi зміни та безпечне впровадження на ваших кластерах 4090. Для узбецької, казахської та російської мов я б допоміг створити простий тестовий набір, що включає регіональні мовні патерни, щоб тонка настройка базувалася на реальних прикладах, а не лише на загальних оцінках.

    Ще одна проста, але корисна ідея, яку я можу додати, — це внутрішнє представлення трасування затримки для команди. Це дозволяє отримати короткий аналіз кожного виклику, щоб визначити, чи викликане уповільнення роботою WebRTC, сервером чи графічним процесором. Це значно спрощує поточну настройку, не ускладнюючи задачу користувачам.

    https://storyai.cc
    https://oscarstories.com

    Дякую!

  3. 12784    4  2
    15 днів98 691 UAH

    Привіт,

    Я зацікавлений у участі в проекті Cataleya і чітко розумію технічну та архітектурну складність завдання. У мене є практичний досвід роботи з кінцевими моделями мовлення та мультимодальними моделями, конвеєрами висновків з низькою затримкою та масштабним розгортанням на кластерах NVIDIA GPU. Я впевнено працюю з PyTorch, архітектурами на основі Transformer, оптимізацією CUDA, квантизацією та прискоренням висновків (включаючи TensorRT-LLM та vLLM), а також багатомовним доопрацюванням для груп мов, що не є англійськими.

    Щодо продукту та інфраструктури, я маю досвід створення систем аудіо в реальному часі, використовуючи WebRTC та WebSockets, розробки інтерфейсів з низькою затримкою з повним дуплексом та інтеграції AI-сервісів у виробничі середовища через FastAPI. Я також розумію специфіку Telegram Mini Apps, логіку підписки та інтеграцію платежів, і підходжу до проектування систем з сильним акцентом на масштабованість, стійкість до збоїв та оптимізацію регіональних мереж.

    Я працюю як інженер, орієнтований на продукт, мені комфортно займатися дослідженнями, адаптацією та доставкою в виробництво, і я впевнений, що можу внести свій внесок як у основну інтелектуальну систему S2S, так і в шар реальних застосувань Cataleya.

    З найкращими побажаннями,
    Джео Вінсент Карретас

  4. 1 ставку приховано

Замовник
Tulkin Said
Узбекистан Ташкент
Проєкт опублікований
4 місяці 28 днів тому
122 перегляди
Мітки
  • webrtc
  • pytorch
  • telegram mini app
  • fastapi
  • TensorRT-LLM
  • NVIDIA RTX 4090
  • Moshi