Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

AI Voice Cloning Real-Time


  1. 5093
     30  0
    Пример работы:
    Мобильное приложение с админкой
    45 дней27 000 UAH

    Ориентир по первому рабочему MVP - 320 000 грн и около 45 дней. В эту оценку я бы включил Windows-клиент, выбор аудиоустройств, загрузку образца, потоковую обработку через сервер с GPU, режимы быстрее - качественнее, сборку в один .exe и замер фактической задержки. Цель 400 мс реалистична только после теста модели, сети и аудиодрайверов, поэтому можно начать с короткого инженерного прототипа.

    ВАжный момент - работаем только с голосами, где есть права на использование и согласие владельца. Для такого продукта я бы добавил ограничения сценариев, журналирование и понятную маркировку, потому что иначе риск не технический, а юридический и репутационный. Смотрите, тут нюанс - в голосе дьявол сидит не в интерфейсе, а в задержке и артефактах =)

    > По реализации
    >> Windows-приложение для микрофона, выхода и виртуального аудиокабеля
    >> отдельный GPU-сервис для конвертации голоса в потоке
    >> индикаторы уровня, задержки и состояния сети
    >> режимы качества, тестовые профили и упаковка в .exe

    > Вопросы
    >> GPU-сервер уже есть или его нужно подобрать и настроить
    >> нужен MVP на готовых моделях или уровень прмышленного продукта с тестами на разных микрофонах, сетях и голосах

    > Похожие работы Ingello
    >> https://business.ingello.com/tts - близко по голосовым технологиям и работе с речью
    >> https://business.ingello.com/fractal - близко по сложной ИИ-архитектуре и автоматизации
    >> https://systems-fl.ingello.com - профиль Ingello Systems для таких систем

    !!Если цель именно публичное распространение, лучше начинать с прототипа и технического аудита задержки, а не обещать качество наугад!!-

  2. 117  
    2 дня3000 UAH

    могу это сделать за 3к с помощю вайбкодинга я уже делал подобное из требуваний чтобы у вас была мощная видеокарта или деньги на облачный ии

  3. 196  
    45 дней27 000 UAH

    у нас уже есть практически готовая архитектура под такой голосовой ИИ-продукт, ее можно быстро адаптировать и запустить под Windows-клиент, GPU-сервер и виртуальный аудио-кабель
    на связи, можем обсудить детали здесь на площадке

    оценка первого рабочего этапа - 260000 грн и около 45 дней

    МОжно не усложнять старт - я бы шел через технический прототип с измеримой задержкой, а потом доводил качесво голоса
    цель 0.3-0.5 секунды достижима только при аккуратной потоковой обработке, настройке буферов, модели и сети

    - уточню 2 момента
    -- нужен именно узнаваемый голос конкретного человека или достаточно смены тембра и манеры речи
    -- GPU-сервер уже есть или его нужно подобрать и развернуть вместе с решением

    - что заложим в первый этап
    -- Windows-приложение с выбором микрофона, выхода и виртуального кабеля
    -- загрузка wav-образца и подготовка голосового профиля
    -- потоковая передача аудио на GPU-сервер
    -- преобразование голоса в реальном времени
    -- старт, стоп, индикатор уровня, задержки и состояния соединения
    -- сборка в один .exe для тестового распространения

    - похожие кейсы Ingello
    -- https://business.ingello.com/tts - ИИ-голос и речевые решения
    -- https://business.ingello.com/fractal - серверная архитектура для сложных ИИ-процессов
    -- https://business.ingello.com/vorfahr - сильный пример продукта с автоматизацией и интеграциями

    главный лендинг для фрилансхант - https://systems-fl.ingello.com

    по ощущениям, первым делом стоит проверить прототип на 1-2 целевых голосах в реальном Discord или OBS
    тут !!низкая задержка важнее красивой демо-картинки!! - железо покажет правду лучше презентации ))-

  4. 2116    20  0
    22 дня26 000 UAH

    ТЗ понял: Windows-приложение, real-time voice conversion (микрофон → целевой голос → виртуальный аудио-кабель), целевая задержка ≤400мс, серверная часть на GPU. Образец целевого голоса — один файл 1-5 минут. .exe для распространения, UI с выбором устройств, тренировкой модели, индикаторами уровня и задержки.

    Стек как вижу.

    Голосовая модель. Для real-time voice conversion с 400мс latency и качеством без артефактов лучший в 2026 году вариант — RVC (Retrieval-based Voice Conversion) или его эволюция Seed-VC. RVC натренирована на короткие сэмплы, поддерживает real-time inference на GPU 12GB+. Альтернатива — F5-TTS или OpenVoice v2 от MyShell для voice cloning (но они скорее для batch generation, real-time с ними сложнее держать в 400мс). RVC inference на RTX 3060/4060 даёт уверенные 200-300мс на chunk, что укладывается в бюджет.

    Архитектура. Тонкий Windows-клиент (Python + Qt или C# WPF) ловит микрофон через WASAPI/PyAudio, разбивает на chunks по 100-150мс, отправляет на GPU-сервер по WebSocket с low-latency опциями (ping-pong keepalive, no buffering). Сервер делает inference и возвращает обработанный аудио-chunk. Клиент пишет в виртуальный аудио-кабель (VB-Audio Virtual Cable как стандарт для Windows). Latency бюджет: 30мс capture + 50мс network round-trip (если в той же сети) + 200мс GPU inference + 30мс playback = ~310мс. Если сервер удалённый (cloud GPU) — network round-trip может вырасти до 80-150мс, плюс зависимость от стабильности соединения.

    UI. Tkinter или PyQt5 для Windows-клиента (у меня production-опыт с PyQt5 как раз на этом классе задач). Выбор устройств — через pyaudio.list_devices() с фильтром Input/Output. Загрузка sample-голоса, отправка на сервер, обучение модели (training-step синхронный или фоновый). Кнопка Start/Stop. Индикаторы — уровень микрофона (RMS), latency реал-тайм (rolling avg за последние 50 chunks), статус соединения.

    Сервер. FastAPI или WebSocket-сервер на aiohttp с моделью загруженной в memory, GPU-bound worker queue. Если планируете много одновременных пользователей — нужен load balancer и несколько GPU-инстансов, но для MVP одна машина с RTX 3090 или 4090 держит ~5-10 одновременных пользователей.

    Сборка в .exe — PyInstaller с собранными зависимостями, или Nuitka для production-grade compilation. У меня есть опыт с PyInstaller на десктоп-проектах, .exe собирается надёжно.

    Честно: real-time voice conversion в эту латентность — это нишевая ML-задача, в проде такое не делал. У меня сильный backend, ASR/TTS опыт (Whisper,

  5. 690    5  1
    14 дней16 000 UAH

    Привет пиши в лс
    Думаю, справлюсь, делал подобное, но нужно более подробное ТЗ. Распишу сколько уйдёт токенов и т.д.

  6. 9340    20  0   1
    6 дней25 000 UAH

    Здравствуйте. Год назад я уже делал похожее решение под Windows в формате .exe для реального времени конверсии голоса. Есть рабочие наработки, сейчас нужно обновить пакеты, адаптировать под ваши требования и протестировать связь Windows-клиент + GPU-сервер. Думаю, смогу быстро довести это до MVP.

  7. 3861    15  0
    7 дней27 000 UAH

    Добрый день.
    Я как раз щас разбираюсь с tts`ами картезией/инворд и локальными ллм по типу XTTS-v2 (Coqui).
    То там не все так просто как кажется, tts ето одно, а STT это другое, а единое решение не всегда приемлемый результат то ттс плохая, то латенси сст не подходит или само качество распознование не подходит, чтобы добится вашей цели 400мс нужно поиграться, ну впринципе я сейчас етим и занят пытаюсь добится латенси хотя бы 1 секунда.
    Я сеньйор разработчик, работаю с почасовой ставкой по этой задаче 30евро/час.
    Сказать сколько времени займет само ядро тяжело сказать, может 10 часов, а может и 40 часов + обертка для виндоуса.
    Если Вам ето подходит, моя ставка для Вас норм - велкоум. Всегда делаю все качественно.
    Если спишемся я сделаю более точный просчет стоимости такого проекта.

  8. 258  
    50 дней27 000 UAH

    Есть опыт разработки AI/audio realtime решений, включая работу с voice conversion, streaming audio, GPU inference и low-latency обработкой звука.

    Понимаем специфику задачи с realtime voice changing:
    — захват и обработка аудио потоков;
    — voice cloning по короткому sample;
    — минимизация latency;
    — интеграция с Discord / Zoom / OBS через virtual audio devices;
    — сборка desktop-приложения под Windows в .exe.

    Можем реализовать:
    • desktop-клиент;
    • серверную GPU-часть;
    • pipeline voice conversion;
    • обучение/дообучение голосовой модели;
    • realtime streaming;
    • настройки качества/задержки;
    • UI/UX интерфейс приложения.

    Работали с AI audio stack:
    RVC, XTTS, So-VITS-SVC, Whisper, PyTorch, WebRTC, CUDA, realtime audio pipelines.

    Отдельно уделяем внимание:
    — стабильности realtime работы;
    — качеству голоса без сильных артефактов;
    — оптимизации под обычные ПК;
    — архитектуре для дальнейшего масштабирования.

    Готовы обсудить стек, архитектуру и показать релевантный опыт.

    С уважением Benefit Studio

  9. 556    1  0
    30 дней11 111 UAH

    Здравствуйте! Реализую real-time voice conversion с низкой задержкой и связкой клиент (Windows) + сервер с GPU inference.

    У меня есть опыт с AI-интеграциями и realtime-системами (WebRTC/streaming/low-latency processing), поэтому могу реализовать архитектуру под такой кейс.

    Архитектура:

    * Windows desktop клиент (UI + аудио поток)
    * Virtual audio driver / loopback (VB-Cable или аналог)
    * Backend сервер с GPU (inference модели)
    * Streaming через WebSocket / gRPC
    * Буферизация под latency ≤ 300–400ms

    ML часть:

    * voice conversion модель (RVC / so-vits-svc / аналог)
    * загрузка reference voice (1–5 минут)
    * кэширование voice embeddings
    * оптимизация под realtime inference

    Клиент:

    * выбор устройств ввода/вывода
    * загрузка voice sample
    * кнопка start/stop streaming
    * индикатор latency / load / audio level
    * интеграция с Discord / Zoom через virtual audio device

    Этапы работы:

    1. Архитектура + прототип пайплайна
    — проверка latency pipeline, выбор модели
    Срок: 5 дней
    Стоимость: 400 USD

    2. Backend GPU inference
    — realtime voice conversion API
    — оптимизация задержки
    Срок: 10 дней
    Стоимость: 800 USD

    3. Windows клиент
    — UI + audio routing + управление стримом
    Срок: 8 дней
    Стоимость: 700 USD

    4. Интеграция + тестирование
    — стабильность, latency tuning, упаковка в .exe
    Срок: 5 дней
    Стоимость: 400 USD

    Срок: 4 недели
    Бюджет: 2300 USD (MVP → stable version)

    Важно: ключевой риск здесь — именно latency и стабильность real-time модели. Поэтому сначала делаю прототип пайплайна, чтобы подтвердить достижимую задержку, и только потом финализируем клиент.

  10. 246    1  1
    2 дня2500 UAH

    добрый день, готов взяться за проект, опыт в создании подобного был

  11. Еще 5 ставок скрыто
  • Нікіта Румянцев
    26 мая, 18:59 |

    Есть же аналоги уже , создание подобного очень дорого выйдет 

  • Нікіта Румянцев
    28 мая, 11:58 |

    Можем плюс-минус подсчитать, сколько выйдет затрат на токены и т.д.

  • Павло Б.
    31 мая, 7:21 |

    Нужно вручную.

  • Євген Мельник
    5 июня, 16:52 |

    Есть кейсы, где спич, направление или продукт являются конфиденциальными,  и требуют своей сборки на своих серверах друг)


Актуальные фриланс-проекты в категории AI и машинное обучение

Нужна AI-фотосессия для сайта знакомств и соцсетей (10 фото)

Нужна AI-фотосессия для сайта знакомств и соцсетей (10 фото) Ищу специалиста по AI-генерации, ретуши и фотомонтажу для создания реалистичной фотосессии на основе моих фотографий. Что нужно сделать: Создать 10 качественных и максимально реалистичных фотографий с использованием…

AI в дизайнеAI и машинное обучение ∙ 2 часа 49 минут назад ∙ 9 ставок

Pocket Option трейдинг бот

3200 UAH

нужен бот и ваша компетенция кто уже мог создать подобного бота когда ставки верные, считываются с покета опшн по брент ойл меня интересует мне не нужен новичок и тот кто просто напишет код лиж бы было нужен тот кто шарит, кто может реально получать данные по брент ойл отс и…

AI и машинное обучениеРазработка ботов ∙ 3 часа 24 минуты назад ∙ 7 ставок

AI Commenting Platform для TikTok и Instagram.

Цель проекта Разработать систему, которая позволяет управлять большим количеством аккаунтов TikTok и Instagram и автоматически публиковать релевантные комментарии под выбранными видео с использованием ИИ. Основной функционал1. Управление аккаунтами Необходимо реализовать…

AI и машинное обучениеPython ∙ 10 часов 5 минут назад ∙ 12 ставок

AI-агент для поиска и анализа массива документов в реестре решений

1. Контекст и проблема Целевой пользователь: специалист, работающий с большим массивом текстовых документов и принимающий решения на основе прецедентов. Суть проблемы: работа с открытым реестром документов занимает чрезмерно много времени: поиск требует ручного подбора ключевых…

AI и машинное обучение ∙ 14 часов 41 минута назад ∙ 26 ставок

Построить модель классификации клиентов

1. Есть данные клиентов в Mongo/SQL (примерно 20 000 записей с сырыми данными). 2. Необходимо на их основе построить фичи и модель классификации клиентов на поведенческие группы. 3. Проект выполнить на Python.

AI и машинное обучениеPython ∙ 2 дня 4 часа назад ∙ 33 ставки

Заказчик
Odd Man
Украина Киев
Проект опубликован
29 дней 11 часов назад
131 просмотр
Метки
  • windows 8
  • voice cloning
  • Audio Processing
  • Real-time Processing