Фриланс-проекты

Фриланс-проекты

AI Voice Cloning Real-Time

AI и машинное обучение — неверно указаны категории?

Приложение для подмены голоса в реальном времени

Что делает: меняет голос пользователя на лету — то, что говоришь в микрофон, собеседник слышит как другой голос. Целевой голос задаётся одним коротким аудиофайлом-образцом (1-5 минут).

Как работает с точки зрения пользователя

Запустил приложение на своём компьютере
Загрузил образец голоса (.wav-файл) который хочется имитировать
Выбрал входное и выходное устройство
Нажал «Старт»
Говорит в микрофон → через ~0.3-0.5 секунды слышит свой же голос, но звучащий как образец
Можно использовать в Discord, Zoom, OBS — через виртуальный аудио-кабель

Что должно быть в интерфейсе

Выбор устройств (микрофон / наушники / виртуальный аудио-кабель)
Загрузка / выбор образца голоса
Тренировка модели голоса
Кнопка «Старт / Стоп»
Индикаторы: уровень микрофона, текущая задержка, состояние сети
Настройки качества (быстрее / красивее)

Технические рамки

Задержка от микрофона до уха — целевая ≤ 400 мс
Качество голоса — узнаваемое, без артефактов на нормальной речи
Работает на Windows-клиенте, серверная часть — отдельная машина с GPU
Должно собираться в один .exe для распространения

Ставки 15 Обсуждения 4

Олег Григорьев

32 0

Проекты 30
Оценка 5.0
Рейтинг 5 747

Бюджет: 27000 UAH Срок: 45 дней

Ориентир по первому рабочему MVP - 320 000 грн и около 45 дней. В эту оценку я бы включил Windows-клиент, выбор аудиоустройств, загрузку образца, потоковую обработку через сервер с GPU, режимы быстрее - качественнее, сборку в один .exe и замер фактической задержки. Цель 400 мс реалистична только после теста модели, сети и аудиодрайверов, поэтому можно начать с короткого инженерного прототипа.

ВАжный момент - работаем только с голосами, где есть права на использование и согласие владельца. Для такого продукта я бы добавил ограничения сценариев, журналирование и понятную маркировку, потому что иначе риск не технический, а юридический и репутационный. Смотрите, тут нюанс - в голосе дьявол сидит не в интерфейсе, а в задержке и артефактах =)

> По реализации
>> Windows-приложение для микрофона, выхода и виртуального аудиокабеля
>> отдельный GPU-сервис для конвертации голоса в потоке
>> индикаторы уровня, задержки и состояния сети
>> режимы качества, тестовые профили и упаковка в .exe

> Вопросы
>> GPU-сервер уже есть или его нужно подобрать и настроить
>> нужен MVP на готовых моделях или уровень прмышленного продукта с тестами на разных микрофонах, сетях и голосах

> Похожие работы Ingello
>> https://business.ingello.com/tts - близко по голосовым технологиям и работе с речью
>> https://business.ingello.com/fractal - близко по сложной ИИ-архитектуре и автоматизации
>> https://systems-fl.ingello.com - профиль Ingello Systems для таких систем

!!Если цель именно публичное распространение, лучше начинать с прототипа и технического аудита задержки, а не обещать качество наугад!!-

Максим Меркурйев

0 0

Проекты -
Оценка -
Рейтинг 117

Бюджет: 3000 UAH Срок: 2 дня

могу это сделать за 3к с помощю вайбкодинга я уже делал подобное из требуваний чтобы у вас была мощная видеокарта или деньги на облачный ии

Daria Kratofil

0 0

Проекты -
Оценка -
Рейтинг 196

Бюджет: 27000 UAH Срок: 45 дней

у нас уже есть практически готовая архитектура под такой голосовой ИИ-продукт, ее можно быстро адаптировать и запустить под Windows-клиент, GPU-сервер и виртуальный аудио-кабель
на связи, можем обсудить детали здесь на площадке

оценка первого рабочего этапа - 260000 грн и около 45 дней

МОжно не усложнять старт - я бы шел через технический прототип с измеримой задержкой, а потом доводил качесво голоса
цель 0.3-0.5 секунды достижима только при аккуратной потоковой обработке, настройке буферов, модели и сети

- уточню 2 момента
-- нужен именно узнаваемый голос конкретного человека или достаточно смены тембра и манеры речи
-- GPU-сервер уже есть или его нужно подобрать и развернуть вместе с решением

- что заложим в первый этап
-- Windows-приложение с выбором микрофона, выхода и виртуального кабеля
-- загрузка wav-образца и подготовка голосового профиля
-- потоковая передача аудио на GPU-сервер
-- преобразование голоса в реальном времени
-- старт, стоп, индикатор уровня, задержки и состояния соединения
-- сборка в один .exe для тестового распространения

- похожие кейсы Ingello
-- https://business.ingello.com/tts - ИИ-голос и речевые решения
-- https://business.ingello.com/fractal - серверная архитектура для сложных ИИ-процессов
-- https://business.ingello.com/vorfahr - сильный пример продукта с автоматизацией и интеграциями

главный лендинг для фрилансхант - https://systems-fl.ingello.com

по ощущениям, первым делом стоит проверить прототип на 1-2 целевых голосах в реальном Discord или OBS
тут !!низкая задержка важнее красивой демо-картинки!! - железо покажет правду лучше презентации ))-

Матвій Марченко

20 0

Проекты 20
Оценка -
Рейтинг 2 116

Бюджет: 26000 UAH Срок: 22 дня

ТЗ понял: Windows-приложение, real-time voice conversion (микрофон → целевой голос → виртуальный аудио-кабель), целевая задержка ≤400мс, серверная часть на GPU. Образец целевого голоса — один файл 1-5 минут. .exe для распространения, UI с выбором устройств, тренировкой модели, индикаторами уровня и задержки.

Стек как вижу.

Голосовая модель. Для real-time voice conversion с 400мс latency и качеством без артефактов лучший в 2026 году вариант — RVC (Retrieval-based Voice Conversion) или его эволюция Seed-VC. RVC натренирована на короткие сэмплы, поддерживает real-time inference на GPU 12GB+. Альтернатива — F5-TTS или OpenVoice v2 от MyShell для voice cloning (но они скорее для batch generation, real-time с ними сложнее держать в 400мс). RVC inference на RTX 3060/4060 даёт уверенные 200-300мс на chunk, что укладывается в бюджет.

Архитектура. Тонкий Windows-клиент (Python + Qt или C# WPF) ловит микрофон через WASAPI/PyAudio, разбивает на chunks по 100-150мс, отправляет на GPU-сервер по WebSocket с low-latency опциями (ping-pong keepalive, no buffering). Сервер делает inference и возвращает обработанный аудио-chunk. Клиент пишет в виртуальный аудио-кабель (VB-Audio Virtual Cable как стандарт для Windows). Latency бюджет: 30мс capture + 50мс network round-trip (если в той же сети) + 200мс GPU inference + 30мс playback = ~310мс. Если сервер удалённый (cloud GPU) — network round-trip может вырасти до 80-150мс, плюс зависимость от стабильности соединения.

UI. Tkinter или PyQt5 для Windows-клиента (у меня production-опыт с PyQt5 как раз на этом классе задач). Выбор устройств — через pyaudio.list_devices() с фильтром Input/Output. Загрузка sample-голоса, отправка на сервер, обучение модели (training-step синхронный или фоновый). Кнопка Start/Stop. Индикаторы — уровень микрофона (RMS), latency реал-тайм (rolling avg за последние 50 chunks), статус соединения.

Сервер. FastAPI или WebSocket-сервер на aiohttp с моделью загруженной в memory, GPU-bound worker queue. Если планируете много одновременных пользователей — нужен load balancer и несколько GPU-инстансов, но для MVP одна машина с RTX 3090 или 4090 держит ~5-10 одновременных пользователей.

Сборка в .exe — PyInstaller с собранными зависимостями, или Nuitka для production-grade compilation. У меня есть опыт с PyInstaller на десктоп-проектах, .exe собирается надёжно.

Честно: real-time voice conversion в эту латентность — это нишевая ML-задача, в проде такое не делал. У меня сильный backend, ASR/TTS опыт (Whisper,

Нікіта Румянцев

5 1

Проекты 5
Оценка 4.2
Рейтинг 665

Бюджет: 16000 UAH Срок: 14 дней

Привет пиши в лс
Думаю, справлюсь, делал подобное, но нужно более подробное ТЗ. Распишу сколько уйдёт токенов и т.д.

Іван Данилейко

20 0

Проекты 20
Оценка 5.0
Рейтинг 9 264

Бюджет: 25000 UAH Срок: 6 дней

Здравствуйте. Год назад я уже делал похожее решение под Windows в формате .exe для реального времени конверсии голоса. Есть рабочие наработки, сейчас нужно обновить пакеты, адаптировать под ваши требования и протестировать связь Windows-клиент + GPU-сервер. Думаю, смогу быстро довести это до MVP.

Rumzik Matvey

15 0

Проекты 15
Оценка 5.0
Рейтинг 3 857

Бюджет: 27000 UAH Срок: 7 дней

Добрый день.
Я как раз щас разбираюсь с tts`ами картезией/инворд и локальными ллм по типу XTTS-v2 (Coqui).
То там не все так просто как кажется, tts ето одно, а STT это другое, а единое решение не всегда приемлемый результат то ттс плохая, то латенси сст не подходит или само качество распознование не подходит, чтобы добится вашей цели 400мс нужно поиграться, ну впринципе я сейчас етим и занят пытаюсь добится латенси хотя бы 1 секунда.
Я сеньйор разработчик, работаю с почасовой ставкой по этой задаче 30евро/час.
Сказать сколько времени займет само ядро тяжело сказать, может 10 часов, а может и 40 часов + обертка для виндоуса.
Если Вам ето подходит, моя ставка для Вас норм - велкоум. Всегда делаю все качественно.
Если спишемся я сделаю более точный просчет стоимости такого проекта.

Андрій Ю.

0 0

Проекты -
Оценка -
Рейтинг 258

Бюджет: 27000 UAH Срок: 50 дней

Есть опыт разработки AI/audio realtime решений, включая работу с voice conversion, streaming audio, GPU inference и low-latency обработкой звука.

Понимаем специфику задачи с realtime voice changing:
— захват и обработка аудио потоков;
— voice cloning по короткому sample;
— минимизация latency;
— интеграция с Discord / Zoom / OBS через virtual audio devices;
— сборка desktop-приложения под Windows в .exe.

Можем реализовать:
• desktop-клиент;
• серверную GPU-часть;
• pipeline voice conversion;
• обучение/дообучение голосовой модели;
• realtime streaming;
• настройки качества/задержки;
• UI/UX интерфейс приложения.

Работали с AI audio stack:
RVC, XTTS, So-VITS-SVC, Whisper, PyTorch, WebRTC, CUDA, realtime audio pipelines.

Отдельно уделяем внимание:
— стабильности realtime работы;
— качеству голоса без сильных артефактов;
— оптимизации под обычные ПК;
— архитектуре для дальнейшего масштабирования.

Готовы обсудить стек, архитектуру и показать релевантный опыт.

С уважением Benefit Studio

Ганна К.

1 0

Проекты -
Оценка -
Рейтинг 556

Бюджет: 11111 UAH Срок: 30 дней

Здравствуйте! Реализую real-time voice conversion с низкой задержкой и связкой клиент (Windows) + сервер с GPU inference.

У меня есть опыт с AI-интеграциями и realtime-системами (WebRTC/streaming/low-latency processing), поэтому могу реализовать архитектуру под такой кейс.

Архитектура:

* Windows desktop клиент (UI + аудио поток)
* Virtual audio driver / loopback (VB-Cable или аналог)
* Backend сервер с GPU (inference модели)
* Streaming через WebSocket / gRPC
* Буферизация под latency ≤ 300–400ms

ML часть:

* voice conversion модель (RVC / so-vits-svc / аналог)
* загрузка reference voice (1–5 минут)
* кэширование voice embeddings
* оптимизация под realtime inference

Клиент:

* выбор устройств ввода/вывода
* загрузка voice sample
* кнопка start/stop streaming
* индикатор latency / load / audio level
* интеграция с Discord / Zoom через virtual audio device

Этапы работы:

1. Архитектура + прототип пайплайна
— проверка latency pipeline, выбор модели
Срок: 5 дней
Стоимость: 400 USD

2. Backend GPU inference
— realtime voice conversion API
— оптимизация задержки
Срок: 10 дней
Стоимость: 800 USD

3. Windows клиент
— UI + audio routing + управление стримом
Срок: 8 дней
Стоимость: 700 USD

4. Интеграция + тестирование
— стабильность, latency tuning, упаковка в .exe
Срок: 5 дней
Стоимость: 400 USD

Срок: 4 недели
Бюджет: 2300 USD (MVP → stable version)

Важно: ключевой риск здесь — именно latency и стабильность real-time модели. Поэтому сначала делаю прототип пайплайна, чтобы подтвердить достижимую задержку, и только потом финализируем клиент.