Фриланс-проєкти

Фриланс-проєкти

Клонування голосу ШІ в реальному часі

AI та машинне навчання — неправильно зазначені категорії?

Проєкт перекладено автоматично. Увійдіть або зареєструйтесь, щоб побачити оригінал

Додаток для зміни голосу в реальному часі

Що робить: змінює голос користувача на льоту — те, що говориш у мікрофон, співрозмовник чує як інший голос. Цільовий голос задається одним коротким аудіофайлом-зразком (1-5 хвилин).

Як працює з точки зору користувача

Запустив додаток на своєму комп'ютері
Завантажив зразок голосу (.wav-файл), який хочеться імітувати
Вибрав вхідний та вихідний пристрій
Натиснув «Старт»
Говорить у мікрофон → через ~0.3-0.5 секунди чує свій же голос, але звучить як зразок
Можна використовувати в Discord, Zoom, OBS — через віртуальний аудіо-кабель

Що повинно бути в інтерфейсі

Вибір пристроїв (мікрофон / навушники / віртуальний аудіо-кабель)
Завантаження / вибір зразка голосу
Тренування моделі голосу
Кнопка «Старт / Стоп»
Індикатори: рівень мікрофона, поточна затримка, стан мережі
Налаштування якості (швидше / красивіше)

Технічні рамки

Затримка від мікрофона до вуха — цільова ≤ 400 мс
Якість голосу — впізнаване, без артефактів на нормальній мові
Працює на Windows-клієнті, серверна частина — окрема машина з GPU
Повинно збиратися в один .exe для розповсюдження

Ставки 15 Обговорення 4

Олег Григорьев

32 0

Проєкти 30
Оцінка 5.0
Рейтинг 5 747

Бюджет: 27000 UAH Термін: 45 днів

Орієнтир по першому робочому MVP - 320 000 грн і близько 45 днів. В цю оцінку я б включив Windows-клієнт, вибір аудіопристроїв, завантаження зразка, потокову обробку через сервер з GPU, режими швидше - якісніше, збірку в один .exe і вимір фактичної затримки. Мета 400 мс реалістична тільки після тесту моделі, мережі та аудіодрайверів, тому можна почати з короткого інженерного прототипу.

ВАжливий момент - працюємо тільки з голосами, де є права на використання і згода власника. Для такого продукту я б додав обмеження сценаріїв, журналювання і зрозумілу маркування, тому що інакше ризик не технічний, а юридичний і репутаційний. Дивіться, тут нюанс - в голосі диявол сидить не в інтерфейсі, а в затримці і артефактах =)

> По реалізації
>> Windows-додаток для мікрофона, виходу і віртуального аудіокабелю
>> окремий GPU-сервіс для конвертації голосу в потоці
>> індикатори рівня, затримки і стану мережі
>> режими якості, тестові профілі і упаковка в .exe

> Питання
>> GPU-сервер вже є чи його потрібно підібрати і налаштувати
>> потрібен MVP на готових моделях чи рівень промислового продукту з тестами на різних мікрофонах, мережах і голосах

> Схожі роботи Ingello
>> https://business.ingello.com/tts - близько по голосовим технологіям і роботі з мовленням
>> https://business.ingello.com/fractal - близько по складній ІІ-архітектурі і автоматизації
>> https://systems-fl.ingello.com - профіль Ingello Systems для таких систем

!!Якщо мета саме публічне поширення, краще починати з прототипу і технічного аудиту затримки, а не обіцяти якість наосліп!!-

Максим Меркурйев

0 0

Проєкти -
Оцінка -
Рейтинг 142

Бюджет: 3000 UAH Термін: 2 дні

Можу це зробити за 3к з допомогою вайбкодингу, я вже робив подібне. З вимог, щоб у вас була потужна відеокарта або гроші на хмарний ІІ.

Daria Kratofil

0 0

Проєкти -
Оцінка -
Рейтинг 196

Бюджет: 27000 UAH Термін: 45 днів

у нас вже є практично готова архітектура під такий голосовий ІІ-продукт, її можна швидко адаптувати і запустити під Windows-клієнт, GPU-сервер і віртуальний аудіо-кабель
на зв'язку, можемо обговорити деталі тут на майданчику

оцінка першого робочого етапу - 260000 грн і близько 45 днів

МОжна не ускладнювати старт - я б йшов через технічний прототип з вимірюваною затримкою, а потім доводив якість голосу
мета 0.3-0.5 секунди досяжна тільки при акуратній потоковій обробці, налаштуванні буферів, моделі і мережі

- уточню 2 моменти
-- потрібен саме впізнаваний голос конкретної людини чи достатньо зміни тембру і манери мови
-- GPU-сервер вже є чи його потрібно підібрати і розгорнути разом з рішенням

- що закладемо в перший етап
-- Windows-додаток з вибором мікрофона, виходу і віртуального кабелю
-- завантаження wav-зразка і підготовка голосового профілю
-- потокова передача аудіо на GPU-сервер
-- перетворення голосу в реальному часі
-- старт, стоп, індикатор рівня, затримки і стану з'єднання
-- збірка в один .exe для тестового розповсюдження

- схожі кейси Ingello
-- https://business.ingello.com/tts - ІІ-голос і мовні рішення
-- https://business.ingello.com/fractal - серверна архітектура для складних ІІ-процесів
-- https://business.ingello.com/vorfahr - сильний приклад продукту з автоматизацією і інтеграціями

головний лендинг для фрилансхант - https://systems-fl.ingello.com

по відчуттях, першим ділом варто перевірити прототип на 1-2 цільових голосах в реальному Discord або OBS
тут !!низька затримка важливіша за красиву демо-картинку!! - залізо покаже правду краще презентації ))-

Матвій Марченко

20 0

Проєкти 20
Оцінка -
Рейтинг 2 077

Бюджет: 26000 UAH Термін: 22 дні

ТЗ зрозумів: Windows-додаток, real-time voice conversion (мікрофон → цільовий голос → віртуальний аудіо-кабель), цільова затримка ≤400мс, серверна частина на GPU. Зразок цільового голосу — один файл 1-5 хвилин. .exe для розповсюдження, UI з вибором пристроїв, тренуванням моделі, індикаторами рівня та затримки.

Стек як бачу.

Голосова модель. Для real-time voice conversion з 400мс затримкою та якістю без артефактів найкращий у 2026 році варіант — RVC (Retrieval-based Voice Conversion) або його еволюція Seed-VC. RVC натренована на короткі зразки, підтримує real-time inference на GPU 12GB+. Альтернатива — F5-TTS або OpenVoice v2 від MyShell для voice cloning (але вони скоріше для batch generation, real-time з ними складніше тримати в 400мс). RVC inference на RTX 3060/4060 дає впевнені 200-300мс на chunk, що укладається в бюджет.

Архітектура. Тонкий Windows-клієнт (Python + Qt або C# WPF) ловить мікрофон через WASAPI/PyAudio, розбиває на chunks по 100-150мс, відправляє на GPU-сервер по WebSocket з low-latency опціями (ping-pong keepalive, no buffering). Сервер робить inference і повертає оброблений аудіо-chunk. Клієнт пише у віртуальний аудіо-кабель (VB-Audio Virtual Cable як стандарт для Windows). Latency бюджет: 30мс capture + 50мс network round-trip (якщо в тій же мережі) + 200мс GPU inference + 30мс playback = ~310мс. Якщо сервер віддалений (cloud GPU) — network round-trip може зрости до 80-150мс, плюс залежність від стабільності з'єднання.

UI. Tkinter або PyQt5 для Windows-клієнта (в мене production-досвід з PyQt5 якраз на цьому класі задач). Вибір пристроїв — через pyaudio.list_devices() з фільтром Input/Output. Завантаження sample-голосу, відправка на сервер, навчання моделі (training-step синхронний або фоновий). Кнопка Start/Stop. Індикатори — рівень мікрофона (RMS), latency реал-тайм (rolling avg за останні 50 chunks), статус з'єднання.

Сервер. FastAPI або WebSocket-сервер на aiohttp з моделлю завантаженою в пам'ять, GPU-bound worker queue. Якщо плануєте багато одночасних користувачів — потрібен load balancer і кілька GPU-інстансів, але для MVP одна машина з RTX 3090 або 4090 тримає ~5-10 одночасних користувачів.

Збірка в .exe — PyInstaller з зібраними залежностями, або Nuitka для production-grade compilation. В мене є досвід з PyInstaller на десктоп-проектах, .exe збирається надійно.

Чесно: real-time voice conversion в цю латентність — це нішова ML-задача, в проді таке не робив. В мене сильний backend, ASR/TTS досвід (Whisper,

Нікіта Румянцев

5 1

Проєкти 5
Оцінка 4.2
Рейтинг 690

Бюджет: 16000 UAH Термін: 14 днів

Привіт, пиши в лс
Думаю, впораюся, робив подібне, але потрібно більш детальне ТЗ. Розпишу, скільки піде токенів і т.д.

Іван Данилейко

20 0

Проєкти 20
Оцінка 5.0
Рейтинг 9 264

Бюджет: 25000 UAH Термін: 6 днів

Вітаю. Рік тому вже робив схоже рішення під Windows у форматі .exe для real-time voice conversion. Є робочі напрацювання, зараз треба оновити пакети, адаптувати під ваші вимоги і протестувати зв’язку Windows-клієнт + GPU-сервер. Думаю, зможу швидко довести це до MVP.

Rumzik Matvey

15 0

Проєкти 15
Оцінка 5.0
Рейтинг 3 642

Бюджет: 27000 UAH Термін: 7 днів

Добрий день.
Я якраз зараз розбираюся з tts'ами картезією/інворд і локальними llm типу XTTS-v2 (Coqui).
То там не все так просто, як здається, tts це одне, а STT це інше, а єдине рішення не завжди прийнятний результат, то tts погана, то латенсі stt не підходить або саме якість розпізнавання не підходить, щоб досягти вашої мети 400мс потрібно погратися, ну в принципі я зараз цим і зайнятий намагаюся досягти латенсі хоча б 1 секунда.
Я сеньйор розробник, працюю з погодинною ставкою по цій задачі 30 євро/год.
Сказати, скільки часу займе саме ядро, важко сказати, може 10 годин, а може і 40 годин + обгортка для віндоуса.
Якщо Вам це підходить, моя ставка для Вас норм - велком. Завжди роблю все якісно.
Якщо спишемося, я зроблю більш точний розрахунок вартості такого проекту.

Андрій Ю.

0 0

Проєкти -
Оцінка -
Рейтинг 180

Бюджет: 27000 UAH Термін: 50 днів

Є досвід розробки AI/audio рішень в реальному часі, включаючи роботу з конверсією голосу, потоковим аудіо, GPU-інференцією та обробкою звуку з низькою затримкою.

Розуміємо специфіку задачі з зміною голосу в реальному часі:
— захоплення та обробка аудіопотоків;
— клонування голосу за коротким зразком;
— мінімізація затримки;
— інтеграція з Discord / Zoom / OBS через віртуальні аудіопристрої;
— збірка десктопного застосунку під Windows у .exe.

Можемо реалізувати:
• десктоп-клієнт;
• серверну GPU-частину;
• pipeline конверсії голосу;
• навчання/донавчання голосової моделі;
• потокове аудіо в реальному часі;
• налаштування якості/затримки;
• UI/UX інтерфейс застосунку.

Працювали з AI audio стеком:
RVC, XTTS, So-VITS-SVC, Whisper, PyTorch, WebRTC, CUDA, потоками аудіо в реальному часі.

Окремо приділяємо увагу:
— стабільності роботи в реальному часі;
— якості голосу без сильних артефактів;
— оптимізації під звичайні ПК;
— архітектурі для подальшого масштабування.

Готові обговорити стек, архітектуру та показати релевантний досвід.

З повагою, Benefit Studio

Ганна К.

1 0

Проєкти -
Оцінка -
Рейтинг 556

Бюджет: 11111 UAH Термін: 30 днів

Привіт! Реалізую real-time voice conversion з низькою затримкою та зв'язкою клієнт (Windows) + сервер з GPU inference.

У мене є досвід з AI-інтеграціями та realtime-системами (WebRTC/стрімінг/обробка з низькою затримкою), тому можу реалізувати архітектуру під такий кейс.

Архітектура:

* Windows desktop клієнт (UI + аудіо потік)
* Віртуальний аудіо драйвер / loopback (VB-Cable або аналог)
* Backend сервер з GPU (inference моделі)
* Стрімінг через WebSocket / gRPC
* Буферизація під latency ≤ 300–400ms

ML частина:

* voice conversion модель (RVC / so-vits-svc / аналог)
* завантаження reference voice (1–5 хвилин)
* кешування voice embeddings
* оптимізація під realtime inference

Клієнт:

* вибір пристроїв вводу/виводу
* завантаження voice sample
* кнопка start/stop streaming
* індикатор latency / load / audio level
* інтеграція з Discord / Zoom через virtual audio device

Етапи роботи:

1. Архітектура + прототип пайплайна
— перевірка latency pipeline, вибір моделі
Термін: 5 днів
Вартість: 400 USD

2. Backend GPU inference
— realtime voice conversion API
— оптимізація затримки
Термін: 10 днів
Вартість: 800 USD

3. Windows клієнт
— UI + audio routing + управління стрімом
Термін: 8 днів
Вартість: 700 USD

4. Інтеграція + тестування
— стабільність, tuning latency, упаковка в .exe
Термін: 5 днів
Вартість: 400 USD

Термін: 4 тижні
Бюджет: 2300 USD (MVP → стабільна версія)

Важливо: ключовий ризик тут — саме latency і стабільність real-time моделі. Тому спочатку роблю прототип пайплайна, щоб підтвердити досяжну затримку, і тільки потім фіналізуємо клієнт.

Andrii Y.

1 1

Проєкти -
Оцінка -
Рейтинг 246

Бюджет: 2500 UAH Термін: 2 дні

доброго дня, готовий взятися за проект, досвід у створенні подібного був

У списку не показані ставки, приховані замовником чи фрилансером з Plus, а також ставки, що порушують правила

Нікіта Румянцев 26 травня

Есть же аналоги уже , создание подобного очень дорого выйдет

Нікіта Румянцев 28 травня

Можем плюс-минус подсчитать, сколько выйдет затрат на токены и т.д.

Павло Б. 31 травня

Нужно вручную.

Євген Мельник 5 червня

Есть кейсы, где спич, направление или продукт являются конфиденциальными, и требуют своей сборки на своих серверах друг)

Додати коментар

Odd Man
Київ, Україна

Проєктів -
Оцінка -
Рейтинг 20

Клонування голосу ШІ в реальному часі

Додаток для зміни голосу в реальному часі

Як працює з точки зору користувача

Що повинно бути в інтерфейсі

Технічні рамки

Олег Григорьев

Максим Меркурйев

Daria Kratofil

Матвій Марченко

Нікіта Румянцев

Іван Данилейко

Rumzik Matvey

Андрій Ю.

Ганна К.

Andrii Y.

Ставки поки відсутні

Актуальні фриланс-проєкти в категорії AI та машинне навчання

Обробка та перетворення великого обсягу тексту

Проект гри Web3

Створення ШІ для пошуку зацікавлених компаній B2B на гранти

AI-сервіс для аналізу конкурентів

Протестувати роботу Claude Code через CLI зараз