Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Розмістіть свій проєкт безплатно та почніть отримувати пропозиції від фрилансерів-виконавців уже через хвилини після публікації!

Клонування голосу ШІ в реальному часі

Translated

  1. 5093
     30  0
    Приклад роботи:
    Мобільна програма з адмінкою
    45 днів27 000 UAH

    Орієнтир по першому робочому MVP - 320 000 грн і близько 45 днів. В цю оцінку я б включив Windows-клієнт, вибір аудіопристроїв, завантаження зразка, потокову обробку через сервер з GPU, режими швидше - якісніше, збірку в один .exe і вимір фактичної затримки. Мета 400 мс реалістична тільки після тесту моделі, мережі та аудіодрайверів, тому можна почати з короткого інженерного прототипу.

    ВАжливий момент - працюємо тільки з голосами, де є права на використання і згода власника. Для такого продукту я б додав обмеження сценаріїв, журналювання і зрозумілу маркування, тому що інакше ризик не технічний, а юридичний і репутаційний. Дивіться, тут нюанс - в голосі диявол сидить не в інтерфейсі, а в затримці і артефактах =)

    > По реалізації
    >> Windows-додаток для мікрофона, виходу і віртуального аудіокабелю
    >> окремий GPU-сервіс для конвертації голосу в потоці
    >> індикатори рівня, затримки і стану мережі
    >> режими якості, тестові профілі і упаковка в .exe

    > Питання
    >> GPU-сервер вже є чи його потрібно підібрати і налаштувати
    >> потрібен MVP на готових моделях чи рівень промислового продукту з тестами на різних мікрофонах, мережах і голосах

    > Схожі роботи Ingello
    >> https://business.ingello.com/tts - близько по голосовим технологіям і роботі з мовленням
    >> https://business.ingello.com/fractal - близько по складній ІІ-архітектурі і автоматизації
    >> https://systems-fl.ingello.com - профіль Ingello Systems для таких систем

    !!Якщо мета саме публічне поширення, краще починати з прототипу і технічного аудиту затримки, а не обіцяти якість наосліп!!-

  2. 141  
    2 дні3000 UAH

    Можу це зробити за 3к з допомогою вайбкодингу, я вже робив подібне. З вимог, щоб у вас була потужна відеокарта або гроші на хмарний ІІ.

  3. 196  
    45 днів27 000 UAH

    у нас вже є практично готова архітектура під такий голосовий ІІ-продукт, її можна швидко адаптувати і запустити під Windows-клієнт, GPU-сервер і віртуальний аудіо-кабель
    на зв'язку, можемо обговорити деталі тут на майданчику

    оцінка першого робочого етапу - 260000 грн і близько 45 днів

    МОжна не ускладнювати старт - я б йшов через технічний прототип з вимірюваною затримкою, а потім доводив якість голосу
    мета 0.3-0.5 секунди досяжна тільки при акуратній потоковій обробці, налаштуванні буферів, моделі і мережі

    - уточню 2 моменти
    -- потрібен саме впізнаваний голос конкретної людини чи достатньо зміни тембру і манери мови
    -- GPU-сервер вже є чи його потрібно підібрати і розгорнути разом з рішенням

    - що закладемо в перший етап
    -- Windows-додаток з вибором мікрофона, виходу і віртуального кабелю
    -- завантаження wav-зразка і підготовка голосового профілю
    -- потокова передача аудіо на GPU-сервер
    -- перетворення голосу в реальному часі
    -- старт, стоп, індикатор рівня, затримки і стану з'єднання
    -- збірка в один .exe для тестового розповсюдження

    - схожі кейси Ingello
    -- https://business.ingello.com/tts - ІІ-голос і мовні рішення
    -- https://business.ingello.com/fractal - серверна архітектура для складних ІІ-процесів
    -- https://business.ingello.com/vorfahr - сильний приклад продукту з автоматизацією і інтеграціями

    головний лендинг для фрилансхант - https://systems-fl.ingello.com

    по відчуттях, першим ділом варто перевірити прототип на 1-2 цільових голосах в реальному Discord або OBS
    тут !!низька затримка важливіша за красиву демо-картинку!! - залізо покаже правду краще презентації ))-

  4. 2116    20  0
    22 дні26 000 UAH

    ТЗ зрозумів: Windows-додаток, real-time voice conversion (мікрофон → цільовий голос → віртуальний аудіо-кабель), цільова затримка ≤400мс, серверна частина на GPU. Зразок цільового голосу — один файл 1-5 хвилин. .exe для розповсюдження, UI з вибором пристроїв, тренуванням моделі, індикаторами рівня та затримки.

    Стек як бачу.

    Голосова модель. Для real-time voice conversion з 400мс затримкою та якістю без артефактів найкращий у 2026 році варіант — RVC (Retrieval-based Voice Conversion) або його еволюція Seed-VC. RVC натренована на короткі зразки, підтримує real-time inference на GPU 12GB+. Альтернатива — F5-TTS або OpenVoice v2 від MyShell для voice cloning (але вони скоріше для batch generation, real-time з ними складніше тримати в 400мс). RVC inference на RTX 3060/4060 дає впевнені 200-300мс на chunk, що укладається в бюджет.

    Архітектура. Тонкий Windows-клієнт (Python + Qt або C# WPF) ловить мікрофон через WASAPI/PyAudio, розбиває на chunks по 100-150мс, відправляє на GPU-сервер по WebSocket з low-latency опціями (ping-pong keepalive, no buffering). Сервер робить inference і повертає оброблений аудіо-chunk. Клієнт пише у віртуальний аудіо-кабель (VB-Audio Virtual Cable як стандарт для Windows). Latency бюджет: 30мс capture + 50мс network round-trip (якщо в тій же мережі) + 200мс GPU inference + 30мс playback = ~310мс. Якщо сервер віддалений (cloud GPU) — network round-trip може зрости до 80-150мс, плюс залежність від стабільності з'єднання.

    UI. Tkinter або PyQt5 для Windows-клієнта (в мене production-досвід з PyQt5 якраз на цьому класі задач). Вибір пристроїв — через pyaudio.list_devices() з фільтром Input/Output. Завантаження sample-голосу, відправка на сервер, навчання моделі (training-step синхронний або фоновий). Кнопка Start/Stop. Індикатори — рівень мікрофона (RMS), latency реал-тайм (rolling avg за останні 50 chunks), статус з'єднання.

    Сервер. FastAPI або WebSocket-сервер на aiohttp з моделлю завантаженою в пам'ять, GPU-bound worker queue. Якщо плануєте багато одночасних користувачів — потрібен load balancer і кілька GPU-інстансів, але для MVP одна машина з RTX 3090 або 4090 тримає ~5-10 одночасних користувачів.

    Збірка в .exe — PyInstaller з зібраними залежностями, або Nuitka для production-grade compilation. В мене є досвід з PyInstaller на десктоп-проектах, .exe збирається надійно.

    Чесно: real-time voice conversion в цю латентність — це нішова ML-задача, в проді таке не робив. В мене сильний backend, ASR/TTS досвід (Whisper,

  5. 690    5  1
    14 днів16 000 UAH

    Привіт, пиши в лс
    Думаю, впораюся, робив подібне, але потрібно більш детальне ТЗ. Розпишу, скільки піде токенів і т.д.

  6. 9351    20  0   1
    6 днів25 000 UAH

    Вітаю. Рік тому вже робив схоже рішення під Windows у форматі .exe для real-time voice conversion. Є робочі напрацювання, зараз треба оновити пакети, адаптувати під ваші вимоги і протестувати зв’язку Windows-клієнт + GPU-сервер. Думаю, зможу швидко довести це до MVP.

  7. 3926    15  0
    7 днів27 000 UAH

    Добрий день.
    Я якраз зараз розбираюся з tts'ами картезією/інворд і локальними llm типу XTTS-v2 (Coqui).
    То там не все так просто, як здається, tts це одне, а STT це інше, а єдине рішення не завжди прийнятний результат, то tts погана, то латенсі stt не підходить або саме якість розпізнавання не підходить, щоб досягти вашої мети 400мс потрібно погратися, ну в принципі я зараз цим і зайнятий намагаюся досягти латенсі хоча б 1 секунда.
    Я сеньйор розробник, працюю з погодинною ставкою по цій задачі 30 євро/год.
    Сказати, скільки часу займе саме ядро, важко сказати, може 10 годин, а може і 40 годин + обгортка для віндоуса.
    Якщо Вам це підходить, моя ставка для Вас норм - велком. Завжди роблю все якісно.
    Якщо спишемося, я зроблю більш точний розрахунок вартості такого проекту.

  8. 258  
    50 днів27 000 UAH

    Є досвід розробки AI/audio рішень в реальному часі, включаючи роботу з конверсією голосу, потоковим аудіо, GPU-інференцією та обробкою звуку з низькою затримкою.

    Розуміємо специфіку задачі з зміною голосу в реальному часі:
    — захоплення та обробка аудіопотоків;
    — клонування голосу за коротким зразком;
    — мінімізація затримки;
    — інтеграція з Discord / Zoom / OBS через віртуальні аудіопристрої;
    — збірка десктопного застосунку під Windows у .exe.

    Можемо реалізувати:
    • десктоп-клієнт;
    • серверну GPU-частину;
    • pipeline конверсії голосу;
    • навчання/донавчання голосової моделі;
    • потокове аудіо в реальному часі;
    • налаштування якості/затримки;
    • UI/UX інтерфейс застосунку.

    Працювали з AI audio стеком:
    RVC, XTTS, So-VITS-SVC, Whisper, PyTorch, WebRTC, CUDA, потоками аудіо в реальному часі.

    Окремо приділяємо увагу:
    — стабільності роботи в реальному часі;
    — якості голосу без сильних артефактів;
    — оптимізації під звичайні ПК;
    — архітектурі для подальшого масштабування.

    Готові обговорити стек, архітектуру та показати релевантний досвід.

    З повагою, Benefit Studio

  9. 556    1  0
    30 днів11 111 UAH

    Привіт! Реалізую real-time voice conversion з низькою затримкою та зв'язкою клієнт (Windows) + сервер з GPU inference.

    У мене є досвід з AI-інтеграціями та realtime-системами (WebRTC/стрімінг/обробка з низькою затримкою), тому можу реалізувати архітектуру під такий кейс.

    Архітектура:

    * Windows desktop клієнт (UI + аудіо потік)
    * Віртуальний аудіо драйвер / loopback (VB-Cable або аналог)
    * Backend сервер з GPU (inference моделі)
    * Стрімінг через WebSocket / gRPC
    * Буферизація під latency ≤ 300–400ms

    ML частина:

    * voice conversion модель (RVC / so-vits-svc / аналог)
    * завантаження reference voice (1–5 хвилин)
    * кешування voice embeddings
    * оптимізація під realtime inference

    Клієнт:

    * вибір пристроїв вводу/виводу
    * завантаження voice sample
    * кнопка start/stop streaming
    * індикатор latency / load / audio level
    * інтеграція з Discord / Zoom через virtual audio device

    Етапи роботи:

    1. Архітектура + прототип пайплайна
    — перевірка latency pipeline, вибір моделі
    Термін: 5 днів
    Вартість: 400 USD

    2. Backend GPU inference
    — realtime voice conversion API
    — оптимізація затримки
    Термін: 10 днів
    Вартість: 800 USD

    3. Windows клієнт
    — UI + audio routing + управління стрімом
    Термін: 8 днів
    Вартість: 700 USD

    4. Інтеграція + тестування
    — стабільність, tuning latency, упаковка в .exe
    Термін: 5 днів
    Вартість: 400 USD

    Термін: 4 тижні
    Бюджет: 2300 USD (MVP → стабільна версія)

    Важливо: ключовий ризик тут — саме latency і стабільність real-time моделі. Тому спочатку роблю прототип пайплайна, щоб підтвердити досяжну затримку, і тільки потім фіналізуємо клієнт.

  10. 368    1  0
    2 дні2500 UAH

    доброго дня, готовий взятися за проект, досвід у створенні подібного був

  11. Ще 5 ставок приховано
  • Нікіта Румянцев
    26 травня, 18:59 |

    Есть же аналоги уже , создание подобного очень дорого выйдет 

  • Нікіта Румянцев
    28 травня, 11:58 |

    Можем плюс-минус подсчитать, сколько выйдет затрат на токены и т.д.

  • Павло Б.
    31 травня, 7:21 |

    Нужно вручную.

  • Євген Мельник
    5 червня, 16:52 |

    Есть кейсы, где спич, направление или продукт являются конфиденциальными,  и требуют своей сборки на своих серверах друг)


Актуальні фриланс-проєкти в категорії AI та машинне навчання

Генерація та сегментація бази даних водіїв і транспортних компаній США

7777 UAH

Опис проектуМи — американська компанія в сфері HR / рекрутингу транспорту.Нам потрібен спеціаліст, який за допомогою штучного інтелекту та доступних data-інструментів зможе зібрати, збагачувати та сегментувати базу даних для подальшої роботи нашої команди.Що потрібно…

AI та машинне навчання ∙ 22 години 13 хвилин тому ∙ 12 ставок

Технічний консультант з оптимізації заліза та аудиту стабільності пам'яті

53 415 UAH

Всім привіт! Шукаю спеціаліста з комп'ютерного заліза або системного інженера, який допоможе мені розібратися з нестабільною продуктивністю мого локального сервера. Я зібрав його для робочих завдань, але, схоже, моїх аматорських знань не вистачає, щоб витиснути з нього максимум.…

AI та машинне навчання ∙ 1 день 7 годин тому ∙ 7 ставок

Автоматизація маркетингу через ШІ

шукаю людину (не бота), яка розбирається в AI агентах, вміє їх будувати. Під AI агентом я маю на увазі: обробка вхідних даних, запит на 1х ЛЛМ або подібну AI модель, потенційний запит MCP або подібного, потенційний запит RAG системи обробка вихідних даних І досвід має бути…

AI та машинне навчання ∙ 1 день 8 годин тому ∙ 25 ставок

Створення ІІ-Агента

Необхідно створити AI-агента, який буде виконувати функції професійного дизайнера упаковки для бренду спортивного харчування. Агент повинен допомагати в розробці нових дизайнів продукції, створенні маркувань та адаптації існуючих макетів під різні ринки та вимоги.Основні…

AI та машинне навчанняAI у дизайні ∙ 1 день 9 годин тому ∙ 27 ставок

«Автоматизація / Чат-боти» «Налаштування CRM»

5000 UAH

Шукаю технічного асистента / інтегратора для налаштування автоматизації в салоні краси. Налаштування чат-бота для салону краси (Інтеграція Instagram + Altegio/YCLIENTS + Wahelp) з навчанням Що маємо зараз: CRM-система: Altegio (YCLIENTS). Основний канал трафіку: Instagram Direct…

AI та машинне навчанняРозробка ботів ∙ 2 дні 5 годин тому ∙ 34 ставки

Замовник
Odd Man
Україна Київ
Проєкт опублікований
16 днів 6 годин тому
131 перегляд
Мітки
  • windows 8
  • voice cloning
  • Audio Processing
  • Real-time Processing