Zlecenia dla freelancerów

Zlecenia dla freelancerów

Klonowanie Głosu AI w Czasie Rzeczywistym

AI i uczenie maszynowe — podano nieprawidłowe kategorie?

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Aplikacja do zmiany głosu w czasie rzeczywistym

Co robi: zmienia głos użytkownika na bieżąco — to, co mówisz do mikrofonu, rozmówca słyszy jako inny głos. Docelowy głos ustawia się jednym krótkim plikiem audio-próbką (1-5 minut).

Jak działa z punktu widzenia użytkownika

Uruchomił aplikację na swoim komputerze
Załadował próbkę głosu (.wav) którą chce naśladować
Wybrał urządzenie wejściowe i wyjściowe
Wcisnął „Start”
Mówi do mikrofonu → po ~0.3-0.5 sekundy słyszy swój głos, ale brzmiący jak próbka
Można używać w Discord, Zoom, OBS — przez wirtualny kabel audio

Co powinno być w interfejsie

Wybór urządzeń (mikrofon / słuchawki / wirtualny kabel audio)
Ładowanie / wybór próbki głosu
Trenowanie modelu głosu
Przycisk „Start / Stop”
Wskaźniki: poziom mikrofonu, aktualne opóźnienie, stan sieci
Ustawienia jakości (szybciej / ładniej)

Ramki techniczne

Opóźnienie od mikrofonu do ucha — docelowe ≤ 400 ms
Jakość głosu — rozpoznawalna, bez artefaktów przy normalnej mowie
Działa na kliencie Windows, część serwerowa — oddzielna maszyna z GPU
Powinno być zbudowane w jeden .exe do dystrybucji

Oferty 15 Dyskusje 4

Oleg Grigoryev

32 0

Budżet: 27000 UAH Termin: 45 dni

Orientacja dotycząca pierwszego roboczego MVP - 320 000 UAH i około 45 dni. W tę ocenę włączyłbym klienta Windows, wybór urządzeń audio, ładowanie próbki, przetwarzanie strumieniowe przez serwer z GPU, tryby szybsze - lepsze, kompilację do jednego .exe i pomiar rzeczywistego opóźnienia. Cel 400 ms jest realistyczny tylko po teście modelu, sieci i sterowników audio, dlatego można zacząć od krótkiego prototypu inżynieryjnego.

WAżny moment - pracujemy tylko z głosami, gdzie są prawa do użycia i zgoda właściciela. Dla takiego produktu dodałbym ograniczenia scenariuszy, logowanie i zrozumiałe oznakowanie, ponieważ w przeciwnym razie ryzyko jest nie techniczne, a prawne i reputacyjne. Zobacz, tu jest niuans - w głosie diabeł siedzi nie w interfejsie, a w opóźnieniu i artefaktach =)

> Po realizacji
>> Aplikacja Windows dla mikrofonu, wyjścia i wirtualnego kabla audio
>> oddzielna usługa GPU do konwersji głosu w strumieniu
>> wskaźniki poziomu, opóźnienia i stanu sieci
>> tryby jakości, profile testowe i pakowanie do .exe

> Pytania
>> Serwer GPU już istnieje, czy trzeba go dobrać i skonfigurować
>> potrzebny MVP na gotowych modelach czy poziom produktu przemysłowego z testami na różnych mikrofonach, sieciach i głosach

> Podobne prace Ingello
>> https://business.ingello.com/tts - blisko technologii głosowych i pracy z mową
>> https://business.ingello.com/fractal - blisko złożonej architektury AI i automatyzacji
>> https://systems-fl.ingello.com - profil Ingello Systems dla takich systemów

!!Jeśli celem jest publiczne rozpowszechnianie, lepiej zacząć od prototypu i technicznego audytu opóźnienia, a nie obiecywać jakość na chybił trafił!!

Maksym Merkuriev

0 0

Zlecenia -
Ocena -
Ranking 142

Budżet: 3000 UAH Termin: 2 dni

Mogę to zrobić za 3k z pomocą vibe codingu, już robiłem coś podobnego. Z wymagań, abyście mieli mocną kartę graficzną lub pieniądze na chmurę AI.

Daria Kratofil

0 0

Zlecenia -
Ocena -
Ranking 196

Budżet: 27000 UAH Termin: 45 dni

mamy już praktycznie gotową architekturę pod taki głosowy produkt AI, można ją szybko dostosować i uruchomić pod klienta Windows, serwer GPU i wirtualny kabel audio
jesteśmy w kontakcie, możemy omówić szczegóły tutaj na platformie

ocena pierwszego etapu roboczego - 260000 UAH i około 45 dni

Można nie komplikować startu - poszedłbym przez techniczny prototyp z mierzalnym opóźnieniem, a potem poprawiał jakość głosu
cel 0.3-0.5 sekundy jest osiągalny tylko przy starannej przetwarzaniu strumieniowym, ustawieniu buforów, modelu i sieci

- wyjaśnię 2 punkty
-- potrzebny jest dokładnie rozpoznawalny głos konkretnej osoby czy wystarczy zmiana barwy i manier mowy
-- serwer GPU już istnieje czy trzeba go dobrać i wdrożyć razem z rozwiązaniem

- co zaplanujemy w pierwszym etapie
-- aplikacja Windows z wyborem mikrofonu, wyjścia i wirtualnego kabla
-- ładowanie próbki wav i przygotowanie profilu głosowego
-- strumieniowe przesyłanie audio na serwer GPU
-- przetwarzanie głosu w czasie rzeczywistym
-- start, stop, wskaźnik poziomu, opóźnienia i stanu połączenia
-- kompilacja do jednego .exe do testowego rozpowszechniania

- podobne przypadki Ingello
-- https://business.ingello.com/tts - głos AI i rozwiązania mowy
-- https://business.ingello.com/fractal - architektura serwerowa dla złożonych procesów AI
-- https://business.ingello.com/vorfahr - mocny przykład produktu z automatyzacją i integracjami

główna strona dla freelancehunt - https://systems-fl.ingello.com

z doświadczenia, najpierw warto sprawdzić prototyp na 1-2 docelowych głosach w rzeczywistym Discordzie lub OBS
tutaj !!niskie opóźnienie jest ważniejsze niż ładny obrazek demo!! - sprzęt pokaże prawdę lepiej niż prezentacja ))-

Matvii Marchenko

20 0

Zlecenia 20
Ocena -
Ranking 2 077

Budżet: 26000 UAH Termin: 22 dni

Zrozumiałem TŻ: aplikacja Windows, konwersja głosu w czasie rzeczywistym (mikrofon → docelowy głos → wirtualny kabel audio), docelowe opóźnienie ≤400ms, część serwerowa na GPU. Przykład docelowego głosu — jeden plik 1-5 minut. .exe do dystrybucji, UI z wyborem urządzeń, treningiem modelu, wskaźnikami poziomu i opóźnienia.

Stos technologiczny, jak widzę.

Model głosowy. Dla konwersji głosu w czasie rzeczywistym z opóźnieniem 400ms i jakością bez artefaktów najlepszą opcją w 2026 roku jest RVC (Retrieval-based Voice Conversion) lub jego ewolucja Seed-VC. RVC jest trenowana na krótkich próbkach, wspiera inferencję w czasie rzeczywistym na GPU 12GB+. Alternatywa — F5-TTS lub OpenVoice v2 od MyShell do klonowania głosu (ale są raczej do generacji wsadowej, trudniej utrzymać w czasie rzeczywistym w 400ms). Inferencja RVC na RTX 3060/4060 daje pewne 200-300ms na chunk, co mieści się w budżecie.

Architektura. Cienki klient Windows (Python + Qt lub C# WPF) łapie mikrofon przez WASAPI/PyAudio, dzieli na chunks po 100-150ms, wysyła na serwer GPU przez WebSocket z opcjami niskiego opóźnienia (ping-pong keepalive, bez buforowania). Serwer wykonuje inferencję i zwraca przetworzony audio-chunk. Klient pisze do wirtualnego kabla audio (VB-Audio Virtual Cable jako standard dla Windows). Budżet opóźnienia: 30ms capture + 50ms round-trip sieciowy (jeśli w tej samej sieci) + 200ms inferencja GPU + 30ms odtwarzanie = ~310ms. Jeśli serwer jest zdalny (cloud GPU) — round-trip sieciowy może wzrosnąć do 80-150ms, plus zależność od stabilności połączenia.

UI. Tkinter lub PyQt5 dla klienta Windows (mam doświadczenie produkcyjne z PyQt5 właśnie w tej klasie zadań). Wybór urządzeń — przez pyaudio.list_devices() z filtrem Input/Output. Ładowanie próbki głosu, wysyłanie na serwer, trening modelu (krok treningowy synchroniczny lub w tle). Przycisk Start/Stop. Wskaźniki — poziom mikrofonu (RMS), opóźnienie w czasie rzeczywistym (rolling avg za ostatnie 50 chunks), status połączenia.

Serwer. FastAPI lub serwer WebSocket na aiohttp z modelem załadowanym do pamięci, kolejka pracowników związana z GPU. Jeśli planujecie wielu jednoczesnych użytkowników — potrzebny jest load balancer i kilka instancji GPU, ale dla MVP jedna maszyna z RTX 3090 lub 4090 utrzymuje ~5-10 jednoczesnych użytkowników.

Kompilacja do .exe — PyInstaller z zebranymi zależnościami, lub Nuitka do kompilacji produkcyjnej. Mam doświadczenie z PyInstaller w projektach desktopowych, .exe kompiluje się niezawodnie.

Szczerze: konwersja głosu w czasie rzeczywistym w tym opóźnieniu — to niszowe zadanie ML, w produkcji czegoś takiego nie robiłem. Mam silny backend, doświadczenie ASR/TTS (Whisper,

Nikita Rumyantsev

5 1

Budżet: 16000 UAH Termin: 14 dni

Cześć, pisz na priv
Myślę, że dam radę, robiłem coś podobnego, ale potrzebuję bardziej szczegółowego ZT. Rozpiszę, ile zajmie tokenów itd.

Ivan Danyleiko

20 0

Budżet: 25000 UAH Termin: 6 dni

Witam. Rok temu robiłem podobne rozwiązanie pod Windows w formacie .exe do konwersji głosu w czasie rzeczywistym. Mam gotowe prace, teraz trzeba zaktualizować pakiety, dostosować do waszych wymagań i przetestować połączenie Windows-klient + serwer GPU. Myślę, że szybko doprowadzę to do MVP.

Rumzik Matvey

15 0

Budżet: 27000 UAH Termin: 7 dni

Dzień dobry.\nWłaśnie teraz zajmuję się tts-ami kartesiańskimi/inword i lokalnymi llm, takimi jak XTTS-v2 (Coqui).\nNie jest to takie proste, jak się wydaje, tts to jedno, a STT to drugie, a jednolite rozwiązanie nie zawsze daje akceptowalny wynik; czasami tts jest słabe, czasami latencja stt nie pasuje, a jakość rozpoznawania nie jest odpowiednia. Aby osiągnąć Twój cel 400 ms, trzeba trochę pokombinować. W zasadzie teraz tym się zajmuję, próbując osiągnąć latencję przynajmniej 1 sekundy.\nJestem seniorem programistą, pracuję na stawkę godzinową 30 euro/godzinę za to zadanie.\nTrudno powiedzieć, ile czasu zajmie samo jądro, może 10 godzin, a może 40 godzin + wrapper dla Windowsa.\nJeśli Ci to odpowiada, moja stawka jest dla Ciebie w porządku - wielkie dzięki. Zawsze wykonuję wszystko jakościowo.\nJeśli się skontaktujemy, zrobię dokładniejszą wycenę kosztów tego projektu.

Andrii Y.

0 0

Zlecenia -
Ocena -
Ranking 180

Budżet: 27000 UAH Termin: 50 dni

Mamy doświadczenie w opracowywaniu rozwiązań AI/audio w czasie rzeczywistym, w tym pracy z konwersją głosu, przesyłaniem audio, inferencją GPU i przetwarzaniem dźwięku o niskim opóźnieniu.

Rozumiemy specyfikę zadania z zmianą głosu w czasie rzeczywistym:
— przechwytywanie i przetwarzanie strumieni audio;
— klonowanie głosu na podstawie krótkiego próbki;
— minimalizacja opóźnienia;
— integracja z Discord / Zoom / OBS przez wirtualne urządzenia audio;
— budowa aplikacji desktopowej dla Windows w formacie .exe.

Możemy zrealizować:
• klienta desktopowego;
• serwerową część GPU;
• pipeline konwersji głosu;
• szkolenie/doszkalanie modelu głosowego;
• przesyłanie w czasie rzeczywistym;
• ustawienia jakości/opóźnienia;
• interfejs UI/UX aplikacji.

Pracowaliśmy z AI audio stack:
RVC, XTTS, So-VITS-SVC, Whisper, PyTorch, WebRTC, CUDA, pipeline audio w czasie rzeczywistym.

Szczególnie zwracamy uwagę na:
— stabilność pracy w czasie rzeczywistym;
— jakość głosu bez silnych artefaktów;
— optymalizację pod zwykłe komputery;
— architekturę dla dalszej skalowalności.

Jesteśmy gotowi omówić stack, architekturę i pokazać odpowiednie doświadczenie.

Z poważaniem Benefit Studio

Ganna K.

1 0

Zlecenia -
Ocena -
Ranking 556

Budżet: 11111 UAH Termin: 30 dni

Cześć! Realizuję konwersję głosu w czasie rzeczywistym z niską latencją oraz połączenie klient (Windows) + serwer z inferencją GPU.

Mam doświadczenie w integracjach AI oraz systemach w czasie rzeczywistym (WebRTC/streaming/przetwarzanie o niskiej latencji), dlatego mogę zrealizować architekturę pod taki przypadek.

Architektura:

* Klient desktopowy Windows (UI + strumień audio)
* Wirtualny sterownik audio / loopback (VB-Cable lub analog)
* Serwer backendowy z GPU (inferencja modeli)
* Streaming przez WebSocket / gRPC
* Buforowanie pod latencję ≤ 300–400ms

Część ML:

* model konwersji głosu (RVC / so-vits-svc / analog)
* ładowanie referencyjnego głosu (1–5 minut)
* cachowanie embeddingów głosu
* optymalizacja pod inferencję w czasie rzeczywistym

Klient:

* wybór urządzeń wejścia/wyjścia
* ładowanie próbki głosu
* przycisk start/stop streamingu
* wskaźnik latencji / obciążenia / poziomu audio
* integracja z Discord / Zoom przez wirtualne urządzenie audio

Etapy pracy:

1. Architektura + prototyp pipeline'u
— sprawdzenie latencji pipeline'u, wybór modelu
Termin: 5 dni
Koszt: 400 USD

2. Inferencja GPU backendu
— API konwersji głosu w czasie rzeczywistym
— optymalizacja latencji
Termin: 10 dni
Koszt: 800 USD

3. Klient Windows
— UI + routowanie audio + zarządzanie streamem
Termin: 8 dni
Koszt: 700 USD

4. Integracja + testowanie
— stabilność, dostrajanie latencji, pakowanie do .exe
Termin: 5 dni
Koszt: 400 USD

Termin: 4 tygodnie
Budżet: 2300 USD (MVP → stabilna wersja)

Ważne: kluczowym ryzykiem tutaj jest właśnie latencja i stabilność modelu w czasie rzeczywistym. Dlatego najpierw robię prototyp pipeline'u, aby potwierdzić osiągalną latencję, a dopiero potem finalizujemy klienta.

Andrii Y.

1 1

Zlecenia -
Ocena -
Ranking 246

Budżet: 2500 UAH Termin: 2 dni

Dzień dobry, jestem gotów zająć się projektem, mam doświadczenie w tworzeniu podobnych.

W liście nie są widoczne oferty ukryte przez zleceniodawcę lub freelancerów z profilem Plus, a także oferty, które naruszają regulamin

Nikita Rumyantsev 26 maja

Есть же аналоги уже , создание подобного очень дорого выйдет

Nikita Rumyantsev 28 maja

Можем плюс-минус подсчитать, сколько выйдет затрат на токены и т.д.

Pavlo B. 31 maja

Нужно вручную.

Yevhen Melnik 5 czerwca

Есть кейсы, где спич, направление или продукт являются конфиденциальными, и требуют своей сборки на своих серверах друг)

Dodaj komentarz

Odd Man
Kijów, Ukraina

Zleceń -
Ocena -
Ranking 20

Klonowanie Głosu AI w Czasie Rzeczywistym

Aplikacja do zmiany głosu w czasie rzeczywistym

Jak działa z punktu widzenia użytkownika

Co powinno być w interfejsie

Ramki techniczne

Oleg Grigoryev

Maksym Merkuriev

Daria Kratofil

Matvii Marchenko

Nikita Rumyantsev

Ivan Danyleiko

Rumzik Matvey

Andrii Y.

Ganna K.

Andrii Y.

Aktualnie brak ofert

Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe

Przetwarzanie i konwersja dużej ilości tekstu

Projekt gry Web3

Stworzenie AI do wyszukiwania zainteresowanych firm B2B na dotacje

Usługa AI do analizy konkurencji

Przetestować działanie Claude Code przez CLI teraz