Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Opublikuj swoje zlecenie za darmo i otrzymaj oferty od wykonawców freelancerów już minutę po opublikowaniu!

Klonowanie Głosu AI w Czasie Rzeczywistym

Translated

  1. 5093
     30  0
    Przykład pracy:
    Aplikacja mobilna z adminką
    45 dni2214 PLN

    Orientacja dotycząca pierwszego roboczego MVP - 320 000 UAH i około 45 dni. W tę ocenę włączyłbym klienta Windows, wybór urządzeń audio, ładowanie próbki, przetwarzanie strumieniowe przez serwer z GPU, tryby szybsze - lepsze, kompilację do jednego .exe i pomiar rzeczywistego opóźnienia. Cel 400 ms jest realistyczny tylko po teście modelu, sieci i sterowników audio, dlatego można zacząć od krótkiego prototypu inżynieryjnego.

    WAżny moment - pracujemy tylko z głosami, gdzie są prawa do użycia i zgoda właściciela. Dla takiego produktu dodałbym ograniczenia scenariuszy, logowanie i zrozumiałe oznakowanie, ponieważ w przeciwnym razie ryzyko jest nie techniczne, a prawne i reputacyjne. Zobacz, tu jest niuans - w głosie diabeł siedzi nie w interfejsie, a w opóźnieniu i artefaktach =)

    > Po realizacji
    >> Aplikacja Windows dla mikrofonu, wyjścia i wirtualnego kabla audio
    >> oddzielna usługa GPU do konwersji głosu w strumieniu
    >> wskaźniki poziomu, opóźnienia i stanu sieci
    >> tryby jakości, profile testowe i pakowanie do .exe

    > Pytania
    >> Serwer GPU już istnieje, czy trzeba go dobrać i skonfigurować
    >> potrzebny MVP na gotowych modelach czy poziom produktu przemysłowego z testami na różnych mikrofonach, sieciach i głosach

    > Podobne prace Ingello
    >> https://business.ingello.com/tts - blisko technologii głosowych i pracy z mową
    >> https://business.ingello.com/fractal - blisko złożonej architektury AI i automatyzacji
    >> https://systems-fl.ingello.com - profil Ingello Systems dla takich systemów

    !!Jeśli celem jest publiczne rozpowszechnianie, lepiej zacząć od prototypu i technicznego audytu opóźnienia, a nie obiecywać jakość na chybił trafił!!

  2. 141  
    2 dni246 PLN

    Mogę to zrobić za 3k z pomocą vibe codingu, już robiłem coś podobnego. Z wymagań, abyście mieli mocną kartę graficzną lub pieniądze na chmurę AI.

  3. 196  
    45 dni2214 PLN

    mamy już praktycznie gotową architekturę pod taki głosowy produkt AI, można ją szybko dostosować i uruchomić pod klienta Windows, serwer GPU i wirtualny kabel audio
    jesteśmy w kontakcie, możemy omówić szczegóły tutaj na platformie

    ocena pierwszego etapu roboczego - 260000 UAH i około 45 dni

    Można nie komplikować startu - poszedłbym przez techniczny prototyp z mierzalnym opóźnieniem, a potem poprawiał jakość głosu
    cel 0.3-0.5 sekundy jest osiągalny tylko przy starannej przetwarzaniu strumieniowym, ustawieniu buforów, modelu i sieci

    - wyjaśnię 2 punkty
    -- potrzebny jest dokładnie rozpoznawalny głos konkretnej osoby czy wystarczy zmiana barwy i manier mowy
    -- serwer GPU już istnieje czy trzeba go dobrać i wdrożyć razem z rozwiązaniem

    - co zaplanujemy w pierwszym etapie
    -- aplikacja Windows z wyborem mikrofonu, wyjścia i wirtualnego kabla
    -- ładowanie próbki wav i przygotowanie profilu głosowego
    -- strumieniowe przesyłanie audio na serwer GPU
    -- przetwarzanie głosu w czasie rzeczywistym
    -- start, stop, wskaźnik poziomu, opóźnienia i stanu połączenia
    -- kompilacja do jednego .exe do testowego rozpowszechniania

    - podobne przypadki Ingello
    -- https://business.ingello.com/tts - głos AI i rozwiązania mowy
    -- https://business.ingello.com/fractal - architektura serwerowa dla złożonych procesów AI
    -- https://business.ingello.com/vorfahr - mocny przykład produktu z automatyzacją i integracjami

    główna strona dla freelancehunt - https://systems-fl.ingello.com

    z doświadczenia, najpierw warto sprawdzić prototyp na 1-2 docelowych głosach w rzeczywistym Discordzie lub OBS
    tutaj !!niskie opóźnienie jest ważniejsze niż ładny obrazek demo!! - sprzęt pokaże prawdę lepiej niż prezentacja ))-

  4. 2116    20  0
    22 dni2132 PLN

    Zrozumiałem TŻ: aplikacja Windows, konwersja głosu w czasie rzeczywistym (mikrofon → docelowy głos → wirtualny kabel audio), docelowe opóźnienie ≤400ms, część serwerowa na GPU. Przykład docelowego głosu — jeden plik 1-5 minut. .exe do dystrybucji, UI z wyborem urządzeń, treningiem modelu, wskaźnikami poziomu i opóźnienia.

    Stos technologiczny, jak widzę.

    Model głosowy. Dla konwersji głosu w czasie rzeczywistym z opóźnieniem 400ms i jakością bez artefaktów najlepszą opcją w 2026 roku jest RVC (Retrieval-based Voice Conversion) lub jego ewolucja Seed-VC. RVC jest trenowana na krótkich próbkach, wspiera inferencję w czasie rzeczywistym na GPU 12GB+. Alternatywa — F5-TTS lub OpenVoice v2 od MyShell do klonowania głosu (ale są raczej do generacji wsadowej, trudniej utrzymać w czasie rzeczywistym w 400ms). Inferencja RVC na RTX 3060/4060 daje pewne 200-300ms na chunk, co mieści się w budżecie.

    Architektura. Cienki klient Windows (Python + Qt lub C# WPF) łapie mikrofon przez WASAPI/PyAudio, dzieli na chunks po 100-150ms, wysyła na serwer GPU przez WebSocket z opcjami niskiego opóźnienia (ping-pong keepalive, bez buforowania). Serwer wykonuje inferencję i zwraca przetworzony audio-chunk. Klient pisze do wirtualnego kabla audio (VB-Audio Virtual Cable jako standard dla Windows). Budżet opóźnienia: 30ms capture + 50ms round-trip sieciowy (jeśli w tej samej sieci) + 200ms inferencja GPU + 30ms odtwarzanie = ~310ms. Jeśli serwer jest zdalny (cloud GPU) — round-trip sieciowy może wzrosnąć do 80-150ms, plus zależność od stabilności połączenia.

    UI. Tkinter lub PyQt5 dla klienta Windows (mam doświadczenie produkcyjne z PyQt5 właśnie w tej klasie zadań). Wybór urządzeń — przez pyaudio.list_devices() z filtrem Input/Output. Ładowanie próbki głosu, wysyłanie na serwer, trening modelu (krok treningowy synchroniczny lub w tle). Przycisk Start/Stop. Wskaźniki — poziom mikrofonu (RMS), opóźnienie w czasie rzeczywistym (rolling avg za ostatnie 50 chunks), status połączenia.

    Serwer. FastAPI lub serwer WebSocket na aiohttp z modelem załadowanym do pamięci, kolejka pracowników związana z GPU. Jeśli planujecie wielu jednoczesnych użytkowników — potrzebny jest load balancer i kilka instancji GPU, ale dla MVP jedna maszyna z RTX 3090 lub 4090 utrzymuje ~5-10 jednoczesnych użytkowników.

    Kompilacja do .exe — PyInstaller z zebranymi zależnościami, lub Nuitka do kompilacji produkcyjnej. Mam doświadczenie z PyInstaller w projektach desktopowych, .exe kompiluje się niezawodnie.

    Szczerze: konwersja głosu w czasie rzeczywistym w tym opóźnieniu — to niszowe zadanie ML, w produkcji czegoś takiego nie robiłem. Mam silny backend, doświadczenie ASR/TTS (Whisper,

  5. 542    4  1
    14 dni1312 PLN

    Cześć, pisz na priv
    Myślę, że dam radę, robiłem coś podobnego, ale potrzebuję bardziej szczegółowego ZT. Rozpiszę, ile zajmie tokenów itd.

  6. 9351    20  0   1
    6 dni2050 PLN

    Witam. Rok temu robiłem podobne rozwiązanie pod Windows w formacie .exe do konwersji głosu w czasie rzeczywistym. Mam gotowe prace, teraz trzeba zaktualizować pakiety, dostosować do waszych wymagań i przetestować połączenie Windows-klient + serwer GPU. Myślę, że szybko doprowadzę to do MVP.

  7. 3926    15  0
    7 dni2214 PLN

    Dzień dobry.\nWłaśnie teraz zajmuję się tts-ami kartesiańskimi/inword i lokalnymi llm, takimi jak XTTS-v2 (Coqui).\nNie jest to takie proste, jak się wydaje, tts to jedno, a STT to drugie, a jednolite rozwiązanie nie zawsze daje akceptowalny wynik; czasami tts jest słabe, czasami latencja stt nie pasuje, a jakość rozpoznawania nie jest odpowiednia. Aby osiągnąć Twój cel 400 ms, trzeba trochę pokombinować. W zasadzie teraz tym się zajmuję, próbując osiągnąć latencję przynajmniej 1 sekundy.\nJestem seniorem programistą, pracuję na stawkę godzinową 30 euro/godzinę za to zadanie.\nTrudno powiedzieć, ile czasu zajmie samo jądro, może 10 godzin, a może 40 godzin + wrapper dla Windowsa.\nJeśli Ci to odpowiada, moja stawka jest dla Ciebie w porządku - wielkie dzięki. Zawsze wykonuję wszystko jakościowo.\nJeśli się skontaktujemy, zrobię dokładniejszą wycenę kosztów tego projektu.

  8. 258  
    50 dni2214 PLN

    Mamy doświadczenie w opracowywaniu rozwiązań AI/audio w czasie rzeczywistym, w tym pracy z konwersją głosu, przesyłaniem audio, inferencją GPU i przetwarzaniem dźwięku o niskim opóźnieniu.

    Rozumiemy specyfikę zadania z zmianą głosu w czasie rzeczywistym:
    — przechwytywanie i przetwarzanie strumieni audio;
    — klonowanie głosu na podstawie krótkiego próbki;
    — minimalizacja opóźnienia;
    — integracja z Discord / Zoom / OBS przez wirtualne urządzenia audio;
    — budowa aplikacji desktopowej dla Windows w formacie .exe.

    Możemy zrealizować:
    • klienta desktopowego;
    • serwerową część GPU;
    • pipeline konwersji głosu;
    • szkolenie/doszkalanie modelu głosowego;
    • przesyłanie w czasie rzeczywistym;
    • ustawienia jakości/opóźnienia;
    • interfejs UI/UX aplikacji.

    Pracowaliśmy z AI audio stack:
    RVC, XTTS, So-VITS-SVC, Whisper, PyTorch, WebRTC, CUDA, pipeline audio w czasie rzeczywistym.

    Szczególnie zwracamy uwagę na:
    — stabilność pracy w czasie rzeczywistym;
    — jakość głosu bez silnych artefaktów;
    — optymalizację pod zwykłe komputery;
    — architekturę dla dalszej skalowalności.

    Jesteśmy gotowi omówić stack, architekturę i pokazać odpowiednie doświadczenie.

    Z poważaniem Benefit Studio

  9. 556    1  0
    30 dni911 PLN

    Cześć! Realizuję konwersję głosu w czasie rzeczywistym z niską latencją oraz połączenie klient (Windows) + serwer z inferencją GPU.

    Mam doświadczenie w integracjach AI oraz systemach w czasie rzeczywistym (WebRTC/streaming/przetwarzanie o niskiej latencji), dlatego mogę zrealizować architekturę pod taki przypadek.

    Architektura:

    * Klient desktopowy Windows (UI + strumień audio)
    * Wirtualny sterownik audio / loopback (VB-Cable lub analog)
    * Serwer backendowy z GPU (inferencja modeli)
    * Streaming przez WebSocket / gRPC
    * Buforowanie pod latencję ≤ 300–400ms

    Część ML:

    * model konwersji głosu (RVC / so-vits-svc / analog)
    * ładowanie referencyjnego głosu (1–5 minut)
    * cachowanie embeddingów głosu
    * optymalizacja pod inferencję w czasie rzeczywistym

    Klient:

    * wybór urządzeń wejścia/wyjścia
    * ładowanie próbki głosu
    * przycisk start/stop streamingu
    * wskaźnik latencji / obciążenia / poziomu audio
    * integracja z Discord / Zoom przez wirtualne urządzenie audio

    Etapy pracy:

    1. Architektura + prototyp pipeline'u
    — sprawdzenie latencji pipeline'u, wybór modelu
    Termin: 5 dni
    Koszt: 400 USD

    2. Inferencja GPU backendu
    — API konwersji głosu w czasie rzeczywistym
    — optymalizacja latencji
    Termin: 10 dni
    Koszt: 800 USD

    3. Klient Windows
    — UI + routowanie audio + zarządzanie streamem
    Termin: 8 dni
    Koszt: 700 USD

    4. Integracja + testowanie
    — stabilność, dostrajanie latencji, pakowanie do .exe
    Termin: 5 dni
    Koszt: 400 USD

    Termin: 4 tygodnie
    Budżet: 2300 USD (MVP → stabilna wersja)

    Ważne: kluczowym ryzykiem tutaj jest właśnie latencja i stabilność modelu w czasie rzeczywistym. Dlatego najpierw robię prototyp pipeline'u, aby potwierdzić osiągalną latencję, a dopiero potem finalizujemy klienta.

  10. 368    1  0
    2 dni205 PLN

    Dzień dobry, jestem gotów zająć się projektem, mam doświadczenie w tworzeniu podobnych.

  11. Jeszcze 5 ofert jest ukrytych
  • Nikita Rumyantsev
    26 maja, 18:59 |

    Есть же аналоги уже , создание подобного очень дорого выйдет 

  • Nikita Rumyantsev
    28 maja, 11:58 |

    Можем плюс-минус подсчитать, сколько выйдет затрат на токены и т.д.

  • Pavlo B.
    31 maja, 7:21 |

    Нужно вручную.

  • Yevhen Melnik
    5 czerwca, 16:52 |

    Есть кейсы, где спич, направление или продукт являются конфиденциальными,  и требуют своей сборки на своих серверах друг)


Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe

Stworzenie i aktywacja 54 stron SEO (WordPress + Claude Code)

1804 PLN

Stworzyć i opublikować 54 geo-landing page dla nadmorskich miast Katalonii (zapytania „wynajem samochodu [Miasto]”). Projekt, ceny i katalog samochodów wszędzie są takie same. Główną rutynę wykonuje Claude Code (połączony z witryną), twoim zadaniem jest uruchomienie AI, ręczna…

AI i uczenie maszynowePromocja w wyszukiwarkach (SEO) ∙ 2 godziny 57 minut temu ∙ 21 ofert

Sztuczna inteligencja dla działu sprzedaży

Produkujemy i sprzedajemy ukryte drzwi https://pro.axiomadoors.com/ Potrzebny jest AI, który będzie odpowiadał na wiadomości i telefony w godzinach poza pracą. Zgłoszenia trafiają do CRM KIPIN. Kontakty należy brać stamtąd. Należy również odpowiadać pod postami na FB Proszę…

AI i uczenie maszynowe ∙ 4 godziny 18 minut temu ∙ 13 ofert

Stworzenie kursu na temat usług AI i przeprowadzenie webinaru

2050 PLN

Potrzebny ekspert ds. narzędzi AI do stworzenia kursu i przeprowadzenia webinaru Zadania: opracowanie materiałów edukacyjnych i scenariuszy mini-kursu na temat narzędzi AI dla biznesu, przeprowadzenie webinarów dla audytorium przedsiębiorców i marketerów. Wymagania:…

AI i uczenie maszynoweKonsulting ∙ 10 godzin 40 sekund temu ∙ 7 ofert

Poprawić działanie Claude Code i prace związane z pisaniem oprogramowania

Obecnie rozwijam CRM i analitykę, oprogramowanie. Robię to przez Claude Code, ale rozumiem, że wyniki nie są najlepsze pod względem zmian. Mam 2 zadania - Potrzebuję pomocy w stworzeniu presetów dotyczących umiejętności, MD itd., aby poprawić jakość. Wziąć sprawdzone, z którymi…

AI i uczenie maszynowePython ∙ 2 dni temu ∙ 23 oferty

Potrzebny specjalista do szkolenia modelu detekcji obiektów na rysunkach architektonicznych

1. Cel zadaniaNależy nauczyć lub dostosować model do automatycznego wyszukiwania i klasyfikacji elementów na architektonicznych rysunkach projektów wnętrz.System ma znajdować obiekty na planach, otaczać je bbox/ konturem, określać klasę obiektu i zwracać wynik w formacie JSON…

AI i uczenie maszynowe ∙ 2 dni 1 godzina temu ∙ 8 ofert

Zleceniodawca
Odd Man
Ukraina Kijów
Zlecenie zostało opublikowane
13 dni 22 godziny temu
131 wyświetleń
Do zamknięcia
1 godzina 16 minut
Tagi
  • windows 8
  • voice cloning
  • Audio Processing
  • Real-time Processing