Zlecenia dla freelancerów

Zlecenia dla freelancerów

Zadanie dla specjalisty od Twilio + WebSocket + STT

AI i uczenie maszynowe, Programowanie stron internetowych — podano nieprawidłowe kategorie?

755 PLN

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Naszym projektem jest asystent głosowy oparty na AI, podłączony do połączeń telefonicznych przez Twilio i serwer WebSocket.

Technologie: Flask, WebSocket, Twilio, OpenAI Whisper (streaming i zwykły), GPT, TTS.

🧩 Opis obecnej architektury

Posiadamy już wdrożony i działający pełny serwer:

Przychodzące połączenia przez Twilio są przesyłane na serwer WebSocket z endpointem /twilio-stream.
Używamy Twilio <Stream> do przesyłania audio.
Na serwerze:
- Audio jest dekodowane z μ-law i konwertowane na PCM.
- Wykonywany jest VAD (detekcja aktywności głosowej).
- Implementowane jest rozpoznawanie mowy przez OpenAI Whisper (/v1/audio/transcriptions) oraz streaming Whisper przez HTTP/2.
- Po rozpoznaniu generowana jest odpowiedź przez GPT i synteza mowy za pomocą TTS.
- Odpowiedź jest wysyłana z powrotem do klienta przez <Play> TwiML i link do mp3.

⚠️ Problem

Asystent odtwarza powitanie, ale nie rozpoznaje mowy abonenta podczas połączenia, i dialog nie jest kontynuowany.

Co już zostało sprawdzone:

Połączenie WebSocket jest poprawnie ustanowione.
Audio od Twilio dociera, ale najwyraźniej nie jest dekodowane/rozpoznawane.
Problem może występować w jednym z następujących miejsc:
1. convert_audio_to_pcm nie zwraca poprawnego formatu.
2. VAD nie wykrywa głosu, a STT nie jest aktywowane.
3. Streaming Whisper nie otrzymuje audio lub nie zdąża rozpoznać (może problem z chunkami).
4. Po Whisper tekst nie jest przekazywany do GPT.
5. Odpowiedź nie jest wysyłana z powrotem przez Twilio <Play>.

✅ Co należy zrobić

Przeanalizować obecny kod (załączony w pliku Лунара телефония.pdf).
Zdiagnozować, na którym etapie łańcuch „wejściowe audio → STT → GPT → TTS → Twilio” się urywa.
Przetestować:
- poprawność odbioru audio przez WebSocket;
- poprawność chunkowania PCM;
- odpowiedź Whisper (streaming i fallback);
- działanie TTS i odtwarzanie.
Zaproponować i wdrożyć działające rozwiązanie.
Ewentualnie: logowanie do pliku, jeśli obecnie wszystko działa tylko w konsoli.
Sprawdzić, czy wszystko działa z rzeczywistym połączeniem.

Cel: stworzyć działającą infrastrukturę do odbioru i wysyłania połączeń na bazie naszych asystentów AI

Oferty 7

Artur Lavrinovich

63 1

Zlecenia 63
Ocena -
Ranking 8 057

Budżet: 500 USD Termin: 1 dzień

Dzień dobry,

Ciekawy projekt, chętnie pomogę w jego realizacji. Orientacyjny budżet wyniesie: $4000-$6000.
Aby dokładniej oszacować, trzeba omówić kilka szczegółów.
Na przykład, kilka pytań, które będą miały istotny wpływ:
1. Czy możesz udostępnić dostęp do obecnego systemu logów i dzienników błędów? To pomoże szybciej zlokalizować problem.
2. Jakie są obecne wymagania dotyczące czasu reakcji systemu na każdym etapie przetwarzania (od wejścia audio do wyjścia audio)?
3. Czy potrzebna jest integracja z innymi usługami lub API, oprócz wymienionych (Twilio, WebSocket, OpenAI)?

Te szczegóły pomogą ocenić trudność prac i określić dodatkowe potrzeby zasobów dla pomyślnej realizacji projektu.

Maksym Sokolskyi

24 0

Zlecenia 24
Ocena -
Ranking 3 828

Budżet: 400 USD Termin: 1 dzień

Dzień dobry,

Chciałbym zaoferować swoje usługi w zakresie diagnostyki i naprawy problemów w Twoim projekcie asystenta głosowego. Doświadczenie w pracy z WebSocket, a także z różnymi aspektami przetwarzania i przesyłania danych audio pozwala mi skutecznie identyfikować i usuwać podobne usterki. Dokładnie przeanalizuję dostarczony przez Ciebie kod i ustalę, na którym dokładnie etapie dochodzi do awarii w systemie obsługi połączeń audio, a także zoptymalizuję interakcję komponentów systemu, aby zapewnić niezawodną pracę.

Mój stawka wynosi 16$ za godzinę. Mogę rozpocząć analizę i naprawę w najbliższym czasie.

Z poważaniem,
Maksyм

Georgios Toutoudakis

0 0

Zlecenia -
Ocena -
Ranking 258

Budżet: 200 USD Termin: 3 dni

Cześć, Andrzeju,

Jestem Georgios Tutudakis, programistą backend z praktycznym doświadczeniem w streamingu Twilio, serwerach WebSocket, STT (Whisper) i pipeline'ach TTS/GPT — dokładnie tym stosie, którego używa Twój system.

Oto moje doświadczenie:
Tworzenie głosowego bota w czasie rzeczywistym z użyciem Twilio + WebSocket, konwersja μ-law na PCM dla Whisper STT

Zintegrowane OpenAI Whisper (streaming + wersja zapasowa) i rozwiązywanie problemów z synchronizacją fragmentów, VAD i kodowaniem PCM

Debugowanie strumieni audio dla asystentów AI (dźwięk wejściowy → VAD → STT → GPT → TTS → Twilio)

Co mogę zaoferować:
Przegląd istniejącego kodu Flask/WebSocket (LunaPhone.pdf)

Identyfikacja miejsc awarii dźwięku lub tekstu (PCM, VAD, fragmentacja STT lub link GPT)

Rejestrowanie kluczowych etapów w plikach dla lepszej widoczności

Naprawa nieaktywnych linków w łańcuchu głosowym i testowanie za pomocą rzeczywistych połączeń Twilio

Tworzenie stabilnej i testowalnej infrastruktury do odpowiedzi AI w czasie rzeczywistym

Daj znać, jeśli chcesz przeglądać logi lub sesje testowe z udostępnianiem ekranu podczas rozwiązywania problemów.

Z poważaniem,
Georgios Tutudakis

Vladyslav Hrohulenko

0 0

Zlecenia -
Ocena -
Ranking 92

Budżet: 201 USD Termin: 5 dni

Dzień dobry!

Jestem programistą Pythona z doświadczeniem w tworzeniu botów Telegram, pracy z API, WebSocket, OpenAI GPT oraz obsłudze audio przez Whisper. Znam również Twilio i usługi strumieniowe.

Chętnie przeanalizuję Twój obecny kod i pomogę znaleźć oraz usunąć przyczynę, dla której łańcuch "audio → STT GPT → TTS → Twilio" nie działa. Potrafię debugować przepływy, dekodować audio, testować VAD, konfigurować logowanie i diagnostykę.

Mogę dostarczyć krótkie sprawozdanie, w którym dokładnie wskażę miejsce występowania problemu, oraz zaproponować rozwiązanie.

Pracuję do uzyskania w pełni działającego rezultatu

Andrii Tyupa

53 0

Budżet: 200 USD Termin: 3 dni

Dzień dobry. Zajmuję się programowaniem webowym w Pythonie/JS/TS od ponad 4 lat. Tworzę interfejsy API na FastAPI/Nest.js, platformy webowe na Next.js/Django. Napisz, omówimy Twoje zadanie bardziej szczegółowo.

Z Twilio pracowałem już wiele razy, myślę, że mogę pomóc z Twoim zadaniem.

W liście nie są widoczne oferty ukryte przez zleceniodawcę lub freelancerów z profilem Plus, a także oferty, które naruszają regulamin

Andrew Ai
Mołdawia

Zleceń -
Ocena -
Ranking 45

Zadanie dla specjalisty od Twilio + WebSocket + STT

Artur Lavrinovich

Maksym Sokolskyi

Georgios Toutoudakis

Vladyslav Hrohulenko

Andrii Tyupa

Aktualnie brak ofert

Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe

System AI-agentów do marketingu i sprzedaży projektu edukacyjnego

Rozwój agenta AI w Telegramie do przyjmowania zamówień B2B (Python, FastAPI, LLM, Vector DB)

Automatyzacja telefonii AI Binotel i czatu

MATLAB i uczenie maszynowe do analizy obrazów

System wieloagentowy