Zadanie dla specjalisty od Twilio + WebSocket + STT
Naszym projektem jest asystent głosowy oparty na AI, podłączony do połączeń telefonicznych przez Twilio i serwer WebSocket.
Technologie: Flask, WebSocket, Twilio, OpenAI Whisper (streaming i zwykły), GPT, TTS.
🧩 Opis obecnej architektury
Posiadamy już wdrożony i działający pełny serwer:
- Przychodzące połączenia przez Twilio są przesyłane na serwer WebSocket z endpointem /twilio-stream.
- Używamy Twilio <Stream> do przesyłania audio.
- Na serwerze:
- Audio jest dekodowane z μ-law i konwertowane na PCM.
- Wykonywany jest VAD (detekcja aktywności głosowej).
- Implementowane jest rozpoznawanie mowy przez OpenAI Whisper (/v1/audio/transcriptions) oraz streaming Whisper przez HTTP/2.
- Po rozpoznaniu generowana jest odpowiedź przez GPT i synteza mowy za pomocą TTS.
- Odpowiedź jest wysyłana z powrotem do klienta przez <Play> TwiML i link do mp3.
⚠️ Problem
Asystent odtwarza powitanie, ale nie rozpoznaje mowy abonenta podczas połączenia, i dialog nie jest kontynuowany.
Co już zostało sprawdzone:
- Połączenie WebSocket jest poprawnie ustanowione.
- Audio od Twilio dociera, ale najwyraźniej nie jest dekodowane/rozpoznawane.
- Problem może występować w jednym z następujących miejsc:
- convert_audio_to_pcm nie zwraca poprawnego formatu.
- VAD nie wykrywa głosu, a STT nie jest aktywowane.
- Streaming Whisper nie otrzymuje audio lub nie zdąża rozpoznać (może problem z chunkami).
- Po Whisper tekst nie jest przekazywany do GPT.
- Odpowiedź nie jest wysyłana z powrotem przez Twilio <Play>.
✅ Co należy zrobić
- Przeanalizować obecny kod (załączony w pliku Лунара телефония.pdf).
- Zdiagnozować, na którym etapie łańcuch „wejściowe audio → STT → GPT → TTS → Twilio” się urywa.
- Przetestować:
- poprawność odbioru audio przez WebSocket;
- poprawność chunkowania PCM;
- odpowiedź Whisper (streaming i fallback);
- działanie TTS i odtwarzanie.
- Zaproponować i wdrożyć działające rozwiązanie.
- Ewentualnie: logowanie do pliku, jeśli obecnie wszystko działa tylko w konsoli.
- Sprawdzić, czy wszystko działa z rzeczywistym połączeniem.
Cel: stworzyć działającą infrastrukturę do odbioru i wysyłania połączeń na bazie naszych asystentów AI
-
1 dzień1890 PLN
8193 63 1 1 dzień1890 PLNDzień dobry,
Ciekawy projekt, chętnie pomogę w jego realizacji. Orientacyjny budżet wyniesie: $4000-$6000.
Aby dokładniej oszacować, trzeba omówić kilka szczegółów.
Na przykład, kilka pytań, które będą miały istotny wpływ:
1. Czy możesz udostępnić dostęp do obecnego systemu logów i dzienników błędów? To pomoże szybciej zlokalizować problem.
2. Jakie są obecne wymagania dotyczące czasu reakcji systemu na każdym etapie przetwarzania (od wejścia audio do wyjścia audio)?
3. Czy potrzebna jest integracja z innymi usługami lub API, oprócz wymienionych (Twilio, WebSocket, OpenAI)?
… Te szczegóły pomogą ocenić trudność prac i określić dodatkowe potrzeby zasobów dla pomyślnej realizacji projektu.
-
1 dzień1512 PLN
3853 24 0 1 dzień1512 PLNDzień dobry,
Chciałbym zaoferować swoje usługi w zakresie diagnostyki i naprawy problemów w Twoim projekcie asystenta głosowego. Doświadczenie w pracy z WebSocket, a także z różnymi aspektami przetwarzania i przesyłania danych audio pozwala mi skutecznie identyfikować i usuwać podobne usterki. Dokładnie przeanalizuję dostarczony przez Ciebie kod i ustalę, na którym dokładnie etapie dochodzi do awarii w systemie obsługi połączeń audio, a także zoptymalizuję interakcję komponentów systemu, aby zapewnić niezawodną pracę.
Mój stawka wynosi 16$ za godzinę. Mogę rozpocząć analizę i naprawę w najbliższym czasie.
Z poważaniem,
Maksyм
-
3 dni756 PLN
258 3 dni756 PLNCześć, Andrzeju,
Jestem Georgios Tutudakis, programistą backend z praktycznym doświadczeniem w streamingu Twilio, serwerach WebSocket, STT (Whisper) i pipeline'ach TTS/GPT — dokładnie tym stosie, którego używa Twój system.
Oto moje doświadczenie:
Tworzenie głosowego bota w czasie rzeczywistym z użyciem Twilio + WebSocket, konwersja μ-law na PCM dla Whisper STT
Zintegrowane OpenAI Whisper (streaming + wersja zapasowa) i rozwiązywanie problemów z synchronizacją fragmentów, VAD i kodowaniem PCM
… Debugowanie strumieni audio dla asystentów AI (dźwięk wejściowy → VAD → STT → GPT → TTS → Twilio)
Co mogę zaoferować:
Przegląd istniejącego kodu Flask/WebSocket (LunaPhone.pdf)
Identyfikacja miejsc awarii dźwięku lub tekstu (PCM, VAD, fragmentacja STT lub link GPT)
Rejestrowanie kluczowych etapów w plikach dla lepszej widoczności
Naprawa nieaktywnych linków w łańcuchu głosowym i testowanie za pomocą rzeczywistych połączeń Twilio
Tworzenie stabilnej i testowalnej infrastruktury do odpowiedzi AI w czasie rzeczywistym
Daj znać, jeśli chcesz przeglądać logi lub sesje testowe z udostępnianiem ekranu podczas rozwiązywania problemów.
Z poważaniem,
Georgios Tutudakis
-
5 dni760 PLN
92 5 dni760 PLNDzień dobry!
Jestem programistą Pythona z doświadczeniem w tworzeniu botów Telegram, pracy z API, WebSocket, OpenAI GPT oraz obsłudze audio przez Whisper. Znam również Twilio i usługi strumieniowe.
Chętnie przeanalizuję Twój obecny kod i pomogę znaleźć oraz usunąć przyczynę, dla której łańcuch "audio → STT GPT → TTS → Twilio" nie działa. Potrafię debugować przepływy, dekodować audio, testować VAD, konfigurować logowanie i diagnostykę.
Mogę dostarczyć krótkie sprawozdanie, w którym dokładnie wskażę miejsce występowania problemu, oraz zaproponować rozwiązanie.
Pracuję do uzyskania w pełni działającego rezultatu
-
3 dni756 PLN
7123 53 0 3 dni756 PLNDzień dobry. Zajmuję się programowaniem webowym w Pythonie/JS/TS od ponad 4 lat. Tworzę interfejsy API na FastAPI/Nest.js, platformy webowe na Next.js/Django. Napisz, omówimy Twoje zadanie bardziej szczegółowo.
Z Twilio pracowałem już wiele razy, myślę, że mogę pomóc z Twoim zadaniem.
Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe
Zrobić wideo-rolik AI
169 PLN
Wygenerować wideo z renderu budynku z wykorzystaniem zdjęcia obiektu zgodnie z referencją oraz z uwzględnieniem scenariusza. Jest opracowany testowy prompt, który należy dopracować. Prawdopodobne sieci neuronowe do generacji: King AI, Runway, Luma, Google AI Pro, Google AI… AI i uczenie maszynowe ∙ 1 dzień 12 godzin temu ∙ 19 ofert |
Poszukuję inżyniera automatyzacji AI
84 PLN
Potrzebny inżynier automatyzacji AI, specjalista do stworzenia systemu aktywnego poszukiwania klientów i inteligentnego outreachu (nie zwykły chatbot-automatyczna odpowiedź) w projekcie B2B Zbieranie danych: automatyczne parsowanie kontaktów z "ślepych" baz po nazwach.… AI i uczenie maszynowe, Systemy wbudowane i mikrokontrolery ∙ 1 dzień 14 godzin temu ∙ 14 ofert |
Rozwój systemu Highload z fine tuning modeli LLMOpracowanie systemu o wysokim obciążeniu (Highload) z fine tuningiem modeli LLM dla internetowej usługi multimodalnego wyszukiwania produktów na podstawie zdjęć i zapytań tekstowych, jednocześnie zintegrowanej z komunikatorami przez osobistego agenta-asystenta. AI i uczenie maszynowe ∙ 2 dni temu ∙ 16 ofert |
Potrzebny programista do stworzenia zautomatyzowanej usługi AI do generowania raportów numerologicznych
674 PLN
Szukam dewelopera, który będzie w stanie zrealizować pod klucz zautomatyzowaną usługę do generowania osobistych raportów numerologicznych. Posiadam gotową koncepcję produktu, formuły obliczeń, teksty, bazę wiedzy, projekt landing page oraz projekt raportów PDF. Należy połączyć… AI i uczenie maszynowe, Programowanie stron internetowych ∙ 2 dni 2 godziny temu ∙ 74 oferty |
Potrzebna sesja zdjęciowa AI na stronę randkową i media społecznościowe (10 zdjęć)Potrzebna sesja zdjęciowa AI na stronę randkową i media społecznościowe (10 zdjęć) Szukam specjalisty od generacji AI, retuszu i fotomontażu do stworzenia realistycznej sesji zdjęciowej na podstawie moich zdjęć. Co należy zrobić: Stworzyć 10 jakościowych i maksymalnie… AI graphic, AI i uczenie maszynowe ∙ 2 dni 12 godzin temu ∙ 33 oferty |