Zadanie dla specjalisty od Twilio + WebSocket + STT
Naszym projektem jest asystent głosowy oparty na AI, podłączony do połączeń telefonicznych przez Twilio i serwer WebSocket.
Technologie: Flask, WebSocket, Twilio, OpenAI Whisper (streaming i zwykły), GPT, TTS.
🧩 Opis obecnej architektury
Posiadamy już wdrożony i działający pełny serwer:
- Przychodzące połączenia przez Twilio są przesyłane na serwer WebSocket z endpointem /twilio-stream.
- Używamy Twilio <Stream> do przesyłania audio.
- Na serwerze:
- Audio jest dekodowane z μ-law i konwertowane na PCM.
- Wykonywany jest VAD (detekcja aktywności głosowej).
- Implementowane jest rozpoznawanie mowy przez OpenAI Whisper (/v1/audio/transcriptions) oraz streaming Whisper przez HTTP/2.
- Po rozpoznaniu generowana jest odpowiedź przez GPT i synteza mowy za pomocą TTS.
- Odpowiedź jest wysyłana z powrotem do klienta przez <Play> TwiML i link do mp3.
⚠️ Problem
Asystent odtwarza powitanie, ale nie rozpoznaje mowy abonenta podczas połączenia, i dialog nie jest kontynuowany.
Co już zostało sprawdzone:
- Połączenie WebSocket jest poprawnie ustanowione.
- Audio od Twilio dociera, ale najwyraźniej nie jest dekodowane/rozpoznawane.
- Problem może występować w jednym z następujących miejsc:
- convert_audio_to_pcm nie zwraca poprawnego formatu.
- VAD nie wykrywa głosu, a STT nie jest aktywowane.
- Streaming Whisper nie otrzymuje audio lub nie zdąża rozpoznać (może problem z chunkami).
- Po Whisper tekst nie jest przekazywany do GPT.
- Odpowiedź nie jest wysyłana z powrotem przez Twilio <Play>.
✅ Co należy zrobić
- Przeanalizować obecny kod (załączony w pliku Лунара телефония.pdf).
- Zdiagnozować, na którym etapie łańcuch „wejściowe audio → STT → GPT → TTS → Twilio” się urywa.
- Przetestować:
- poprawność odbioru audio przez WebSocket;
- poprawność chunkowania PCM;
- odpowiedź Whisper (streaming i fallback);
- działanie TTS i odtwarzanie.
- Zaproponować i wdrożyć działające rozwiązanie.
- Ewentualnie: logowanie do pliku, jeśli obecnie wszystko działa tylko w konsoli.
- Sprawdzić, czy wszystko działa z rzeczywistym połączeniem.
Cel: stworzyć działającą infrastrukturę do odbioru i wysyłania połączeń na bazie naszych asystentów AI
-
1 dzień1892 PLN
8193 63 1 1 dzień1892 PLNDzień dobry,
Ciekawy projekt, chętnie pomogę w jego realizacji. Orientacyjny budżet wyniesie: $4000-$6000.
Aby dokładniej oszacować, trzeba omówić kilka szczegółów.
Na przykład, kilka pytań, które będą miały istotny wpływ:
1. Czy możesz udostępnić dostęp do obecnego systemu logów i dzienników błędów? To pomoże szybciej zlokalizować problem.
2. Jakie są obecne wymagania dotyczące czasu reakcji systemu na każdym etapie przetwarzania (od wejścia audio do wyjścia audio)?
3. Czy potrzebna jest integracja z innymi usługami lub API, oprócz wymienionych (Twilio, WebSocket, OpenAI)?
… Te szczegóły pomogą ocenić trudność prac i określić dodatkowe potrzeby zasobów dla pomyślnej realizacji projektu.
-
1 dzień1513 PLN
3853 24 0 1 dzień1513 PLNDzień dobry,
Chciałbym zaoferować swoje usługi w zakresie diagnostyki i naprawy problemów w Twoim projekcie asystenta głosowego. Doświadczenie w pracy z WebSocket, a także z różnymi aspektami przetwarzania i przesyłania danych audio pozwala mi skutecznie identyfikować i usuwać podobne usterki. Dokładnie przeanalizuję dostarczony przez Ciebie kod i ustalę, na którym dokładnie etapie dochodzi do awarii w systemie obsługi połączeń audio, a także zoptymalizuję interakcję komponentów systemu, aby zapewnić niezawodną pracę.
Mój stawka wynosi 16$ za godzinę. Mogę rozpocząć analizę i naprawę w najbliższym czasie.
Z poważaniem,
Maksyм
-
3 dni757 PLN
258 3 dni757 PLNCześć, Andrzeju,
Jestem Georgios Tutudakis, programistą backend z praktycznym doświadczeniem w streamingu Twilio, serwerach WebSocket, STT (Whisper) i pipeline'ach TTS/GPT — dokładnie tym stosie, którego używa Twój system.
Oto moje doświadczenie:
Tworzenie głosowego bota w czasie rzeczywistym z użyciem Twilio + WebSocket, konwersja μ-law na PCM dla Whisper STT
Zintegrowane OpenAI Whisper (streaming + wersja zapasowa) i rozwiązywanie problemów z synchronizacją fragmentów, VAD i kodowaniem PCM
… Debugowanie strumieni audio dla asystentów AI (dźwięk wejściowy → VAD → STT → GPT → TTS → Twilio)
Co mogę zaoferować:
Przegląd istniejącego kodu Flask/WebSocket (LunaPhone.pdf)
Identyfikacja miejsc awarii dźwięku lub tekstu (PCM, VAD, fragmentacja STT lub link GPT)
Rejestrowanie kluczowych etapów w plikach dla lepszej widoczności
Naprawa nieaktywnych linków w łańcuchu głosowym i testowanie za pomocą rzeczywistych połączeń Twilio
Tworzenie stabilnej i testowalnej infrastruktury do odpowiedzi AI w czasie rzeczywistym
Daj znać, jeśli chcesz przeglądać logi lub sesje testowe z udostępnianiem ekranu podczas rozwiązywania problemów.
Z poważaniem,
Georgios Tutudakis
-
5 dni760 PLN
92 5 dni760 PLNDzień dobry!
Jestem programistą Pythona z doświadczeniem w tworzeniu botów Telegram, pracy z API, WebSocket, OpenAI GPT oraz obsłudze audio przez Whisper. Znam również Twilio i usługi strumieniowe.
Chętnie przeanalizuję Twój obecny kod i pomogę znaleźć oraz usunąć przyczynę, dla której łańcuch "audio → STT GPT → TTS → Twilio" nie działa. Potrafię debugować przepływy, dekodować audio, testować VAD, konfigurować logowanie i diagnostykę.
Mogę dostarczyć krótkie sprawozdanie, w którym dokładnie wskażę miejsce występowania problemu, oraz zaproponować rozwiązanie.
Pracuję do uzyskania w pełni działającego rezultatu
-
3 dni757 PLN
7123 53 0 3 dni757 PLNDzień dobry. Zajmuję się programowaniem webowym w Pythonie/JS/TS od ponad 4 lat. Tworzę interfejsy API na FastAPI/Nest.js, platformy webowe na Next.js/Django. Napisz, omówimy Twoje zadanie bardziej szczegółowo.
Z Twilio pracowałem już wiele razy, myślę, że mogę pomóc z Twoim zadaniem.
Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe
Przegląd architektury i wdrożenia N8nJęzyk Nasza ekipa techniczna mówi po angielsku, rosyjsku i niemiecku. Możesz wybrać dowolny z tych języków dla swojego tekstu i rozmowy przeglądowej. CelObsługujemy gotowe do produkcji AI i przepływy dokumentów w n8n Cloud, które integrują Salesforce z LLM i usługami… AI i uczenie maszynowe, AI consult ∙ 2 godziny 45 minut temu ∙ 7 ofert |
AI agent do zbierania i strukturyzacji informacji
337 PLN
Potrzebny specjalista, który ma doświadczenie w tworzeniu zautomatyzowanych systemów monitorowania stron internetowych, wiadomości, stron konkurencji oraz źródeł branżowych. Trzeba zebrać prosty scenariusz MVP, który będzie: regularnie sprawdzać określoną listę stron; znajdować… AI i uczenie maszynowe ∙ 3 godziny 7 minut temu ∙ 19 ofert |
Zrobić wideo-rolik AI
168 PLN
Wygenerować wideo z renderu budynku z wykorzystaniem zdjęcia obiektu zgodnie z referencją oraz z uwzględnieniem scenariusza. Jest opracowany testowy prompt, który należy dopracować. Prawdopodobne sieci neuronowe do generacji: King AI, Runway, Luma, Google AI Pro, Google AI… AI i uczenie maszynowe ∙ 1 dzień 15 godzin temu ∙ 19 ofert |
Poszukuję inżyniera automatyzacji AI
84 PLN
Potrzebny inżynier automatyzacji AI, specjalista do stworzenia systemu aktywnego poszukiwania klientów i inteligentnego outreachu (nie zwykły chatbot-automatyczna odpowiedź) w projekcie B2B Zbieranie danych: automatyczne parsowanie kontaktów z "ślepych" baz po nazwach.… AI i uczenie maszynowe, Systemy wbudowane i mikrokontrolery ∙ 1 dzień 18 godzin temu ∙ 14 ofert |
Rozwój systemu Highload z fine tuning modeli LLMOpracowanie systemu o wysokim obciążeniu (Highload) z fine tuningiem modeli LLM dla internetowej usługi multimodalnego wyszukiwania produktów na podstawie zdjęć i zapytań tekstowych, jednocześnie zintegrowanej z komunikatorami przez osobistego agenta-asystenta. AI i uczenie maszynowe ∙ 2 dni 3 godziny temu ∙ 16 ofert |