Задача для специалиста по Twilio + WebSocket + STT
8983 UAHНаш проект голосовой ассистент на базе AI, подключённый к телефонным звонкам через Twilio и WebSocket-сервер.
Технологии: Flask, WebSocket, Twilio, OpenAI Whisper (streaming и обычный), GPT, TTS.
🧩 Описание текущей архитектуры
У нас уже развернут и работает полноценный сервер:
- Входящие звонки через Twilio отправляются на WebSocket-сервер с endpoint /twilio-stream.
- Используем Twilio <Stream> для передачи аудио.
- На сервере:
- Аудио декодируется из μ-law и преобразуется в PCM.
- Производится VAD (определение голосовой активности).
- Реализовано распознавание речи через OpenAI Whisper (/v1/audio/transcriptions) и streaming Whisper через HTTP/2.
- После распознавания происходит генерация ответа через GPT и синтез речи с помощью TTS.
- Ответ отправляется обратно клиенту через <Play> TwiML и ссылку на mp3.
⚠️ Проблема
Ассистент воспроизводит приветствие, но не распознаёт речь абонента во время звонка, и диалог не продолжается.
Что уже проверено:
- WebSocket соединение устанавливается корректно.
- Аудио от Twilio приходит, но, видимо, не декодируется/не распознаётся.
- Проблема может быть в одном из следующих мест:
- convert_audio_to_pcm не возвращает корректный формат.
- VAD не распознаёт голос, и STT не активируется.
- Streaming Whisper не получает аудио или не успевает распознать (возможно, проблема chunk’ов).
- После Whisper текст не передаётся в GPT.
- Ответ не отправляется обратно через Twilio <Play>.
✅ Что нужно сделать
- Проанализировать текущий код (прилагается в файле Лунара телефония.pdf).
- Диагностировать, на каком этапе цепочка “входящий аудио → STT → GPT → TTS → Twilio” обрывается.
- Протестировать:
- корректность получения аудио по WebSocket;
- корректность PCM-чанкования;
- отклик Whisper (streaming и fallback);
- работу TTS и воспроизведения.
- Предложить и реализовать рабочее исправление.
- Желательно: логирование в файл, если сейчас всё идёт только в консоль.
- Проверить, что всё работает с реальным звонком.
Задача создать работающую инфраструктуру для приема и отправления вызово на базе наших ИИ ассистентов
-
1 день22 456 UAH
8193 63 1 1 день22 456 UAHДобрый день,
Интересный проект, буду рад помочь с его реализацией. Ориентировочно бюджет составит: $4000-$6000.
Для более точной оценки нужно обговорить некоторые уточнения.
Например, вот несколько вопросов, которые существенно повлияют:
1. Можете ли вы предоставить доступ к текущей системе логов и журналам ошибок? Это поможет быстрее локализовать проблему.
2. Каковы текущие требования к времени отклика системы на каждом этапе обработки (от аудио-входа до аудио-выхода)?
3. Нужна ли интеграция с другими сервисами или API, кроме упомянутых (Twilio, WebSocket, OpenAI)?
… Эти уточнения помогут оценить трудоёмкость работ и определить дополнительные потребности в ресурсах для успешной реализации проекта.
-
1 день17 965 UAH
3853 24 0 1 день17 965 UAHДобрый день,
Я бы хотел предложить свои услуги для диагностики и исправления проблем в вашем проекте голосового ассистента. Опыт работы с WebSocket, а также с различными аспектами обработки и передачи аудиоданных позволяет мне эффективно находить и устранять подобные неполадки. Я тщательно изучу предоставленный вами код и выявлю, на каком именно этапе происходит сбой в системе обработки аудио-звонков, а также оптимизирую взаимодействие компонентов системы для надежной работы.
Мой рейт составляет 16$ в час. Приступить к анализу и исправлению я могу в ближайшее время.
С уважением,
Максим
-
3 дня8983 UAH
258 3 дня8983 UAHПривет, Эндрю,
Я Георгиос Тутудакис, бэкэнд-разработчик с практическим опытом работы с потоковой передачей Twilio, серверами WebSocket, STT (Whisper) и конвейерами TTS/GPT — именно тем стеком, который использует ваша система.
Соответствующий опыт:
Создание голосового бота в реальном времени с использованием Twilio + WebSocket, преобразование μ-law в PCM для Whisper STT
Интегрированный OpenAI Whisper (потоковая передача + резервный вариант) и решение проблем с синхронизацией фрагментов, VAD и кодированием PCM
… Отладка потоков аудиоцепи для помощников ИИ (входной звук → VAD → STT → GPT → TTS → Twilio)
Что я предоставлю:
Просмотр существующего кода Flask/WebSocket (LunaPhone.pdf)
Определение мест сбоев звука или текста (PCM, VAD, фрагментация STT или ссылка GPT)
Запись ключевых этапов в файлы для лучшей видимости
Исправление неработающей ссылки в голосовой цепочке и тестирование с помощью живых вызовов Twilio
Создание стабильной и тестируемой инфраструктуры для ответов ИИ в реальном времени
Дайте мне знать, если вы хотели бы просматривать журналы или сеансы тестирования общего экрана во время устранения неполадок.
С наилучшими пожеланиями,
Георгиос Тутудакис
-
5 дней9027 UAH
92 5 дней9027 UAHДобрый день!
Я разработчик на Python с опытом создания Telegram-ботов, работы с API, WebSocket, OpenAI GPT и обработки аудио через Whisper. Также знаком с Twilio и потоковыми сервисами.
Готов проанализировать ваш текущий код и помочь вам найти и устранить причину, почему цепочка "аудио → STT GPT → TTS → Twilio" не работает. Умею отлаживать потоки, декодировать аудио, тестировать VAD, настраивать логирование и диагностику.
Могу предоставить короткий отчет, в каком именно месте возникает проблема, и предложить решение.
Работаю до полностью рабочего результата
-
3 дня8983 UAH
7123 53 0 3 дня8983 UAHДобрый день. Занимаюсь веб программированием на Python/JS/TS более 4 лет. Пишу API интерфейсы на FastAPI/Nest.js, веб платформы на Next.js/Django. Пишите, обсудим вашу задачу детальней.
С твилио очень много раз работал, думаю смогу помочь с вашей задачей.
Актуальные фриланс-проекты в категории AI и машинное обучение
Построить модель классификации клиентов1. Есть данные клиентов в Mongo/SQL (примерно 20 000 записей с сырыми данными). 2. Необходимо на их основе построить фичи и модель классификации клиентов на поведенческие группы. 3. Проект выполнить на Python. AI и машинное обучение, Python ∙ 1 день 6 часов назад ∙ 29 ставок |
Інтеграція в CRM модулів сканерів стоматологій
27 000 UAH
Мы разработали CRM систему для взаимодействия с зубными врачами и лабораториями. Нужно интегрировать сервисы iTero, sirona, medit и др чтобы подтягивались файлы автоматически AI и машинное обучение, Java ∙ 1 день 8 часов назад ∙ 22 ставки |
Создать команду AI агентовХочу создавать себе команду AI агентов, которые будут помогать в повседневной жизни, контролировать бизнес процессы, анализировать отчеты и тд. AI и машинное обучение ∙ 1 день 10 часов назад ∙ 27 ставок |
ИТ Автоматизация ведения VAT-отчетности
10 000 UAH
Необходимо разработать систему для автоматизации переноса данных о продажах из CRM в бухгалтерскую систему Wafeq. Система должна импортировать банковские и платежные отчеты, автоматически сверять платежи с инвойсами, формировать инвойсы для VAT-отчетности и минимизировать ручную… AI и машинное обучение, Python ∙ 1 день 12 часов назад ∙ 39 ставок |
Разработка AI-агента по продажам для интернет-магазина на PrestaShop 1.6 с интеграцией KeyCRMИщем разработчика или небольшую команду для создания AI-консультанта по продажам для интернет-магазина учебной литературы. Сайт работает на PrestaShop 1.6, CRM — KeyCRM. Нужен не обычный чат-бот с готовыми ответами, а AI-продавец, который поможет клиенту подобрать нужные книги и… AI и машинное обучение, Интернет-магазины и электронная коммерция ∙ 1 день 17 часов назад ∙ 39 ставок |