Задача для специалиста по Twilio + WebSocket + STT
8982 UAHНаш проект голосовой ассистент на базе AI, подключённый к телефонным звонкам через Twilio и WebSocket-сервер.
Технологии: Flask, WebSocket, Twilio, OpenAI Whisper (streaming и обычный), GPT, TTS.
🧩 Описание текущей архитектуры
У нас уже развернут и работает полноценный сервер:
- Входящие звонки через Twilio отправляются на WebSocket-сервер с endpoint /twilio-stream.
- Используем Twilio <Stream> для передачи аудио.
- На сервере:
- Аудио декодируется из μ-law и преобразуется в PCM.
- Производится VAD (определение голосовой активности).
- Реализовано распознавание речи через OpenAI Whisper (/v1/audio/transcriptions) и streaming Whisper через HTTP/2.
- После распознавания происходит генерация ответа через GPT и синтез речи с помощью TTS.
- Ответ отправляется обратно клиенту через <Play> TwiML и ссылку на mp3.
⚠️ Проблема
Ассистент воспроизводит приветствие, но не распознаёт речь абонента во время звонка, и диалог не продолжается.
Что уже проверено:
- WebSocket соединение устанавливается корректно.
- Аудио от Twilio приходит, но, видимо, не декодируется/не распознаётся.
- Проблема может быть в одном из следующих мест:
- convert_audio_to_pcm не возвращает корректный формат.
- VAD не распознаёт голос, и STT не активируется.
- Streaming Whisper не получает аудио или не успевает распознать (возможно, проблема chunk’ов).
- После Whisper текст не передаётся в GPT.
- Ответ не отправляется обратно через Twilio <Play>.
✅ Что нужно сделать
- Проанализировать текущий код (прилагается в файле Лунара телефония.pdf).
- Диагностировать, на каком этапе цепочка “входящий аудио → STT → GPT → TTS → Twilio” обрывается.
- Протестировать:
- корректность получения аудио по WebSocket;
- корректность PCM-чанкования;
- отклик Whisper (streaming и fallback);
- работу TTS и воспроизведения.
- Предложить и реализовать рабочее исправление.
- Желательно: логирование в файл, если сейчас всё идёт только в консоль.
- Проверить, что всё работает с реальным звонком.
Задача создать работающую инфраструктуру для приема и отправления вызово на базе наших ИИ ассистентов
-
1 день22 455 UAH
8193 63 1 1 день22 455 UAHДобрый день,
Интересный проект, буду рад помочь с его реализацией. Ориентировочно бюджет составит: $4000-$6000.
Для более точной оценки нужно обговорить некоторые уточнения.
Например, вот несколько вопросов, которые существенно повлияют:
1. Можете ли вы предоставить доступ к текущей системе логов и журналам ошибок? Это поможет быстрее локализовать проблему.
2. Каковы текущие требования к времени отклика системы на каждом этапе обработки (от аудио-входа до аудио-выхода)?
3. Нужна ли интеграция с другими сервисами или API, кроме упомянутых (Twilio, WebSocket, OpenAI)?
… Эти уточнения помогут оценить трудоёмкость работ и определить дополнительные потребности в ресурсах для успешной реализации проекта.
-
1 день17 964 UAH
3853 24 0 1 день17 964 UAHДобрый день,
Я бы хотел предложить свои услуги для диагностики и исправления проблем в вашем проекте голосового ассистента. Опыт работы с WebSocket, а также с различными аспектами обработки и передачи аудиоданных позволяет мне эффективно находить и устранять подобные неполадки. Я тщательно изучу предоставленный вами код и выявлю, на каком именно этапе происходит сбой в системе обработки аудио-звонков, а также оптимизирую взаимодействие компонентов системы для надежной работы.
Мой рейт составляет 16$ в час. Приступить к анализу и исправлению я могу в ближайшее время.
С уважением,
Максим
-
3 дня8982 UAH
258 3 дня8982 UAHПривет, Эндрю,
Я Георгиос Тутудакис, бэкэнд-разработчик с практическим опытом работы с потоковой передачей Twilio, серверами WebSocket, STT (Whisper) и конвейерами TTS/GPT — именно тем стеком, который использует ваша система.
Соответствующий опыт:
Создание голосового бота в реальном времени с использованием Twilio + WebSocket, преобразование μ-law в PCM для Whisper STT
Интегрированный OpenAI Whisper (потоковая передача + резервный вариант) и решение проблем с синхронизацией фрагментов, VAD и кодированием PCM
… Отладка потоков аудиоцепи для помощников ИИ (входной звук → VAD → STT → GPT → TTS → Twilio)
Что я предоставлю:
Просмотр существующего кода Flask/WebSocket (LunaPhone.pdf)
Определение мест сбоев звука или текста (PCM, VAD, фрагментация STT или ссылка GPT)
Запись ключевых этапов в файлы для лучшей видимости
Исправление неработающей ссылки в голосовой цепочке и тестирование с помощью живых вызовов Twilio
Создание стабильной и тестируемой инфраструктуры для ответов ИИ в реальном времени
Дайте мне знать, если вы хотели бы просматривать журналы или сеансы тестирования общего экрана во время устранения неполадок.
С наилучшими пожеланиями,
Георгиос Тутудакис
-
5 дней9027 UAH
92 5 дней9027 UAHДобрый день!
Я разработчик на Python с опытом создания Telegram-ботов, работы с API, WebSocket, OpenAI GPT и обработки аудио через Whisper. Также знаком с Twilio и потоковыми сервисами.
Готов проанализировать ваш текущий код и помочь вам найти и устранить причину, почему цепочка "аудио → STT GPT → TTS → Twilio" не работает. Умею отлаживать потоки, декодировать аудио, тестировать VAD, настраивать логирование и диагностику.
Могу предоставить короткий отчет, в каком именно месте возникает проблема, и предложить решение.
Работаю до полностью рабочего результата
-
3 дня8982 UAH
7123 53 0 3 дня8982 UAHДобрый день. Занимаюсь веб программированием на Python/JS/TS более 4 лет. Пишу API интерфейсы на FastAPI/Nest.js, веб платформы на Next.js/Django. Пишите, обсудим вашу задачу детальней.
С твилио очень много раз работал, думаю смогу помочь с вашей задачей.
Актуальные фриланс-проекты в категории AI и машинное обучение
AI Commenting Platform для TikTok и Instagram.Цель проекта Разработать систему, которая позволяет управлять большим количеством аккаунтов TikTok и Instagram и автоматически публиковать релевантные комментарии под выбранными видео с использованием ИИ. Основной функционал1. Управление аккаунтами Необходимо реализовать… AI и машинное обучение, Python ∙ 1 час 46 минут назад ∙ 6 ставок |
Сотрудничество по ИТ-проекту для ранней стадии разработки
67 364 UAH
Описание:Мы ищем высокомотивированного и надежного человека, который присоединится к нам в качестве партнера по проекту для захватывающего нового начинания, находящегося на ранних стадиях разработки. Основная идея все еще уточняется, и мы открыты для обсуждения оптимального… AI и машинное обучение, Javascript и Typescript ∙ 2 часа 45 секунд назад ∙ 14 ставок |
AI-агент для поиска и анализа массива документов в реестре решений1. Контекст и проблема Целевой пользователь: специалист, работающий с большим массивом текстовых документов и принимающий решения на основе прецедентов. Суть проблемы: работа с открытым реестром документов занимает чрезмерно много времени: поиск требует ручного подбора ключевых… AI и машинное обучение ∙ 6 часов 22 минуты назад ∙ 23 ставки |
Построить модель классификации клиентов1. Есть данные клиентов в Mongo/SQL (примерно 20 000 записей с сырыми данными). 2. Необходимо на их основе построить фичи и модель классификации клиентов на поведенческие группы. 3. Проект выполнить на Python. AI и машинное обучение, Python ∙ 1 день 20 часов назад ∙ 32 ставки |
Інтеграція в CRM модулів сканерів стоматологій
27 000 UAH
Мы разработали CRM систему для взаимодействия с зубными врачами и лабораториями. Нужно интегрировать сервисы iTero, sirona, medit и др чтобы подтягивались файлы автоматически AI и машинное обучение, Java ∙ 1 день 21 час назад ∙ 27 ставок |