Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API
Создать отдельный микросервис, который обрабатывает голосовые сообщения пользователей:
🎙️ трансформирует аудио в текст (speech-to-text / STT),
🔊 преобразует текст в речь (text-to-speech / TTS).
Этот микросервис должен работать независимо от основного ядра Optizium, общаясь через HTTP POST-запросы. Все текстовые сообщения и ответы GPT будут обрабатываться вашим основным API.
⚙️ Архитектура
🧱 Составляющие:
Микросервис (Python + FastAPI или Node.js + Express)
OpenAI Whisper API для STT
OpenAI TTS для синтеза речи
Взаимодействие с Optizium через:
/api/chats/send— отправка текста в чат/api/chats/chat— получение истории/api/integrations/integration— WebHook (опционально)/api/leads/leads— обработка контактных форм (по необходимости)
📤 Передача данных
🔽 Входящий запрос к микросервису (от фронтенда сайта или из мобильного приложения):
1. Входное аудио (STT)
yamlКопироватьРедактироватьPOST /speech-to-text
Content-Type: multipart/form-data
Form-data:
- audio_file: .mp3/.ogg/.wav
- bot_id: string
- chat_room: string
2. Входной текст для озвучивания (TTS)
pgsqlКопироватьРедактироватьPOST /text-to-speech
Content-Type: application/json
{
"text": "Ваш товар в наличии",
"language": "uk-UA",
"voice": "female",
"bot_id": "...",
"chat_room": "..."
}
🔁 Поведение микросервиса
🟡 STT:
Получает аудиофайл
Распознает текст через OpenAI Whisper
Отправляет его в ваш API:
cssКопироватьРедактировать
POST /api/chats/send
headers: {Authorization, Content-Type}
body:
{
"bot_id": "...",
"chat_room": "...",
"author": "user",
"message": "распознанный текст"
}
🟢 TTS:
Получает текстовый ответ от GPT (через вашу систему)
Озвучивает его через TTS-систему
Возвращает
.mp3или URL на файл на фронтенд
🔐 Безопасность и конфиденциальность
Использование HTTPS
API-ключ обязателен на стороне запроса (Basic или Bearer)
Аудиофайлы удаляются после обработки
Не сохранять историю на стороне микросервиса (только передача)
📦 Результат
Ожидаемые конечные точки (эндпоинты):
| Метод | Endpoint | Назначение |
|---|---|---|
| POST | /speech-to-text | Распознавание речи в текст |
| POST | /text-to-speech | Синтез речи из текста |
| GET | /status | Состояние сервиса (пинг) |
🧪 Тестирование
Отправка тестового голосового файла → проверка текста в Optizium чате.
GPT ответ → синтез → проверка воспроизведения на сайте.
Отправка формы обратной связи после голосового запроса.
🧰 Стек технологий (рекомендуется):
Python 3.11+,FastAPI,uvicornOpenAI Whisper API,gTTS/TTS by Coqui,Edge TTSpydubилиffmpegдля работы с аудиоDocker,Gunicorn(производственная сборка)ngrok/ HTTPS proxy (для локального тестирования WebHook)
🕐 Срок выполнения:
3–5 рабочих дней
Отзыв заказчика о сотрудничестве с Олександром С.
Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через APIВсе гарно, проект выполнен в срок и в полном объеме. Спасибо за работу и могу рекомендовать другим заказчикам!
Отзыв фрилансера о сотрудничестве с Ievhen Ліхачев
Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через APIВсе хорошо, заказчик профессионально относится к ТЗ и прислушивается к советам, надеюсь снова поработать вместе.
-
1315 7 0 Добрый день.
Готов взять Ваш проект
Смогу разработать для Вас такую интеграцию с использованием no-code/low-code инструментов.
Пишите в личные, обсудим все возможные нюансы и сможем приступить к реализации.
-
3082 9 0 Добрый день!
За неделю(5 дней) смогу сделать такой сервис на nodejs. Но сначала нужно более детально посмотреть на ваш сервис Optizium.
Примеры работ: https://github.com/axbuglak
С уважением,
Буглак Алексей
-
306 1 0 Создам независимый микросервис на Python 3.11+ с FastAPI, который будет обрабатывать голосовые сообщения пользователей. Он будет принимать аудиофайл (форматы .mp3/.ogg/.wav), преобразовывать его в текст с помощью OpenAI Whisper API, а затем отправлять этот текст через HTTP POST-запрос в основной API /api/chats/send. Для обратной задачи (TTS) микросервис будет принимать текст, преобразовывать его в речь с помощью gTTS, Coqui TTS или Edge TTS, генерировать аудиофайл и возвращать ссылку на него. Обработка аудио будет выполняться с помощью ffmpeg или pydub.
Вся взаимодействие будет происходить через защищенные HTTPS-запросы с авторизацией по API-ключу. Аудиофайлы не будут сохраняться — удаляются после обработки. Также реализую /status для проверки доступности сервиса. Тестирование будет включать 3 этапа: проверка STT (распознавание), TTS (синтез) и полное соединение с основным API.
Для деплоя использую Docker + Gunicorn, а для локального тестирования WebHook – ngrok.
-
1444 9 0 У меня есть опыт создания микросервисов на FastAPI, работал с OpenAI и работал с аудиофайлами.
Могу реализовать микросервис, который будет полностью соответствовать описанной архитектуре: быстрый, безопасный, независимый и легко масштабируемый. Готов обсудить нюансы (аутентификация, деплой) в личных сообщениях. Напишите, пожалуйста, — все обсудим
-
631 5 0 Добрый день
готова выполнить ваше задания
Реальный срок исполнения 6-7 дней
стоимость 12 000 грн
-
Рассматриваете ли вы другие языки программирования?
-
Актуальные фриланс-проекты в категории AI и машинное обучение
Автоматическая публикация историй в ИнстаграмеДоброго дня, Потрібна допомога із налаштуванням автоматического постинга историй в инстаграм. В архиве инстаграм уже есть истории, которые были опубликованы, их нужно делать повторный репостинг. AI и машинное обучение, Разработка ботов ∙ 13 часов 24 минуты назад ∙ 22 ставки |
Создание ИИ ассистента для коммуникации с КлиентамиНеобходимо создать ИИ ассистента для коммуникации с Клиентами. Окно чата будет расположено на нашем сайте, далее идет общение с ботом. Вопросы по продукции, настройкам, возможностям и т.д. В случае, когда неизвестная информация или запрос, на который может ответить только… AI и машинное обучение, Консультирование по AI ∙ 1 день 8 часов назад ∙ 33 ставки |
Ищу видеомонтажёра, создающего ролики ИИСоздание AI-видео для стоматологов и других экспертов Цель: Создание коротких вертикальных видео для Instagram Reels, Facebook Reels, TikTok и YouTube Shorts, которые объясняют сложные темы простым языком и удерживают внимание зрителя за счет сочетания AI-анимации и видео… AI и машинное обучение ∙ 1 день 16 часов назад ∙ 2 ставки |
Ищу ментора / преподавателя по ComfyUI для онлайн-обучения (работа через RunPod)
700 UAH
Добрый день. Ищу практикующего специалиста и ментора, который поможет мне освоить работу с ComfyUI. Главная особенность моего запроса — работа будет происходить полностью в облаке, без загрузки программы на локальный компьютер. Я планирую арендовать видеокарту через сервис… AI и машинное обучение ∙ 2 дня 2 часа назад ∙ 1 ставка |
ИИ-агент технолога спортивного питанияАгент помогает разрабатывать рецептуры новых продуктов спортивного питания — протеиновых батончиков, протеинов, предтреников, изотоников, батончиков и т.д. Главная особенность: агент знает законодательство разных стран и автоматически учитывает его при создании рецептуры. То… AI и машинное обучение, Веб-программирование ∙ 2 дня 3 часа назад ∙ 61 ставка |