Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через API
5000 UAHСтворити окремий мікросервіс, який обробляє голосові повідомлення користувачів:
🎙️ трансформує аудіо в текст (speech-to-text / STT),
🔊 перетворює текст у мову (text-to-speech / TTS).
Цей мікросервіс має працювати незалежно від основного ядра Optizium, комунікуючи через HTTP POST-запити. Всі текстові повідомлення та відповіді GPT будуть оброблятися вашим основним API.
⚙️ Архітектура
🧱 Складові:
Мікросервіс (Python + FastAPI або Node.js + Express)
OpenAI Whisper API для STT
OpenAI TTS для синтезу голосу
Взаємодія з Optizium через:
/api/chats/send— надсилання тексту в чат/api/chats/chat— отримання історії/api/integrations/integration— WebHook (опціонально)/api/leads/leads— обробка контактних форм (за потреби)
📤 Передача даних
🔽 Вхідний запит до мікросервісу (від фронтенду сайту або з мобільного застосунку):
1. Вхідне аудіо (STT)
yamlКопіюватиРедагуватиPOST /speech-to-text
Content-Type: multipart/form-data
Form-data:
- audio_file: .mp3/.ogg/.wav
- bot_id: string
- chat_room: string
2. Вхідний текст для озвучення (TTS)
pgsqlКопіюватиРедагуватиPOST /text-to-speech
Content-Type: application/json
{
"text": "Ваш товар в наявності",
"language": "uk-UA",
"voice": "female",
"bot_id": "...",
"chat_room": "..."
}
🔁 Поведінка мікросервісу
🟡 STT:
Отримує аудіофайл
Розпізнає текст через OpenAI Whisper
Відправляє його у ваш API:
cssКопіюватиРедагувати
POST /api/chats/send
headers: {Authorization, Content-Type}
body:
{
"bot_id": "...",
"chat_room": "...",
"author": "user",
"message": "розпізнаний текст"
}
🟢 TTS:
Отримує текстову відповідь від GPT (через вашу систему)
Озвучує її через TTS-систему
Повертає
.mp3або URL на файл на фронтенд
🔐 Безпека та конфіденційність
Використання HTTPS
API-ключ обов’язковий на стороні запиту (Basic або Bearer)
Аудіофайли видаляються після обробки
Не зберігати історію на стороні мікросервісу (тільки передача)
📦 Результат
Очікувані кінцеві точки (ендпоінти):
| Метод | Endpoint | Призначення |
|---|---|---|
| POST | /speech-to-text | Розпізнавання мови в текст |
| POST | /text-to-speech | Синтез голосу з тексту |
| GET | /status | Стан сервісу (пінг) |
🧪 Тестування
Відправка тестового голосового файлу → перевірка тексту в Optizium чаті.
GPT відповідь → синтез → перевірка програвання на сайті.
Відправка форми зворотного зв’язку після голосового запиту.
🧰 Стек технологій (рекомендовано):
Python 3.11+,FastAPI,uvicornOpenAI Whisper API,gTTS/TTS by Coqui,Edge TTSpydubабоffmpegдля роботи з аудіоDocker,Gunicorn(виробнича збірка)ngrok/ HTTPS proxy (для локального тестування WebHook)
🕐 Термін виконання:
3–5 робочих днів
Відгук замовника про співпрацю з Олександром С.
Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через APIВсе гарно, проект виконаний в строк та в повному обсязі. Дякую за роботу та можу радити іншим замовникам!
Відгук фрилансера про співпрацю з Ievhen Ліхачев
Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через APIВсе добре, замовник професійно ставитися до тз, та прислуховується до порад, маю надію знову попрацювати разом.
-
1315 7 0 Добрий день.
Готовий взяти Ваш проект
Зможу розробити для Вас таку інтеграцію з використанням no-code/low-code інструментів.
Пишіть в особисті, обговоримо всі можливі нюанси і зможемо приступити до реалізації.
-
3082 9 0 Доброго дня!
За тиждень(5 днiв) зможу зробити такий сервiс на nodejs. Але спочатку треба бiльш детальнiше подивитися на ваш сервсiс Optizium.
Приклади робiт: https://github.com/axbuglak
З повагою,
Буглак Олексiй
-
306 1 0 Створю незалежний мікросервіс на Python 3.11+ з FastAPI, який оброблятиме голосові повідомлення користувачів. Він прийматиме аудіофайл (формати .mp3/.ogg/.wav), перетворюватиме його на текст за допомогою OpenAI Whisper API, а потім надсилатиме цей текст через HTTP POST-запит в основний API /api/chats/send. Для зворотного завдання (TTS) мікросервіс прийматиме текст, перетворюватиме його на мову за допомогою gTTS, Coqui TTS або Edge TTS, генеруватиме аудіофайл і повертатиме посилання на нього. Обробка аудіо виконуватиметься за допомогою ffmpeg або pydub.
Вся взаємодія відбуватиметься через захищені HTTPS-запити з авторизацією по API-ключу. Аудіофайли не зберігатимуться — видаляються після обробки. Також реалізую /status для перевірки доступності сервісу. Тестування включатиме 3 етапи: перевірка STT (розпізнавання), TTS (синтез) та повне з'єднання з основним API.
Для деплою використовую Docker + Gunicorn, а для локального тестування WebHook – ngrok.
-
1444 9 0 Я маю досвід створення мікросервісів на FastAPI, працював з OpenAI та працював із аудіофайлами.
Можу реалізувати мікросервіс, що буде повністю відповідати описаній архітектурі: швидкий, безпечний, незалежний та легко масштабований. Готовий обговорити нюанси (автентифікація, деплой) у приватних повідомленнях. Напишіть, будь ласка, — все обговоримо
-
631 5 0 Доброго дня
готова виконати ваше завдання
Реальний термін виконання 6-7 днів
вартість 12 000 грн
-
Рассматриваете ли вы другие языки программирования?
-
Актуальні фриланс-проєкти в категорії AI та машинне навчання
Потрібна AI-фотосесія для сайту знайомств та соцмереж (10 фото)Потрібна AI-фотосесія для сайту знайомств і соцмереж (10 фото) Шукаю спеціаліста з AI-генерації, ретуші та фотомонтажу для створення реалістичної фотосесії на основі моїх фотографій. Що потрібно зробити: Створити 10 якісних і максимально реалістичних фотографій з використанням… AI у дизайні, AI та машинне навчання ∙ 1 година 4 хвилини тому ∙ 7 ставок |
Pocket Option трейдинг бот
3200 UAH
потрібен бот і ваша компетенція хто вже міг створити подібного бота коли ставки вірні, зчитуються з покета опшн по брент ойл мене цікавить мені не потрібен новачок і той, хто просто напише код аби було потрібен той, хто розуміє, хто може реально отримувати дані по брент ойл і… AI та машинне навчання, Розробка ботів ∙ 1 година 39 хвилин тому ∙ 6 ставок |
AI Коментуюча Платформа для TikTok та Instagram.Мета проекту Розробити систему, яка дозволяє керувати великою кількістю акаунтів TikTok та Instagram і автоматично публікувати релевантні коментарі під вибраними відео з використанням ШІ. Основний функціонал1. Управління акаунтами Необхідно реалізувати можливість підключення… AI та машинне навчання, Python ∙ 8 годин 21 хвилина тому ∙ 11 ставок |
AI-агент для пошуку та аналізу масиву документів у реєстрі рішень1. Контекст і проблема Цільовий користувач: фахівець, який працює з великим масивом текстових документів та має приймати рішення на основі прецедентів. Суть проблеми: робота з відкритим реєстром документів забирає надмірно багато часу: пошук вимагає ручного підбору ключових слів… AI та машинне навчання ∙ 12 годин 57 хвилин тому ∙ 26 ставок |
Побудувути модель калсифікації клієнтів1. Є дані клієнтів в Mongo/SQL (приблизно 20 000 заисів із сирими даними). 2. Необхідно на їх основі побудувати фічі та модель класифікації клієнтв на поведінкові групи. 3. Проект виконати на Python. AI та машинне навчання, Python ∙ 2 дні 2 години тому ∙ 33 ставки |