Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через API
5000 UAHСтворити окремий мікросервіс, який обробляє голосові повідомлення користувачів:
🎙️ трансформує аудіо в текст (speech-to-text / STT),
🔊 перетворює текст у мову (text-to-speech / TTS).
Цей мікросервіс має працювати незалежно від основного ядра Optizium, комунікуючи через HTTP POST-запити. Всі текстові повідомлення та відповіді GPT будуть оброблятися вашим основним API.
⚙️ Архітектура
🧱 Складові:
Мікросервіс (Python + FastAPI або Node.js + Express)
OpenAI Whisper API для STT
OpenAI TTS для синтезу голосу
Взаємодія з Optizium через:
/api/chats/send— надсилання тексту в чат/api/chats/chat— отримання історії/api/integrations/integration— WebHook (опціонально)/api/leads/leads— обробка контактних форм (за потреби)
📤 Передача даних
🔽 Вхідний запит до мікросервісу (від фронтенду сайту або з мобільного застосунку):
1. Вхідне аудіо (STT)
yamlКопіюватиРедагуватиPOST /speech-to-text
Content-Type: multipart/form-data
Form-data:
- audio_file: .mp3/.ogg/.wav
- bot_id: string
- chat_room: string
2. Вхідний текст для озвучення (TTS)
pgsqlКопіюватиРедагуватиPOST /text-to-speech
Content-Type: application/json
{
"text": "Ваш товар в наявності",
"language": "uk-UA",
"voice": "female",
"bot_id": "...",
"chat_room": "..."
}
🔁 Поведінка мікросервісу
🟡 STT:
Отримує аудіофайл
Розпізнає текст через OpenAI Whisper
Відправляє його у ваш API:
cssКопіюватиРедагувати
POST /api/chats/send
headers: {Authorization, Content-Type}
body:
{
"bot_id": "...",
"chat_room": "...",
"author": "user",
"message": "розпізнаний текст"
}
🟢 TTS:
Отримує текстову відповідь від GPT (через вашу систему)
Озвучує її через TTS-систему
Повертає
.mp3або URL на файл на фронтенд
🔐 Безпека та конфіденційність
Використання HTTPS
API-ключ обов’язковий на стороні запиту (Basic або Bearer)
Аудіофайли видаляються після обробки
Не зберігати історію на стороні мікросервісу (тільки передача)
📦 Результат
Очікувані кінцеві точки (ендпоінти):
| Метод | Endpoint | Призначення |
|---|---|---|
| POST | /speech-to-text | Розпізнавання мови в текст |
| POST | /text-to-speech | Синтез голосу з тексту |
| GET | /status | Стан сервісу (пінг) |
🧪 Тестування
Відправка тестового голосового файлу → перевірка тексту в Optizium чаті.
GPT відповідь → синтез → перевірка програвання на сайті.
Відправка форми зворотного зв’язку після голосового запиту.
🧰 Стек технологій (рекомендовано):
Python 3.11+,FastAPI,uvicornOpenAI Whisper API,gTTS/TTS by Coqui,Edge TTSpydubабоffmpegдля роботи з аудіоDocker,Gunicorn(виробнича збірка)ngrok/ HTTPS proxy (для локального тестування WebHook)
🕐 Термін виконання:
3–5 робочих днів
Відгук замовника про співпрацю з Олександром С.
Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через APIВсе гарно, проект виконаний в строк та в повному обсязі. Дякую за роботу та можу радити іншим замовникам!
Відгук фрилансера про співпрацю з Ievhen Ліхачев
Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через APIВсе добре, замовник професійно ставитися до тз, та прислуховується до порад, маю надію знову попрацювати разом.
-
1315 7 0 Добрий день.
Готовий взяти Ваш проект
Зможу розробити для Вас таку інтеграцію з використанням no-code/low-code інструментів.
Пишіть в особисті, обговоримо всі можливі нюанси і зможемо приступити до реалізації.
-
3082 9 0 Доброго дня!
За тиждень(5 днiв) зможу зробити такий сервiс на nodejs. Але спочатку треба бiльш детальнiше подивитися на ваш сервсiс Optizium.
Приклади робiт: https://github.com/axbuglak
З повагою,
Буглак Олексiй
-
306 1 0 Створю незалежний мікросервіс на Python 3.11+ з FastAPI, який оброблятиме голосові повідомлення користувачів. Він прийматиме аудіофайл (формати .mp3/.ogg/.wav), перетворюватиме його на текст за допомогою OpenAI Whisper API, а потім надсилатиме цей текст через HTTP POST-запит в основний API /api/chats/send. Для зворотного завдання (TTS) мікросервіс прийматиме текст, перетворюватиме його на мову за допомогою gTTS, Coqui TTS або Edge TTS, генеруватиме аудіофайл і повертатиме посилання на нього. Обробка аудіо виконуватиметься за допомогою ffmpeg або pydub.
Вся взаємодія відбуватиметься через захищені HTTPS-запити з авторизацією по API-ключу. Аудіофайли не зберігатимуться — видаляються після обробки. Також реалізую /status для перевірки доступності сервісу. Тестування включатиме 3 етапи: перевірка STT (розпізнавання), TTS (синтез) та повне з'єднання з основним API.
Для деплою використовую Docker + Gunicorn, а для локального тестування WebHook – ngrok.
-
1444 9 0 Я маю досвід створення мікросервісів на FastAPI, працював з OpenAI та працював із аудіофайлами.
Можу реалізувати мікросервіс, що буде повністю відповідати описаній архітектурі: швидкий, безпечний, незалежний та легко масштабований. Готовий обговорити нюанси (автентифікація, деплой) у приватних повідомленнях. Напишіть, будь ласка, — все обговоримо
-
631 5 0 Доброго дня
готова виконати ваше завдання
Реальний термін виконання 6-7 днів
вартість 12 000 грн
-
Рассматриваете ли вы другие языки программирования?
-
Актуальні фриланс-проєкти в категорії AI та машинне навчання
Зробити відео-ролік AI
2000 UAH
Згенерувати відеоролик з рендеру будівлі з використанням фото об'єкту відповідно до референсу та з вразуванням сценарію. Є розроблений тестовий промт, який потрібно допрацювати. Ймовірні нейронки для генрації: King AI, Runway, Luma, Google AI Pro, Google AI Ultra. Але це не… AI та машинне навчання ∙ 38 хвилин тому ∙ 3 ставки |
Шукаю AI Automation Engineer
1000 UAH
Потрібен AI Automation Engineer, спеціаліст для створення системи активного пошуку клієнтів та розумного аутрічу (не звичайний чат-бот-автовідповідач) у В2В проект Збір даних: автоматичний парсинг контактів з «сліпих» баз за назвами. Розумна розсилка: інтеграція… AI та машинне навчання, Вбудовані системи та мікроконтролери ∙ 2 години 56 хвилин тому ∙ 4 ставки |
Розробка Highload системи з тонкою налаштуванням моделей LLMРозробка високонавантаженої (Highload) системи з тонкою настройкою LLM моделей для онлайн сервісу мультимодального пошуку товарів за фото та текстовим запитом одночасно інтегрованого в месенджери через персонального агента-асистента. AI та машинне навчання ∙ 12 годин 57 секунд тому ∙ 13 ставок |
Потрібен розробник для створення автоматизованого AI-сервісу з генерації нумерологічних звітів
8000 UAH
Шукаю розробника, який зможе реалізувати під ключ автоматизований сервіс для генерації персональних нумерологічних звітів. Є готова концепція продукту, формули розрахунків, тексти, база знань, дизайн лендінгу та дизайн PDF-звітів. Необхідно об’єднати все це в єдину систему,… AI та машинне навчання, Веб-програмування ∙ 14 годин 51 хвилина тому ∙ 68 ставок |
Потрібна AI-фотосесія для сайту знайомств та соцмереж (10 фото)Потрібна AI-фотосесія для сайту знайомств і соцмереж (10 фото) Шукаю спеціаліста з AI-генерації, ретуші та фотомонтажу для створення реалістичної фотосесії на основі моїх фотографій. Що потрібно зробити: Створити 10 якісних і максимально реалістичних фотографій з використанням… AI у дизайні, AI та машинне навчання ∙ 1 день тому ∙ 28 ставок |