Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через API
5000 UAHСтворити окремий мікросервіс, який обробляє голосові повідомлення користувачів:
🎙️ трансформує аудіо в текст (speech-to-text / STT),
🔊 перетворює текст у мову (text-to-speech / TTS).
Цей мікросервіс має працювати незалежно від основного ядра Optizium, комунікуючи через HTTP POST-запити. Всі текстові повідомлення та відповіді GPT будуть оброблятися вашим основним API.
⚙️ Архітектура
🧱 Складові:
Мікросервіс (Python + FastAPI або Node.js + Express)
OpenAI Whisper API для STT
OpenAI TTS для синтезу голосу
Взаємодія з Optizium через:
/api/chats/send
— надсилання тексту в чат/api/chats/chat
— отримання історії/api/integrations/integration
— WebHook (опціонально)/api/leads/leads
— обробка контактних форм (за потреби)
📤 Передача даних
🔽 Вхідний запит до мікросервісу (від фронтенду сайту або з мобільного застосунку):
1. Вхідне аудіо (STT)
yamlКопіюватиРедагуватиPOST /speech-to-text
Content-Type: multipart/form-data
Form-data:
- audio_file: .mp3/.ogg/.wav
- bot_id: string
- chat_room: string
2. Вхідний текст для озвучення (TTS)
pgsqlКопіюватиРедагуватиPOST /text-to-speech
Content-Type: application/json
{
"text": "Ваш товар в наявності",
"language": "uk-UA",
"voice": "female",
"bot_id": "...",
"chat_room": "..."
}
🔁 Поведінка мікросервісу
🟡 STT:
Отримує аудіофайл
Розпізнає текст через OpenAI Whisper
Відправляє його у ваш API:
cssКопіюватиРедагувати
POST /api/chats/send
headers: {Authorization, Content-Type}
body:
{
"bot_id": "...",
"chat_room": "...",
"author": "user",
"message": "розпізнаний текст"
}
🟢 TTS:
Отримує текстову відповідь від GPT (через вашу систему)
Озвучує її через TTS-систему
Повертає
.mp3
або URL на файл на фронтенд
🔐 Безпека та конфіденційність
Використання HTTPS
API-ключ обов’язковий на стороні запиту (Basic або Bearer)
Аудіофайли видаляються після обробки
Не зберігати історію на стороні мікросервісу (тільки передача)
📦 Результат
Очікувані кінцеві точки (ендпоінти):
Метод | Endpoint | Призначення |
---|---|---|
POST | /speech-to-text | Розпізнавання мови в текст |
POST | /text-to-speech | Синтез голосу з тексту |
GET | /status | Стан сервісу (пінг) |
🧪 Тестування
Відправка тестового голосового файлу → перевірка тексту в Optizium чаті.
GPT відповідь → синтез → перевірка програвання на сайті.
Відправка форми зворотного зв’язку після голосового запиту.
🧰 Стек технологій (рекомендовано):
Python 3.11+
,FastAPI
,uvicorn
OpenAI Whisper API
,gTTS
/TTS by Coqui
,Edge TTS
pydub
абоffmpeg
для роботи з аудіоDocker
,Gunicorn
(виробнича збірка)ngrok
/ HTTPS proxy (для локального тестування WebHook)
🕐 Термін виконання:
3–5 робочих днів
Відгук замовника про співпрацю з Олександром С.
Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через APIВсе гарно, проект виконаний в строк та в повному обсязі. Дякую за роботу та можу радити іншим замовникам!
Відгук фрилансера про співпрацю з Ievhen Ліхачев
Розробка мікросервісу для обробки аудіо (мова - текст) з інтеграцією нашого сервісу через APIВсе добре, замовник професійно ставитися до тз, та прислуховується до порад, маю надію знову попрацювати разом.
-
1058 5 0 Добрий день.
Готовий взяти Ваш проект
Зможу розробити для Вас таку інтеграцію з використанням no-code/low-code інструментів.
Пишіть в особисті, обговоримо всі можливі нюанси і зможемо приступити до реалізації.
-
638 3 0 Доброго дня!
За тиждень(5 днiв) зможу зробити такий сервiс на nodejs. Але спочатку треба бiльш детальнiше подивитися на ваш сервсiс Optizium.
Приклади робiт: https://github.com/axbuglak
З повагою,
Буглак Олексiй
-
524 1 0 Створю незалежний мікросервіс на Python 3.11+ з FastAPI, який оброблятиме голосові повідомлення користувачів. Він прийматиме аудіофайл (формати .mp3/.ogg/.wav), перетворюватиме його на текст за допомогою OpenAI Whisper API, а потім надсилатиме цей текст через HTTP POST-запит в основний API /api/chats/send. Для зворотного завдання (TTS) мікросервіс прийматиме текст, перетворюватиме його на мову за допомогою gTTS, Coqui TTS або Edge TTS, генеруватиме аудіофайл і повертатиме посилання на нього. Обробка аудіо виконуватиметься за допомогою ffmpeg або pydub.
Вся взаємодія відбуватиметься через захищені HTTPS-запити з авторизацією по API-ключу. Аудіофайли не зберігатимуться — видаляються після обробки. Також реалізую /status для перевірки доступності сервісу. Тестування включатиме 3 етапи: перевірка STT (розпізнавання), TTS (синтез) та повне з'єднання з основним API.
Для деплою використовую Docker + Gunicorn, а для локального тестування WebHook – ngrok.
-
1150 6 0 Я маю досвід створення мікросервісів на FastAPI, працював з OpenAI та працював із аудіофайлами.
Можу реалізувати мікросервіс, що буде повністю відповідати описаній архітектурі: швидкий, безпечний, незалежний та легко масштабований. Готовий обговорити нюанси (автентифікація, деплой) у приватних повідомленнях. Напишіть, будь ласка, — все обговоримо
-
696 4 0 Доброго дня
готова виконати ваше завдання
Реальний термін виконання 6-7 днів
вартість 12 000 грн
Добрый день
готова выполнить ваше задания
Реальный срок исполнения 6-7 дней
стоимость 12 000 грн
-
3276 46 4 🔹 Готовий виконати ваше завдання якісно та в обумовлені терміни.
🔹 Маю досвід у подібних проєктах, що підтверджено в моєму портфоліо.
🔹 Гарантую відповідальний підхід, увагу до деталей та ефективну комунікацію.
Якщо вас цікавить якісний результат – готовий обговорити деталі та розпочати роботу.
-
Рассматриваете ли вы другие языки программирования?
-
Актуальні фриланс-проєкти в категорії AI та машинне навчання
Створення голосового AI-консультанта у баріЄ бар, де автоматично машина наливає напої. Всі 12 видів напоїв. Потрібно створити систему, яка буде увімкнена на умовному планшеті поруч і гості зможуть задавати питання щодо напоїв, деталей, відмінностей, смакових особливостей. AI та машинне навчання, Розробка ботів ∙ 42 хвилини тому ∙ 3 ставки |
Потрібно розробити AI-бота для обзвону клієнтів і запису на консультаціюШукаємо досвідченого спеціаліста/команду для створення інтелектуального голосового бота з функціями: Автоматичний обзвон бази клієнтів Кваліфікація клієнтів за певними сценаріями Проведення презентацій товарів і послуг по телефону Обробка заперечень клієнтів Запис зацікавлених… AI та машинне навчання, Консультування з AI ∙ 1 година 50 хвилин тому ∙ 1 ставка |
Потрібен спеціаліст для донавчання AI-моделі
5500 UAH
Маємо набір готових діалогів (у форматі .jsonl), і хочемо створити свою AI-модель, яка буде відповідати на запитання так, як ми цього хочемо. Модель має вчитися на цих діалогах і потім відповідати в такому ж стилі.Також ця модель повинна:дотримуватись інструкцій (промта), які ми… AI та машинне навчання, Консультування з AI ∙ 4 години 44 хвилини тому ∙ 2 ставки |
Реалізація асистента з підбору швейної фурнітури на основі AI в Інтернет-магазиніОсновні завдання для AI асистента: - підбір товарів під запити клієнтів. - пропозиція альтернатив та супутніх товарів. - супровід клієнта до покупки та спрощення вибору. - зменшення навантаження на менеджерів. - аналіз минулих покупок та пропозиція відповідних аксесуарів. -… AI та машинне навчання, Розробка ботів ∙ 8 годин 1 хвилина тому ∙ 6 ставок |
Прототип віртуального аватара на базі Metahuman. Двигун Unreal Engine 5
27 000 UAH
Розробити прототип віртуального аватара на базі Metahuman. Двигун Unreal Engine 5 Як має працювати. Фронтенд: - має відображатися віртуальна людина (Metahuman) - має вміти сприймати мову через голос (speech to text) і відповідати голосом після обробки запиту через LLM (text to… AI та машинне навчання, Розробка ігор ∙ 11 годин 52 хвилини тому ∙ 1 ставка |