Фриланс-проекты

Фриланс-проекты

Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API

Name: Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API
Price: 5000 UAH
Availability: InStock

AI и машинное обучение, Python — неверно указаны категории?

5000 UAH

Отзыв заказчика о сотрудничестве с Олександром С.

Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API

5000 UAH

Все гарно, проект выполнен в срок и в полном объеме. Спасибо за работу и могу рекомендовать другим заказчикам!

5.0

Ievhen Ліхачев

Встречный отзыв

16 апреля 2025

Отзыв фрилансера о сотрудничестве с Ievhen Ліхачев

Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API

5000 UAH

Все хорошо, заказчик профессионально относится к ТЗ и прислушивается к советам, надеюсь снова поработать вместе.

5.0

Олександр С.

Встречный отзыв

16 апреля 2025

Проект переведен автоматически. Войдите или зарегистрируйтесь, чтобы увидеть оригинал

Создать отдельный микросервис, который обрабатывает голосовые сообщения пользователей:

🎙️ трансформирует аудио в текст (speech-to-text / STT),
🔊 преобразует текст в речь (text-to-speech / TTS).

Этот микросервис должен работать независимо от основного ядра Optizium, общаясь через HTTP POST-запросы. Все текстовые сообщения и ответы GPT будут обрабатываться вашим основным API.

⚙️ Архитектура

🧱 Составляющие:

Микросервис (Python + FastAPI или Node.js + Express)
OpenAI Whisper API для STT
OpenAI TTS для синтеза речи
Взаимодействие с Optizium через:
- /api/chats/send — отправка текста в чат
- /api/chats/chat — получение истории
- /api/integrations/integration — WebHook (опционально)
- /api/leads/leads — обработка контактных форм (по необходимости)

📤 Передача данных

🔽 Входящий запрос к микросервису (от фронтенда сайта или из мобильного приложения):

1. Входное аудио (STT)

yamlКопироватьРедактироватьPOST /speech-to-text
Content-Type: multipart/form-data

Form-data:
- audio_file: .mp3/.ogg/.wav
- bot_id: string
- chat_room: string

2. Входной текст для озвучивания (TTS)

pgsqlКопироватьРедактироватьPOST /text-to-speech
Content-Type: application/json

{
  "text": "Ваш товар в наличии",
  "language": "uk-UA",
  "voice": "female",
  "bot_id": "...",
  "chat_room": "..."
}

🔁 Поведение микросервиса

🟡 STT:

Получает аудиофайл
Распознает текст через OpenAI Whisper

Отправляет его в ваш API:

cssКопироватьРедактироватьPOST /api/chats/send
headers: {Authorization, Content-Type}
body:
{
  "bot_id": "...",
  "chat_room": "...",
  "author": "user",
  "message": "распознанный текст"
}

🟢 TTS:

Получает текстовый ответ от GPT (через вашу систему)
Озвучивает его через TTS-систему
Возвращает .mp3 или URL на файл на фронтенд

🔐 Безопасность и конфиденциальность

Использование HTTPS
API-ключ обязателен на стороне запроса (Basic или Bearer)
Аудиофайлы удаляются после обработки
Не сохранять историю на стороне микросервиса (только передача)

📦 Результат

Ожидаемые конечные точки (эндпоинты):

Метод	Endpoint	Назначение
POST	`/speech-to-text`	Распознавание речи в текст
POST	`/text-to-speech`	Синтез речи из текста
GET	`/status`	Состояние сервиса (пинг)

🧪 Тестирование

Отправка тестового голосового файла → проверка текста в Optizium чате.
GPT ответ → синтез → проверка воспроизведения на сайте.
Отправка формы обратной связи после голосового запроса.

🧰 Стек технологий (рекомендуется):

Python 3.11+, FastAPI, uvicorn
OpenAI Whisper API, gTTS / TTS by Coqui, Edge TTS
pydub или ffmpeg для работы с аудио
Docker, Gunicorn (производственная сборка)
ngrok / HTTPS proxy (для локального тестирования WebHook)

🕐 Срок выполнения:

3–5 рабочих дней

Ставки 6 Отклоненные 3 Обсуждения 1

Ярослав Стьопін

7 0

Проекты 7
Оценка 4.5
Рейтинг 1 266

Бюджет: 10000 UAH Срок: 5 дней

Добрый день.
Готов взять Ваш проект
Смогу разработать для Вас такую интеграцию с использованием no-code/low-code инструментов.
Пишите в личные, обсудим все возможные нюансы и сможем приступить к реализации.

Олексій Буглак

9 0

Проекты 9
Оценка 5.0
Рейтинг 2 806

Бюджет: 10000 UAH Срок: 5 дней

Добрый день!

За неделю(5 дней) смогу сделать такой сервис на nodejs. Но сначала нужно более детально посмотреть на ваш сервис Optizium.
Примеры работ: https://github.com/axbuglak

С уважением,
Буглак Алексей

Василь Савчук

1 0

Проекты -
Оценка -
Рейтинг 426

Бюджет: 5000 UAH Срок: 4 дня

Создам независимый микросервис на Python 3.11+ с FastAPI, который будет обрабатывать голосовые сообщения пользователей. Он будет принимать аудиофайл (форматы .mp3/.ogg/.wav), преобразовывать его в текст с помощью OpenAI Whisper API, а затем отправлять этот текст через HTTP POST-запрос в основной API /api/chats/send. Для обратной задачи (TTS) микросервис будет принимать текст, преобразовывать его в речь с помощью gTTS, Coqui TTS или Edge TTS, генерировать аудиофайл и возвращать ссылку на него. Обработка аудио будет выполняться с помощью ffmpeg или pydub.

Вся взаимодействие будет происходить через защищенные HTTPS-запросы с авторизацией по API-ключу. Аудиофайлы не будут сохраняться — удаляются после обработки. Также реализую /status для проверки доступности сервиса. Тестирование будет включать 3 этапа: проверка STT (распознавание), TTS (синтез) и полное соединение с основным API.

Для деплоя использую Docker + Gunicorn, а для локального тестирования WebHook – ngrok.

Олександр С.

Победившая ставка

9 0

Проекты 9
Оценка 5.0
Рейтинг 1 420

Бюджет: 5000 UAH Срок: 5 дней

У меня есть опыт создания микросервисов на FastAPI, работал с OpenAI и работал с аудиофайлами.
Могу реализовать микросервис, который будет полностью соответствовать описанной архитектуре: быстрый, безопасный, независимый и легко масштабируемый. Готов обсудить нюансы (аутентификация, деплой) в личных сообщениях. Напишите, пожалуйста, — все обсудим

Елена Друзенко

5 0

Проекты 5
Оценка 2.5
Рейтинг 611

Бюджет: 12000 UAH Срок: 7 дней

Добрый день
готова выполнить ваше задания
Реальный срок исполнения 6-7 дней
стоимость 12 000 грн

Ievhen Ліхачев
Одесса, Украина

Проектов 63
Оценка 5.0
Рейтинг 6 692

Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API

Отзыв заказчика о сотрудничестве с Олександром С.

Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API

5.0

Ievhen Ліхачев

Отзыв фрилансера о сотрудничестве с Ievhen Ліхачев

Разработка микросервиса для обработки аудио (речь - текст) с интеграцией нашего сервиса через API

5.0

Олександр С.

⚙️ Архитектура

🧱 Составляющие:

📤 Передача данных

🔽 Входящий запрос к микросервису (от фронтенда сайта или из мобильного приложения):

1. Входное аудио (STT)

2. Входной текст для озвучивания (TTS)

🔁 Поведение микросервиса

🟡 STT:

🟢 TTS:

🔐 Безопасность и конфиденциальность

📦 Результат

Ожидаемые конечные точки (эндпоинты):

🧪 Тестирование

🧰 Стек технологий (рекомендуется):

🕐 Срок выполнения:

Ярослав Стьопін

Олексій Буглак

Василь Савчук

Олександр С.

Ставки скрыты

Ставки пока отсутствуют

Елена Друзенко

Ставки скрыты

Актуальные фриланс-проекты в категории AI и машинное обучение

MATLAB и machine learning для анализа изображений

Мультиагентная система

Подсчет готовой продукции и людей, участвующих в процессе, на основе модели YOLO.

АИ помощники и ассистенты в бизнесе и личные

Сегодня! Ищем тестировщика для web-крипто кошелька