Opracowanie mikroserwisu do przetwarzania audio (mowa - tekst) z integracją naszej usługi przez API
Stworzyć osobny mikroserwis, który przetwarza głosowe wiadomości użytkowników:
🎙️ przekształca audio na tekst (speech-to-text / STT),
🔊 przekształca tekst na mowę (text-to-speech / TTS).
Ten mikroserwis ma działać niezależnie od głównego rdzenia Optizium, komunikując się przez zapytania HTTP POST. Wszystkie wiadomości tekstowe i odpowiedzi GPT będą przetwarzane przez Twój główny API.
⚙️ Architektura
🧱 Składniki:
Mikroserwis (Python + FastAPI lub Node.js + Express)
OpenAI Whisper API dla STT
OpenAI TTS do syntezowania głosu
Interakcja z Optizium przez:
/api/chats/send— wysyłanie tekstu do czatu/api/chats/chat— pobieranie historii/api/integrations/integration— WebHook (opcjonalnie)/api/leads/leads— przetwarzanie formularzy kontaktowych (w razie potrzeby)
📤 Przesyłanie danych
🔽 Żądanie wejściowe do mikroserwisu (z frontendu strony lub z aplikacji mobilnej):
1. Wejściowe audio (STT)
yamlKopiujEdytujPOST /speech-to-text
Content-Type: multipart/form-data
Form-data:
- audio_file: .mp3/.ogg/.wav
- bot_id: string
- chat_room: string
2. Wejściowy tekst do syntezowania (TTS)
pgsqlKopiujEdytujPOST /text-to-speech
Content-Type: application/json
{
"text": "Twój produkt jest dostępny",
"language": "pl-PL",
"voice": "female",
"bot_id": "...",
"chat_room": "..."
}
🔁 Zachowanie mikroserwisu
🟡 STT:
Otrzymuje plik audio
Rozpoznaje tekst za pomocą OpenAI Whisper
Wysyła go do Twojego API:
cssKopiujEdytuj
POST /api/chats/send
headers: {Authorization, Content-Type}
body:
{
"bot_id": "...",
"chat_room": "...",
"author": "user",
"message": "rozpoznany tekst"
}
🟢 TTS:
Otrzymuje tekstową odpowiedź od GPT (przez Twój system)
Odczytuje ją za pomocą systemu TTS
Zwraca
.mp3lub URL do pliku na frontend
🔐 Bezpieczeństwo i prywatność
Użycie HTTPS
Klucz API obowiązkowy po stronie żądania (Basic lub Bearer)
Pliki audio są usuwane po przetworzeniu
Nie przechowywać historii po stronie mikroserwisu (tylko przesyłanie)
📦 Wynik
Oczekiwane punkty końcowe (endpoints):
| Metoda | Endpoint | Przeznaczenie |
|---|---|---|
| POST | /speech-to-text | Rozpoznawanie mowy na tekst |
| POST | /text-to-speech | Syntezowanie głosu z tekstu |
| GET | /status | Stan usługi (ping) |
🧪 Testowanie
Wysyłanie testowego pliku głosowego → sprawdzenie tekstu w czacie Optizium.
Odpowiedź GPT → syntezowanie → sprawdzenie odtwarzania na stronie.
Wysyłanie formularza zwrotnego po głosowym zapytaniu.
🧰 Stos technologii (zalecany):
Python 3.11+,FastAPI,uvicornOpenAI Whisper API,gTTS/TTS by Coqui,Edge TTSpydublubffmpegdo pracy z audioDocker,Gunicorn(wydanie produkcyjne)ngrok/ HTTPS proxy (do lokalnego testowania WebHook)
🕐 Termin wykonania:
3–5 dni roboczych
Opinia zleceniodawcy o współpracy z Oleksandr S.
Opracowanie mikroserwisu do przetwarzania audio (mowa - tekst) z integracją naszej usługi przez APIWszystko w porządku, projekt zrealizowany w terminie i w pełnym zakresie. Dziękuję za pracę i mogę polecić innym zleceniodawcom!
Opinia freelancera o współpracy z Ievhen Likhachev
Opracowanie mikroserwisu do przetwarzania audio (mowa - tekst) z integracją naszej usługi przez APIWszystko dobrze, zleceniodawca profesjonalnie podchodzi do tzw., i słucha rad, mam nadzieję znowu pracować razem.
-
1315 7 0 Dzień dobry.
Jestem gotów podjąć się Twojego projektu.
Mogę opracować dla Ciebie taką integrację z wykorzystaniem narzędzi no-code/low-code.
Pisz na prywatne, omówimy wszystkie możliwe niuanse i będziemy mogli przystąpić do realizacji.
-
3082 9 0 Dzień dobry!
Za tydzień (5 dni) mogę stworzyć taki serwis na nodejs. Ale najpierw muszę dokładniej przyjrzeć się waszemu serwisowi Optizium.
Przykłady prac: https://github.com/axbuglak
Z poważaniem,
Buglak Ołeksij
-
306 1 0 Tworzę niezależny mikroserwis w Pythonie 3.11+ z FastAPI, który będzie przetwarzał głosowe wiadomości użytkowników. Będzie przyjmował plik audio (formaty .mp3/.ogg/.wav), przekształcał go na tekst za pomocą OpenAI Whisper API, a następnie wysyłał ten tekst przez żądanie HTTP POST do głównego API /api/chats/send. Dla odwrotnego zadania (TTS) mikroserwis będzie przyjmował tekst, przekształcał go na mowę za pomocą gTTS, Coqui TTS lub Edge TTS, generował plik audio i zwracał link do niego. Przetwarzanie audio będzie realizowane za pomocą ffmpeg lub pydub.
Cała interakcja będzie odbywać się przez zabezpieczone żądania HTTPS z autoryzacją za pomocą klucza API. Pliki audio nie będą przechowywane — usuwane po przetworzeniu. Zrealizuję również /status do sprawdzania dostępności usługi. Testowanie będzie obejmować 3 etapy: sprawdzenie STT (rozpoznawanie), TTS (syntezę) oraz pełne połączenie z głównym API.
Do wdrożenia używam Dockera + Gunicorn, a do lokalnego testowania WebHook – ngrok.
-
1444 9 0 Mam doświadczenie w tworzeniu mikroserwisów na FastAPI, pracowałem z OpenAI i pracowałem z plikami audio.
Mogę zrealizować mikroserwis, który będzie w pełni odpowiadał opisanej architekturze: szybki, bezpieczny, niezależny i łatwy do skalowania. Jestem gotów omówić szczegóły (uwierzytelnianie, wdrożenie) w prywatnych wiadomościach. Proszę napisać — wszystko omówimy
-
631 5 0 Dzień dobry
jestem gotowa wykonać twoje zadanie
Rzeczywisty czas realizacji 6-7 dni
koszt 12 000 UAH
-
Рассматриваете ли вы другие языки программирования?
-
Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe
Konsultacja dotycząca stworzenia agenta AI w celu przyspieszenia rozwiązywania rutynowych zadań - 60 minut
58 PLN
Konsultacja dotycząca stworzenia agenta AI w celu przyspieszenia rozwiązywania rutynowych zadań. Stworzyłem agenta do automatycznego wypełniania umowy - to proste, jednak są bardziej skomplikowane zadania, które chciałbym również przekazać agentom GPT i jest kilka pytań, które… AI i uczenie maszynowe ∙ 10 godzin 17 minut temu ∙ 12 ofert |
Automatyczne publikowanie relacji na InstagramieDzień dobry, Potrzebna pomoc w ustawieniu automatycznego publikowania historii na Instagramie. W archiwum Instagrama są już historie, które zostały opublikowane, trzeba je ponownie opublikować. AI i uczenie maszynowe, Tworzenie chatbota ∙ 1 dzień 19 godzin temu ∙ 24 oferty |
Stworzenie asystenta AI do komunikacji z klientamiPotrzebne jest stworzenie asystenta AI do komunikacji z Klientami. Okno czatu będzie umieszczone na naszej stronie, następnie nastąpi komunikacja z botem. Pytania dotyczące produktów, ustawień, możliwości itp. W przypadku, gdy informacja jest nieznana lub zapytanie, na które… AI i uczenie maszynowe, AI consult ∙ 2 dni 14 godzin temu ∙ 34 oferty |
Szukam montażysty wideo, który tworzy filmy z AITworzenie wideo AI dla dentystów i innych ekspertów Cel: Tworzenie krótkich pionowych wideo dla Instagram Reels, Facebook Reels, TikTok i YouTube Shorts, które wyjaśniają skomplikowane tematy prostym językiem i przyciągają uwagę widza dzięki połączeniu animacji AI i wideo… AI i uczenie maszynowe ∙ 2 dni 22 godziny temu ∙ 2 oferty |
Szukam mentora / nauczyciela z ComfyUI do nauki online (praca przez RunPod)
58 PLN
Dzień dobry. Szukam praktykującego specjalisty i mentora, który pomoże mi opanować pracę z ComfyUI. Główną cechą mojego zapytania jest to, że praca będzie odbywać się całkowicie w chmurze, bez pobierania programu na lokalny komputer. Planuję wynająć kartę graficzną przez serwis… AI i uczenie maszynowe ∙ 3 dni 8 godzin temu ∙ 1 oferta |