Chmurowa usługa renderowania wideo na GPU z botem Telegram, lokalnym Whisper i integracjami API
Chmurowa usługa renderowania wideo na GPU z botem Telegram, lokalnym Whisper i integracjami z Fal AI (Flux Schnell i Wan 2)
1. Cel projektu
Stworzyć chmurową usługę renderowania wideo z interfejsem Telegram, która:
Przyjmuje pliki i instrukcje przez bota Telegram
Pobiera obrazy przez API Fal AI Flux Schnell
Pobiera wideo przez API Fal AI (model Wan 2)
Lokalnie generuje napisy (Whisper)
Renderuje wszystko na GPU (przez ffmpeg/OpenCV/SDK)
Wydaje gotowy wynik przez Google Drive
2. Stos technologiczny
Telegram Bot API (Python: [aiogram, pyrogram] lub Node.js)
ffmpeg z obsługą GPU (NVENC, CUDA, VideoToolbox)
OpenCV z CUDA (w razie potrzeby do niestandardowego przetwarzania klatek)
Fastvideo SDK (jeśli potrzebne przyspieszenie, w budżecie)
OpenAI Whisper (lokalnie, CPU/GPU, przez binding Python)
Fal AI API (Flux Schnell — obrazy, Wan 2 — wideo)
Google Drive API (przesyłanie gotowych wideo)
Chmura: DigitalOcean (lub AWS/GCP), koniecznie instancje GPU
Docker (kontenery do izolacji pracowników renderujących)
(Opcjonalnie) Kubernetes do automatycznego skalowania
3. Główna logika działania
3.1. Bot Telegram
Przyjmuje instrukcje, pliki użytkownika (tekst, audio, wideo, parametry).
Pokazuje statusy (“kolejka”, “renderuje”, “gotowe”).
Pozwala wybrać szablon, styl, ustawić tekst do napisów.
3.2. Pipeline renderowania
Zapytanie użytkownika otrzymane → dodawane do kolejki (kolejka na Redis/DB).
Pobierane obrazy przez API Fal AI Flux Schnell
Wysłać prompt, otrzymać url/jpg/png.
Pobierane wideo przez Fal AI Wan 2
Zapytanie API, otrzymać mp4/mov lub url.
Generowane napisy przez Whisper
Audio (jeśli potrzebne) podawane do Whisper (lokalnie na GPU/CPU).
Wynik — plik srt/txt.
Renderowanie wideo na GPU
Wszystkie elementy zbierane (wideo, obrazy, audio, napisy) w jeden film.
ffmpeg z pełną obsługą GPU.
Opcjonalnie niestandardowe przetwarzanie przez OpenCV CUDA.
Gotowy plik przesyłany na Google Drive
Tworzona unikalna folder/link.
Użytkownik otrzymuje link w Telegramie
4. Wymagania techniczne do renderowania
Renderowanie 10-15 wideo (1 godzina każde) równolegle
ffmpeg uruchamiane z parametrami NVENC/CUDA
Dodawanie audio/wideo/napisów — tylko przez GPU
Whisper instalowane lokalnie (przez Docker lub systemowo)
Fal AI API — integracja przez REST, obsługa błędów/retry
Wszystkie pliki pośrednie usuwane po zakończeniu renderowania
5. Architektura (schematycznie)
Użytkownik (Telegram)
Bot Telegram
↕Menadżer kolejki renderowania (monitorowanie statusów)
↕Pracownik renderujący (Docker):
Pobiera dane z Fal AI (obrazy/wideo)
Wywołuje Whisper do napisów
Skleja wideo (ffmpeg na GPU)
Przesyła wynik do Google Drive
Informuje Menadżera Kolejki/bota
6. Minimalne wymagania do serwera
DigitalOcean GPU droplet (8+ rdzeni CPU, 32+ GB RAM, 1+ GPU, NVMe SSD)
Docker zainstalowany
Python 3.10+, Node.js (jeśli potrzebne dla botów)
ffmpeg z obsługą CUDA/NVENC
OpenCV z CUDA
Whisper (instalacja przez pip + modele)
Dostęp do internetu dla API Fal AI i Google Drive
7. Przykład pipeline'u (pseudokod)
# 1. Pobierz obraz przez Fal AI Flux Schnell
image_url = fal_api.get_image(prompt)
download(image_url)
# 2. Pobierz wideo przez Fal AI Wan 2
video_url = fal_api.get_video(params)
download(video_url)
# 3. Whisper (lokalnie) -> uzyskaj napisy
subtitles = whisper.transcribe(audio_file)
# 4. ffmpeg (GPU) — zbuduj wideo
cmd = f"ffmpeg -hwaccel cuda -i video.mp4 -i image.jpg -vf 'subtitles=subs.srt' -c:v h264_nvenc output.mp4"
run(cmd)
# 5. Prześlij do Google Drive, uzyskaj link
link = google_drive.upload('output.mp4')
telegram_bot.send_message(user_id, link)
8. Co ma zrobić programista
Uruchomić bota Telegram (lub poprawić, jeśli już istnieje)
Napisać handler do integracji z Fal AI (2 endpointy)
Przygotować pracownika renderującego (Docker), który:
Pobiera media z API
Wywołuje lokalny Whisper
Generuje napisy w SRT
Uruchamia ffmpeg na GPU ze wszystkimi parametrami
Przesyła wideo do Google Drive
Wysyła statusy z powrotem do Telegramu
Zapewnić skalowanie i równoległość (wiele pracowników Docker)
Dokumentacja dotycząca uruchamiania i wdrażania
9. Dokumentacja/Raporty
Opisać wdrożenie na DigitalOcean (lub innej chmurze), instrukcje dotyczące uruchamiania kontenerów, podłączenia do API
README z przykładami poleceń i testowania
10. Terminy i budżet
Zaproponować terminy realizacji MVP (podstawowy przepływ, 1-2 pracowników)
Oszacować budżet na uruchomienie w DigitalOcean na 1 miesiąc pracy (punkt odniesienia: 1-2 GPU droplets)
Gotowy do dostarczenia dodatkowych szczegółów (API Fal AI, przykłady promptów, przykłady wideo/obrazów do testów) — na żądanie.
-
1017 2 1 Cześć! 👋
Mam praktyczne doświadczenie w parsowaniu danych (realne projekty, praca z API, strukturyzacja i przetwarzanie informacji) oraz w tworzeniu botów Telegram. Zrealizowałem również kilka projektów PET z wykorzystaniem AI:
BizzAi — bot do generowania odpowiedzi biznesowych;
fuckupcoach — interaktywny bot-coach.
Znam się na pracy z integracjami API, kolejkami i automatyzacją, i jestem gotów zrealizować MVP dla Twojej usługi:
…
Bot Telegram do przyjmowania danych i wydawania wyników;
integracja z Fal AI API;
lokalna praca z Whisper do generowania napisów;
organizacja pipeline'u renderowania na GPU (ffmpeg, OpenCV, Docker);
ładowanie gotowych wyników na Google Drive i powiadamianie użytkownika.
Mogę szybko zaangażować się w pracę, opanować specyficzne narzędzia (CUDA, ffmpeg z GPU, skalowanie workerów) oraz dokumentować proces.
Będę zadowolony, mogąc dołączyć do realizacji tego projektu 🚀
-
1595 7 0 Dzień dobry!
Nazywam się Roman i jestem w czołówce 5 deweloperów w kategorii „Sztuczna inteligencja i uczenie maszynowe” wśród ~1600 specjalistów na platformie.
Gwarantuję:
- Szybkie i jakościowe wykonanie zadania
- Ścisłe przestrzeganie terminów
- Regularny kontakt przez cały proces
Będę zadowolony, mogąc omówić szczegóły twojego projektu w prywatnych wiadomościach.
-
330 2 0 Witam.
Mam doświadczenie w realizacji AI rozmów - mogę pokazać dialogi gotowych czatów i wyniki.
Mam również prace nad maksymalnie realistycznymi zdjęciami - również mogę pokazać wyniki.
Myślę, że z opisu zrozumieliśmy się nawzajem, do czego służy wasza usługa - i szybko znajdziemy wspólny język.
-
10123 117 0 Witaj.
Opracowuję boty do Telegramu w NodeJS. Jestem gotów się tym zająć. Pisz, omówimy.
-
978 5 1 Dzień dobry, jestem gotów podjąć się zadania, mam gotowego bota, ale do innych zadań, jednak potrafię pracować z Fal API, bot jest właśnie na nim podłączony do Halioai, oto link do portfolio https://freelancehunt.com/showcase/work/bot-dlya-avtomatichnoyi-generatsiyi-video-po/1973705.html
Jestem gotów przerobić pod wasze zadania, api do testów będzie potrzebne, to na pewno koszty testów będą wynosić około 10$ i więcej
Dostęp do serwera, jeśli go nie ma, zarejestruj się i daj mi dostęp, sam skonfiguruję środowisko, ogólnie z siecią, którą opisałeś w tzw. mogę zebrać
Mój 1 dzień kosztuje 2000 UAH
Zrobię prawdopodobnie wcześniej niż w 7 dni, ale potrzebuję kilku dni testów, aby wszystko było dobrze)
Link do wideo z pracyGoogle Drive
Aktualne zlecenia dla freelancerów w kategorii Python
Stworzenie wielofunkcyjnego bota w Telegramie
82 PLN
(Wszystkie materiały przekażę w prywatnych wiadomościach) Oto szczegółowy opis projektu: Po naciśnięciu przycisku /start Bots wysyła tekst z zasadami i warunkami korzystania (pod tekstem przycisk 'zapoznałem się') Po naciśnięciu przycisku, następna wiadomość 'sprawdzenie… Python, Tworzenie chatbota ∙ 1 dzień 19 godzin temu ∙ 88 ofert |
Znaleźć feed produktowy (Google Merchant XML) dla strony na OpenCart
57 PLN
Konieczne jest znalezienie bezpośredniego linku do działającego pliku z danymi produktowymi (XML) konkurenta dla Google Merchant Center Platforma (CMS): OpenCart / ocStore Znajdź oryginalny plik z danymiWymagania dotyczące wyniku: Roboczy link do pliku XML Python, Parsowanie danych ∙ 4 dni 8 godzin temu ∙ 25 ofert |
Rozwój farmy Tik-Tok (fabryka treści)Konieczne jest opracowanie systemu do centralnego zarządzania wieloma kontami TikTok z automatycznym publikowaniem treści, wykorzystaniem indywidualnych proxy oraz symulacją naturalnej aktywności kont. Wymagania funkcjonalne1. Zarządzanie kontami Dodawanie i usuwanie kont… Python, Tworzenie chatbota ∙ 4 dni 20 godzin temu ∙ 19 ofert |
Poprawić działanie Claude Code i prace związane z pisaniem oprogramowaniaObecnie rozwijam CRM i analitykę, oprogramowanie. Robię to przez Claude Code, ale rozumiem, że wyniki nie są najlepsze pod względem zmian. Mam 2 zadania - Potrzebuję pomocy w stworzeniu presetów dotyczących umiejętności, MD itd., aby poprawić jakość. Wziąć sprawdzone, z którymi… AI i uczenie maszynowe, Python ∙ 5 dni 2 godziny temu ∙ 25 ofert |
System OCRPotrzebny jest system rozpoznawania tekstu na kopertach pocztowych (indeks - tylko liczby). Tekst czasami może być ręcznie napisany. Rozpoznawanie znaczków (liczenie ilości i nominałów) Python ∙ 5 dni 5 godzin temu ∙ 28 ofert |