Projekt transkrypcji — automatyzacja tworzenia transkrypcji z vi

Python 759 PLN

Praca 1 z 62

To jest skrypt Pythona, stworzony do automatycznego wydobywania dźwięku z plików wideo i późniejszej transkrypcji z wykorzystaniem Vosk, jednego z najdokładniejszych modeli do rozpoznawania mowy. Projekt ma na celu przetwarzanie wykładów wideo, co pozwala na automatyczne uzyskiwanie tekstowych transkrypcji do tworzenia materiałów edukacyjnych.

Funkcjonalność:

1. Wydobywanie ścieżek dźwiękowych z plików wideo.
2. Przekształcanie plików audio do formatu mono z częstotliwością 16000 Hz dla lepszego rozpoznawania.
3. Pełna transkrypcja audio na tekst.
4. Szczegółowe logowanie wszystkich etapów procesu.
5. Usuwanie plików tymczasowych w celu oszczędności miejsca na serwerze.

Główne technologie:

• Vosk: do automatycznej transkrypcji.
• MoviePy: do wydobywania ścieżek dźwiękowych z wideo.
• Pydub: do przetwarzania i normalizacji plików audio.
• TQDM: do wyświetlania postępu przetwarzania.

Rozwiązane problemy i wyzwania:

• Problem z jakością audio został rozwiązany dzięki przekształceniu do mono i normalizacji częstotliwości.
• Wysokie obciążenie serwera z powodu dużych objętości wideo zostało rozwiązane dzięki automatyzacji usuwania plików tymczasowych po transkrypcji.
• Optymalizacja wydajności dzięki użyciu paska postępu do śledzenia bieżącego statusu.

Podsumowanie:

Ten projekt dostarczył klientowi narzędzie do szybkiego i automatycznego tworzenia transkrypcji wykładów. Znacząco skróciło to czas przetwarzania wideo i umożliwiło dostarczanie gotowych materiałów tekstowych do dalszego wykorzystania.

Tagi (hashtagi):

#python #transcription #speech-to-text #audioextraction #automatedworkflow #vosk #pydub #moviepy #audioprocessing #audiotranscription