Narzędzie do transkrypcji audio

Python

Praca 32 z 45

Aplikacja konsolowa w Pythonie do automatycznej transkrypcji plików audio z wykorzystaniem modelu faster-whisper (optymalizowana implementacja OpenAI Whisper). Projekt przekształca wejściowy plik audio w tekst, zapisuje transkrypcję w pliku i opcjonalnie dzieli ją na części dla ułatwienia przetwarzania dużych objętości.

Cechy:
1) Wsparcie dla różnych formatów audio poprzez automatyczną konwersję do WAV za pomocą FFmpeg (mono, 16 kHz).
2) Wykorzystanie modelu Whisper large (konfigurowalny rozmiar) dla wysokiej dokładności rozpoznawania.
3) Parametry dekodowania (beam_size=20, best_of=10, temperature=0.2) dla równowagi między dokładnością a szybkością.
4) Automatyczne określenie języka i długości audio z logowaniem.
5) Zapis transkrypcji linia po linii w pliku tekstowym (.txt).
6) Dzielenie dużego tekstu na części po 500 linii dla uproszczenia dalszego przetwarzania.
7) Szczegółowe logowanie wszystkich etapów w pliku do debugowania.
8) Minimalistyczny interfejs CLI: wsparcie dla podawania ścieżki do audio przez argument wiersza poleceń.
9) Pełna modularność: oddzielne moduły do konfiguracji, logowania, konwersji, transkrypcji i dzielenia tekstu.

Przykład działania:
Podczas przetwarzania piosenki z wokalem model próbuje transkrybować tekst, ale z powodu muzycznego tła występują znaczne błędy: powtórzenia fraz, zniekształcenia słów i halucynacje (na przykład powtarzający się wers "I'm not trying to be a fool"). Jest to do przewidzenia, ponieważ Whisper jest optymalizowany przede wszystkim do mowy, a nie do tekstów piosenek — instrumentalna część tła i stylizowany wokal utrudniają zadanie. Jednak w przypadku zwykłej mowy projekt pokazuje doskonałe wyniki: wysoka dokładność nawet w warunkach silnego hałasu (wiatr, dźwięki tła, echo), dzięki odporności modelu Whisper na rzeczywiste zakłócenia akustyczne.

Technologie:
Python 3, faster-whisper (CTranslate2), FFmpeg (do konwersji).

Repozytorium:
https://github.com/fedyaqq34356/audio-to-txt.git