Инструмент транскрипции аудио

Python

Работа 32 из 45

Консольное приложение на Python для автоматической транскрипции аудиофайлов с использованием модели faster-whisper (оптимизированная реализация OpenAI Whisper). Проект преобразует входной аудиофайл в текст, сохраняет транскрипцию в файл и при необходимости разбивает её на части для удобства обработки больших объёмов.

Особенности: 1) Поддержка различных форматов аудио через автоматическую конвертацию в WAV с помощью FFmpeg (моно, 16 кГц). 2) Использование модели Whisper large (настраиваемая размером) для высокой точности распознавания. 3) Параметры декодирования (beam_size=20, best_of=10, temperature=0.2) для баланса между точностью и скоростью. 4) Автоматическое определение языка и длительности аудио с логированием. 5) Сохранение транскрипции построчно в текстовый файл (.txt). 6) Разбиение большого текста на части по 500 строк для упрощения дальнейшей обработки. 7) Детальное логирование всех этапов в файл для отладки. 8) Минималистичный CLI-интерфейс: поддержка указания пути к аудио через аргумент командной строки. 9) Полная модульность: отдельные модули для конфигурации, логирования, конвертации, транскрипции и разделения текста.

Пример работы: При обработке песни с вокалом модель пытается транскрибировать текст, но из-за музыкального сопровождения возникают значительные погрешности: повторения фраз, искажения слов и галлюцинации (например, повторяющаяся строка "I'm not trying to be a fool"). Это ожидаемо, поскольку Whisper оптимизирован прежде всего для речи, а не для лирики в музыке — фоновая инструментальная часть и стилизованный вокал усложняют задачу. Однако для обычной разговорной речи проект демонстрирует отличные результаты: высокая точность даже в условиях сильного шума (ветер, фоновые звуки, эхо), благодаря робастности модели Whisper к реальным акустическим помехам.

Технологии: Python 3, faster-whisper (CTranslate2), FFmpeg (для конвертации).

Репозиторий: https://github.com/fedyaqq34356/audio-to-txt.git