Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Консольное приложение на Python для автоматической транскрипции аудиофайлов с использованием модели faster-whisper (оптимизированная реализация OpenAI Whisper).
Проект преобразует входной аудиофайл в текст, сохраняет транскрипцию в файл и optionally разбивает её на части для удобства обработки больших объёмов.

Особенности:
1)Поддержка различных форматов аудио через автоматическую конвертацию в WAV с помощью FFmpeg (моно, 16 кГц).
2)Использование модели Whisper large (настраиваемая размером) для высокой точности распознавания.
3)Параметры декодирования (beam_size=20, best_of=10, temperature=0.2) для баланса между точностью и скоростью.
4)Автоматическое определение языка и длительности аудио с логированием.
5)Сохранение транскрипции построчно в текстовый файл (.txt).
6)Разбиение большого текста на части по 500 строк для упрощения дальнейшей обработки.
7)Детальное логирование всех этапов в файл для отладки.
8)Минималистичный CLI-интерфейс: поддержка указания пути к аудио через аргумент командной строки.
9)Полная модульность: отдельные модули для конфигурации, логирования, конвертации, транскрипции и разделения текста.

Пример работы:
При обработке песни с вокалом модель пытается транскрибировать текст, но из-за музыкального сопровождения возникают значительные погрешности: повторения фраз, искажения слов и галлюцинации (например, повторяющаяся строка "I'm not trying to be a fool").
Это ожидаемо, поскольку Whisper оптимизирован прежде всего для речи, а не для лирики в музыке — фоновая инструментальная часть и стилизованный вокал усложняют задачу.
Однако для обычной разговорной речи проект демонстрирует отличные результаты: высокая точность даже в условиях сильного шума (ветер, фоновые звуки, эхо), благодаря робастности модели Whisper к реальным акустическим помехам.

Технологии:
Python 3, faster-whisper (CTranslate2), FFmpeg (для конвертации).

Репозиторий:
https://github.com/fedyaqq34356/audio-to-txt.git
Деталі роботи
Додано 29 грудня 2025
145 переглядів
Фрилансер
Георгій Жуков
Україна Київ  22  0

Вільний для роботи Вільний для роботи
22 Сейфи завершені
На сервісі 9 місяців 11 днів