Transcription Project — автоматизация создания расшифровок из ви

Python 8923 UAH

Работа 1 из 62

Это Python-скрипт, созданный для автоматического извлечения аудио из видеофайлов и последующей транскрипции с использованием Vosk, одной из самых точных моделей для распознавания речи. Проект нацелен на обработку видеолекций, что позволяет автоматически получать текстовые расшифровки для создания обучающих материалов.

Функционал:

1. Извлечение аудиодорожек из видеофайлов.
2. Преобразование аудиофайлов в моноформат с частотой 16000 Hz для лучшего распознавания.
3. Полная транскрипция аудио в текст.
4. Подробное логирование всех этапов процесса.
5. Удаление временных файлов для экономии пространства на сервере.

Основные технологии:

• Vosk: для автоматической транскрипции.
• MoviePy: для извлечения аудиодорожек из видео.
• Pydub: для обработки и нормализации аудиофайлов.
• TQDM: для отображения прогресса обработки.

Решенные задачи и вызовы:

• Проблема с качеством аудио решена с помощью преобразования в моно и нормализации частоты.
• Высокая нагрузка на сервер из-за больших объемов видео решена за счет автоматизации удаления временных файлов после транскрипции.
• Оптимизация производительности благодаря использованию прогресс-бара для отслеживания текущего статуса.

Итоги:

Данный проект предоставил заказчику инструмент для быстрого и автоматического создания расшифровок лекций. Это значительно сократило время на обработку видео и позволило предоставлять готовые текстовые материалы для дальнейшего использования.

Метки (hashtags):

#python #transcription #speech-to-text #audioextraction #automatedworkflow #vosk #pydub #moviepy #audioprocessing #audiotranscription