Проект транскрипції — автоматизація створення розшифровок з ви

Python 8934 UAH

Робота 1 з 62

Це Python-скрипт, створений для автоматичного витягування аудіо з відеофайлів і подальшої транскрипції з використанням Vosk, однієї з найточніших моделей для розпізнавання мови. Проект націлений на обробку відеолекцій, що дозволяє автоматично отримувати текстові розшифровки для створення навчальних матеріалів.

Функціонал:

1. Витягування аудіодоріжок з відеофайлів.
2. Перетворення аудіофайлів в моноформат з частотою 16000 Hz для кращого розпізнавання.
3. Повна транскрипція аудіо в текст.
4. Докладне логування всіх етапів процесу.
5. Видалення тимчасових файлів для економії простору на сервері.

Основні технології:

• Vosk: для автоматичної транскрипції.
• MoviePy: для витягування аудіодоріжок з відео.
• Pydub: для обробки і нормалізації аудіофайлів.
• TQDM: для відображення прогресу обробки.

Розв'язані задачі та виклики:

• Проблема з якістю аудіо вирішена за допомогою перетворення в моно і нормалізації частоти.
• Високе навантаження на сервер через великі обсяги відео вирішено завдяки автоматизації видалення тимчасових файлів після транскрипції.
• Оптимізація продуктивності завдяки використанню прогрес-бару для відстеження поточного статусу.

Ітоги:

Даний проект надав замовнику інструмент для швидкого і автоматичного створення розшифровок лекцій. Це значно скоротило час на обробку відео і дозволило надавати готові текстові матеріали для подальшого використання.

Мітки (hashtags):

#python #transcription #speech-to-text #audioextraction #automatedworkflow #vosk #pydub #moviepy #audioprocessing #audiotranscription