Micro-TTS — клиентское приложение для генерации озвучки текста

Десктопные приложения

Разработал приложение Micro-TTS — локальный генератор аудиофайлов на базе *** API (Text-to-Speech). Решение реализовано на Python с использованием pywebview и минималистичного HTML/JS-интерфейса. Программа полностью автономна, распространяется как standalone .exe для Windows.

Возможности:
Современный минималистичный интерфейс (Windows, HTML UI через pywebview)
Поддержка 30 голосов с выбором пола
Гибкий выбор стиля произношения (tone prompt, кастомный ввод)
Генерация до 20 аудиофрагментов (каждый блок — отдельный WAV)
Поддержка русского, украинского, английского и ещё 21 языка (24 языка всего)
Мгновенный счётчик байтов (контроль лимита)
Гибкая конфигурация через файл config.json (ключ API, модель, лимиты)
Все голоса и параметры вынесены в отдельный voices.json
Безопасное хранение конфигов, легкая передача другому пользователю

Как работает:
Запускаете exe-файл — интерфейс появляется сразу, без консоли.
Вводите текст, выбираете голос, при необходимости задаёте стиль.
Генерируете аудио — каждый блок текста формирует отдельный файл.
Можно выбрать папку для сохранения результата.

Результат:
Готовые аудиофайлы в выбранной папке
Высокое качество синтеза голоса

Ключевые особенности реализации:
Умная нарезка текста: Автоматическое деление длинного текста на части по предложениям с учётом языковых нюансов и лимитов API. Исключена “порча” фраз и неестественные разрывы.

Прогрессбары и live-статистика: Реализованы отдельные прогрессбары для каждого блока и общий прогрессбар генерации. Показывается процент завершения в реальном времени, при ошибках (например, превышение лимита API) выводится их причина.

Устойчивость и защита от сбоев: Предусмотрены повторные попытки при ошибках, надёжная очистка временных файлов и безопасная склейка итоговых фрагментов.

Прозрачная архитектура: Все настройки и голоса хранятся в отдельных файлах (config.json, voices.json), что упрощает масштабирование, обновление и переносимость между машинами.

Лёгкость расширения и кастомизации: Динамический HTML UI и гибкая система конфигов позволяют быстро добавлять новые голоса, стили и языки без изменений кода.

Технологии:
Python 3.10+
PyWebView
*** API (Text-to-Speech)
HTML, JavaScript (vanilla)
PyInstaller (дистрибуция .exe для Windows)

←
Работа 1 из 3
→

Добавлена 12 июля 2025

177 просмотров

Опубликовать аналогичный проект

Елисей Х.

Днепр 7

Свободен для работы

7 Сейфов завершены

На сервисе 1 год

←
Работа 1 из 3
→