Micro-TTS — клиентское приложение для генерации озвучки текста
Разработал приложение Micro-TTS — локальный генератор аудиофайлов на базе *** API (Text-to-Speech). Решение реализовано на Python с использованием pywebview и минималистичного HTML/JS-интерфейса. Программа полностью автономна, распространяется как standalone .exe для Windows.
Возможности:
Современный минималистичный интерфейс (Windows, HTML UI через pywebview)
Поддержка 30 голосов с выбором пола
Гибкий выбор стиля произношения (tone prompt, кастомный ввод)
Генерация до 20 аудиофрагментов (каждый блок — отдельный WAV)
Поддержка русского, украинского, английского и ещё 21 языка (24 языка всего)
Мгновенный счётчик байтов (контроль лимита)
Гибкая конфигурация через файл config.json (ключ API, модель, лимиты)
Все голоса и параметры вынесены в отдельный voices.json
Безопасное хранение конфигов, легкая передача другому пользователю
Как работает:
Запускаете exe-файл — интерфейс появляется сразу, без консоли.
Вводите текст, выбираете голос, при необходимости задаёте стиль.
Генерируете аудио — каждый блок текста формирует отдельный файл.
Можно выбрать папку для сохранения результата.
Результат:
Готовые аудиофайлы в выбранной папке
Высокое качество синтеза голоса
Ключевые особенности реализации:
Умная нарезка текста: Автоматическое деление длинного текста на части по предложениям с учётом языковых нюансов и лимитов API. Исключена “порча” фраз и неестественные разрывы.
Прогрессбары и live-статистика: Реализованы отдельные прогрессбары для каждого блока и общий прогрессбар генерации. Показывается процент завершения в реальном времени, при ошибках (например, превышение лимита API) выводится их причина.
Устойчивость и защита от сбоев: Предусмотрены повторные попытки при ошибках, надёжная очистка временных файлов и безопасная склейка итоговых фрагментов.
Прозрачная архитектура: Все настройки и голоса хранятся в отдельных файлах (config.json, voices.json), что упрощает масштабирование, обновление и переносимость между машинами.
Лёгкость расширения и кастомизации: Динамический HTML UI и гибкая система конфигов позволяют быстро добавлять новые голоса, стили и языки без изменений кода.
Технологии:
Python 3.10+
PyWebView
*** API (Text-to-Speech)
HTML, JavaScript (vanilla)
PyInstaller (дистрибуция .exe для Windows)
Возможности:
Современный минималистичный интерфейс (Windows, HTML UI через pywebview)
Поддержка 30 голосов с выбором пола
Гибкий выбор стиля произношения (tone prompt, кастомный ввод)
Генерация до 20 аудиофрагментов (каждый блок — отдельный WAV)
Поддержка русского, украинского, английского и ещё 21 языка (24 языка всего)
Мгновенный счётчик байтов (контроль лимита)
Гибкая конфигурация через файл config.json (ключ API, модель, лимиты)
Все голоса и параметры вынесены в отдельный voices.json
Безопасное хранение конфигов, легкая передача другому пользователю
Как работает:
Запускаете exe-файл — интерфейс появляется сразу, без консоли.
Вводите текст, выбираете голос, при необходимости задаёте стиль.
Генерируете аудио — каждый блок текста формирует отдельный файл.
Можно выбрать папку для сохранения результата.
Результат:
Готовые аудиофайлы в выбранной папке
Высокое качество синтеза голоса
Ключевые особенности реализации:
Умная нарезка текста: Автоматическое деление длинного текста на части по предложениям с учётом языковых нюансов и лимитов API. Исключена “порча” фраз и неестественные разрывы.
Прогрессбары и live-статистика: Реализованы отдельные прогрессбары для каждого блока и общий прогрессбар генерации. Показывается процент завершения в реальном времени, при ошибках (например, превышение лимита API) выводится их причина.
Устойчивость и защита от сбоев: Предусмотрены повторные попытки при ошибках, надёжная очистка временных файлов и безопасная склейка итоговых фрагментов.
Прозрачная архитектура: Все настройки и голоса хранятся в отдельных файлах (config.json, voices.json), что упрощает масштабирование, обновление и переносимость между машинами.
Лёгкость расширения и кастомизации: Динамический HTML UI и гибкая система конфигов позволяют быстро добавлять новые голоса, стили и языки без изменений кода.
Технологии:
Python 3.10+
PyWebView
*** API (Text-to-Speech)
HTML, JavaScript (vanilla)
PyInstaller (дистрибуция .exe для Windows)