Qwen3-TTS GUI — это локальное приложение с графическим интерфейсом (Gradio), позволяющее взаимодействовать с различными режимами модели Qwen3-TTS без необходимости запускать официальный веб-демон на Hugging Face или использовать API. Программа поддерживает все три основных режима: Custom Voice (пользовательские голоса), Voice Design (создание голоса по описанию) и Voice Clone (клонирование голоса по образцу). Она также включает функции сохранения сгенерированных аудио в форматах WAV и MP3 и позволяет настраивать параметры генерации.
- Три режима работы: Полностью реализованы вкладки для
CustomVoice,VoiceDesignиVoiceClone, соответствующие возможностям модели. - Локальная работа: Модель загружается и работает на вашем компьютере, обеспечивая конфиденциальность и контроль.
- Управление моделями: Автоматическая загрузка различных моделей Qwen3-TTS (например,
1.7B-CustomVoice,1.7B-VoiceDesign,1.7B-Base) по необходимости. - Оптимизация: Возможность выбора механизмов внимания (
SDPA,BetterTransformer) для повышения производительности на GPU. - Работа без flash attention 2: Если у вас не устанавливается или нет возможности работать с flash attention 2 - эта настройка игнорируется и программа продолжает работу.
- Сохранение аудио: Сгенерированные файлы автоматически сохраняются в папку
outputв форматах.wavи.mp3. - Загрузка файлов: Возможность скачивания сгенерированных аудио в форматах WAV и MP3 непосредственно из интерфейса.
- Примеры: Быстрые примеры ввода текста и инструкций для удобства тестирования.
- Параметры генерации: Раскрывающаяся секция с параметрами (
max_new_tokens,temperature,top_k,top_pи др.) для тонкой настройки синтеза.
-
Операционная система: Windows 10 или 11 (скрипты установки и запуска оптимизированы для Windows).
-
Процессор: Современный многоядерный процессор (рекомендуется Intel i5/Ryzen 5 или выше).
-
Оперативная память (RAM): Минимум 16 ГБ. Рекомендуется 32 ГБ и более для комфортной работы и обработки больших аудиофайлов.
-
Видеокарта (GPU): Рекомендуется NVIDIA GPU с поддержкой CUDA (архитектура Pascal/GTX 10xx или новее) для ускорения. Работа в CPU-режиме возможна, но будет значительно медленнее.
-
Видеопамять (VRAM): Зависит от режима работы. Примерные требования:
Режим Требование к VRAM Custom Voice ~5-6 ГБ Voice Design ~9-10 ГБ Voice Clone ~5-7 ГБ
Существует два способа установки и запуска приложения:
- Скачайте архив: Перейдите на страницу Releases и скачайте последнюю версию архива (например,
qwen3_tts_gui_1.0.zip). - Распакуйте: Извлеките содержимое архива в удобную для вас папку на вашем компьютере (например,
D:\Qwen-TTS). - Установите необходимые компоненты: Запустите скрипт
setup_qwen3_tts.py. Это создаст виртуальное окружение и установит все необходимые зависимости. - Запустите приложение: После успешной установки дважды щёлкните по файлу
run_qwen3_tts_gui.bat. Это активирует виртуальное окружение и запустит GUI.
- Клонируйте репозиторий:
git clone https://github.com/LeDXIII/Qwen-TTS-GUI-for-Windows cd Qwen-TTS-GUI-for-Windows - Подготовьте зависимости:
- Python 3.12: Установите Python 3.12 глобально или используйте портативную версию. Если используете портативную версию, разместите её содержимое (файл
python.exeи папкиScripts,Libи т.д.) в папкуpython312внутри корня репозитория. Путь должен бытьD:\your-path\Qwen-TTS-GUI-for-Windows\python312\python.exe. - SoX: Скачайте SoX. Извлеките все файлы в папку
sox-14.4.2внутри корня репозитория. Путь должен бытьE:\your-path\Qwen-TTS-GUI-for-Windows\sox-14.4.2\sox.exe. - FFmpeg: Скачайте FFmpeg. Извлеките все файлы в папку
ffmpegвнутри корня репозитория. Путь должен бытьE:\your-path\Qwen-TTS-GUI-for-Windows\ffmpeg\bin\ffmpeg.exe.
- Python 3.12: Установите Python 3.12 глобально или используйте портативную версию. Если используете портативную версию, разместите её содержимое (файл
- Установите зависимости: Запустите скрипт
setup_qwen3_tts.pyиз корня репозитория:python setup_qwen3_tts.py
- Запустите приложение: Запустите
run_qwen3_tts_gui.bat.
- Запустите приложение с помощью
run_qwen3_tts_gui.bat. - Откроется веб-браузер с интерфейсом Gradio на
http://127.0.0.1:7860. - Выберите вкладку, соответствующую желаемому режиму (
Custom Voice,Voice Design,Voice Clone). - Выберите или укажите модель, которую хотите использовать.
- Введите текст, настройте параметры (язык, спикер, инструкция, параметры генерации).
- Нажмите кнопку "Generate".
- Если вы запускаете модель в первый раз - дождитесь пока программа скачает файлы в папку
models. - Готовое аудио появится в окне воспроизведения и будет сохранено в папку
output. Файлы можно скачать через кнопки "Download WAV" и "Download MP3".
Qwen3-TTS GUI is a local application with a graphical interface (Gradio) that allows you to interact with various modes of the Qwen3-TTS model without needing to run the official web demo on Hugging Face or use an API. The program supports all three main modes: Custom Voice, Voice Design, and Voice Clone. It also includes features for saving generated audio in WAV and MP3 formats and allows for fine-tuning of generation parameters.
- Three Operation Modes: Fully implemented tabs for
CustomVoice,VoiceDesign, andVoiceClone, matching the model's capabilities. - Local Execution: The model downloads and runs on your computer, ensuring privacy and control.
- Model Management: Automatic downloading of various Qwen3-TTS models (e.g.,
1.7B-CustomVoice,1.7B-VoiceDesign,1.7B-Base) as needed. - Optimization: Option to select attention mechanisms (
SDPA,BetterTransformer) to improve GPU performance. - Works without Flash Attention 2: If you cannot install or do not have the capability to run Flash Attention 2, this setting is ignored, and the program continues to work.
- Audio Saving: Generated files are automatically saved to the
outputfolder in.wavand.mp3formats. - File Download: Ability to download generated audio in WAV and MP3 formats directly from the interface.
- Examples: Quick text input examples and instructions for convenient testing.
- Generation Parameters: Collapsible section with parameters (
max_new_tokens,temperature,top_k,top_p, etc.) for fine-tuning synthesis.
-
Operating System: Windows 10 or 11 (installation and launch scripts are optimized for Windows).
-
Processor: Modern multi-core processor (Intel i5/Ryzen 5 or higher recommended).
-
RAM: Minimum 16 GB. 32 GB or more is recommended for comfortable operation and processing large audio files.
-
Graphics Card (GPU): NVIDIA GPU with CUDA support (Pascal architecture/GTX 10xx or newer) is recommended for acceleration. CPU mode is possible but will be significantly slower.
-
Video Memory (VRAM): Depends on the operating mode. Approximate requirements:
Mode VRAM Requirement Custom Voice ~5-6 GB Voice Design ~9-10 GB Voice Clone ~5-7 GB
There are two ways to install and run the application:
- Download the archive: Go to the Releases page and download the latest version of the archive (e.g.,
qwen3_tts_gui_1.0.zip). - Unzip: Extract the contents of the archive to a convenient folder on your computer (e.g.,
D:\Qwen-TTS). - Install necessary components: Run the
setup_qwen3_tts.pyscript. This will create a virtual environment and install all necessary dependencies. - Run the application: After successful installation, double-click on the
run_qwen3_tts_gui.batfile. This activates the virtual environment and launches the GUI.
- Clone the repository:
git clone https://github.com/LeDXIII/Qwen-TTS-GUI-for-Windows cd Qwen-TTS-GUI-for-Windows - Prepare dependencies:
- Python 3.12: Install Python 3.12 globally or use a portable version. If using a portable version, place its contents (
python.exefile,Scripts,Libfolders, etc.) into thepython312folder inside the root of the repository. The path should beD:\your-path\Qwen-TTS-GUI-for-Windows\python312\python.exe. - SoX: Download SoX. Extract all files into the
sox-14.4.2folder inside the root of the repository. The path should beE:\your-path\Qwen-TTS-GUI-for-Windows\sox-14.4.2\sox.exe. - FFmpeg: Download FFmpeg. Extract all files into the
ffmpegfolder inside the root of the repository. The path should beE:\your-path\Qwen-TTS-GUI-for-Windows\ffmpeg\bin\ffmpeg.exe.
- Python 3.12: Install Python 3.12 globally or use a portable version. If using a portable version, place its contents (
- Install dependencies: Run the
setup_qwen3_tts.pyscript from the root of the repository:python setup_qwen3_tts.py
- Run the application: Run
run_qwen3_tts_gui.bat.
- Run the application using
run_qwen3_tts_gui.bat. - A web browser will open with the Gradio interface at
http://127.0.0.1:7860. - Select the tab corresponding to the desired mode (
Custom Voice,Voice Design,Voice Clone). - Select or specify the model you wish to use.
- Enter text and configure parameters (language, speaker, instruction, generation parameters).
- Click the "Generate" button.
- If you are running the model for the first time, wait for the program to download files to the
modelsfolder. - The finished audio will appear in the playback window and will be saved to the
outputfolder. Files can be downloaded via the "Download WAV" and "Download MP3" buttons.