Skip to content

LeDXIII/Qwen-TTS-GUI-for-Windows

Repository files navigation

🇷🇺 Русский | 🇬🇧 English


Qwen3-TTS GUI (локальный запуск)

Qwen3-TTS GUI — это локальное приложение с графическим интерфейсом (Gradio), позволяющее взаимодействовать с различными режимами модели Qwen3-TTS без необходимости запускать официальный веб-демон на Hugging Face или использовать API. Программа поддерживает все три основных режима: Custom Voice (пользовательские голоса), Voice Design (создание голоса по описанию) и Voice Clone (клонирование голоса по образцу). Она также включает функции сохранения сгенерированных аудио в форматах WAV и MP3 и позволяет настраивать параметры генерации.

Особенности

  • Три режима работы: Полностью реализованы вкладки для CustomVoice, VoiceDesign и VoiceClone, соответствующие возможностям модели.
  • Локальная работа: Модель загружается и работает на вашем компьютере, обеспечивая конфиденциальность и контроль.
  • Управление моделями: Автоматическая загрузка различных моделей Qwen3-TTS (например, 1.7B-CustomVoice, 1.7B-VoiceDesign, 1.7B-Base) по необходимости.
  • Оптимизация: Возможность выбора механизмов внимания (SDPA, BetterTransformer) для повышения производительности на GPU.
  • Работа без flash attention 2: Если у вас не устанавливается или нет возможности работать с flash attention 2 - эта настройка игнорируется и программа продолжает работу.
  • Сохранение аудио: Сгенерированные файлы автоматически сохраняются в папку output в форматах .wav и .mp3.
  • Загрузка файлов: Возможность скачивания сгенерированных аудио в форматах WAV и MP3 непосредственно из интерфейса.
  • Примеры: Быстрые примеры ввода текста и инструкций для удобства тестирования.
  • Параметры генерации: Раскрывающаяся секция с параметрами (max_new_tokens, temperature, top_k, top_p и др.) для тонкой настройки синтеза.

Интерфейс

image

Требования к системе

  • Операционная система: Windows 10 или 11 (скрипты установки и запуска оптимизированы для Windows).

  • Процессор: Современный многоядерный процессор (рекомендуется Intel i5/Ryzen 5 или выше).

  • Оперативная память (RAM): Минимум 16 ГБ. Рекомендуется 32 ГБ и более для комфортной работы и обработки больших аудиофайлов.

  • Видеокарта (GPU): Рекомендуется NVIDIA GPU с поддержкой CUDA (архитектура Pascal/GTX 10xx или новее) для ускорения. Работа в CPU-режиме возможна, но будет значительно медленнее.

  • Видеопамять (VRAM): Зависит от режима работы. Примерные требования:

    Режим Требование к VRAM
    Custom Voice ~5-6 ГБ
    Voice Design ~9-10 ГБ
    Voice Clone ~5-7 ГБ

Установка и запуск

Существует два способа установки и запуска приложения:

Вариант 1: Загрузка из релизов (рекомендуется для обычных пользователей)

  1. Скачайте архив: Перейдите на страницу Releases и скачайте последнюю версию архива (например, qwen3_tts_gui_1.0.zip).
  2. Распакуйте: Извлеките содержимое архива в удобную для вас папку на вашем компьютере (например, D:\Qwen-TTS).
  3. Установите необходимые компоненты: Запустите скрипт setup_qwen3_tts.py. Это создаст виртуальное окружение и установит все необходимые зависимости.
  4. Запустите приложение: После успешной установки дважды щёлкните по файлу run_qwen3_tts_gui.bat. Это активирует виртуальное окружение и запустит GUI.

Вариант 2: Ручная установка (для продвинутых пользователей)

  1. Клонируйте репозиторий:
    git clone https://github.com/LeDXIII/Qwen-TTS-GUI-for-Windows
    cd Qwen-TTS-GUI-for-Windows
  2. Подготовьте зависимости:
    • Python 3.12: Установите Python 3.12 глобально или используйте портативную версию. Если используете портативную версию, разместите её содержимое (файл python.exe и папки Scripts, Lib и т.д.) в папку python312 внутри корня репозитория. Путь должен быть D:\your-path\Qwen-TTS-GUI-for-Windows\python312\python.exe.
    • SoX: Скачайте SoX. Извлеките все файлы в папку sox-14.4.2 внутри корня репозитория. Путь должен быть E:\your-path\Qwen-TTS-GUI-for-Windows\sox-14.4.2\sox.exe.
    • FFmpeg: Скачайте FFmpeg. Извлеките все файлы в папку ffmpeg внутри корня репозитория. Путь должен быть E:\your-path\Qwen-TTS-GUI-for-Windows\ffmpeg\bin\ffmpeg.exe.
  3. Установите зависимости: Запустите скрипт setup_qwen3_tts.py из корня репозитория:
    python setup_qwen3_tts.py
  4. Запустите приложение: Запустите run_qwen3_tts_gui.bat.

Использование

  1. Запустите приложение с помощью run_qwen3_tts_gui.bat.
  2. Откроется веб-браузер с интерфейсом Gradio на http://127.0.0.1:7860.
  3. Выберите вкладку, соответствующую желаемому режиму (Custom Voice, Voice Design, Voice Clone).
  4. Выберите или укажите модель, которую хотите использовать.
  5. Введите текст, настройте параметры (язык, спикер, инструкция, параметры генерации).
  6. Нажмите кнопку "Generate".
  7. Если вы запускаете модель в первый раз - дождитесь пока программа скачает файлы в папку models.
  8. Готовое аудио появится в окне воспроизведения и будет сохранено в папку output. Файлы можно скачать через кнопки "Download WAV" и "Download MP3".

Qwen3-TTS GUI (Local Execution)

Qwen3-TTS GUI is a local application with a graphical interface (Gradio) that allows you to interact with various modes of the Qwen3-TTS model without needing to run the official web demo on Hugging Face or use an API. The program supports all three main modes: Custom Voice, Voice Design, and Voice Clone. It also includes features for saving generated audio in WAV and MP3 formats and allows for fine-tuning of generation parameters.

Features

  • Three Operation Modes: Fully implemented tabs for CustomVoice, VoiceDesign, and VoiceClone, matching the model's capabilities.
  • Local Execution: The model downloads and runs on your computer, ensuring privacy and control.
  • Model Management: Automatic downloading of various Qwen3-TTS models (e.g., 1.7B-CustomVoice, 1.7B-VoiceDesign, 1.7B-Base) as needed.
  • Optimization: Option to select attention mechanisms (SDPA, BetterTransformer) to improve GPU performance.
  • Works without Flash Attention 2: If you cannot install or do not have the capability to run Flash Attention 2, this setting is ignored, and the program continues to work.
  • Audio Saving: Generated files are automatically saved to the output folder in .wav and .mp3 formats.
  • File Download: Ability to download generated audio in WAV and MP3 formats directly from the interface.
  • Examples: Quick text input examples and instructions for convenient testing.
  • Generation Parameters: Collapsible section with parameters (max_new_tokens, temperature, top_k, top_p, etc.) for fine-tuning synthesis.

Interface

image

System Requirements

  • Operating System: Windows 10 or 11 (installation and launch scripts are optimized for Windows).

  • Processor: Modern multi-core processor (Intel i5/Ryzen 5 or higher recommended).

  • RAM: Minimum 16 GB. 32 GB or more is recommended for comfortable operation and processing large audio files.

  • Graphics Card (GPU): NVIDIA GPU with CUDA support (Pascal architecture/GTX 10xx or newer) is recommended for acceleration. CPU mode is possible but will be significantly slower.

  • Video Memory (VRAM): Depends on the operating mode. Approximate requirements:

    Mode VRAM Requirement
    Custom Voice ~5-6 GB
    Voice Design ~9-10 GB
    Voice Clone ~5-7 GB

Installation and Launch

There are two ways to install and run the application:

Option 1: Download from Releases (Recommended for regular users)

  1. Download the archive: Go to the Releases page and download the latest version of the archive (e.g., qwen3_tts_gui_1.0.zip).
  2. Unzip: Extract the contents of the archive to a convenient folder on your computer (e.g., D:\Qwen-TTS).
  3. Install necessary components: Run the setup_qwen3_tts.py script. This will create a virtual environment and install all necessary dependencies.
  4. Run the application: After successful installation, double-click on the run_qwen3_tts_gui.bat file. This activates the virtual environment and launches the GUI.

Option 2: Manual Installation (For advanced users)

  1. Clone the repository:
    git clone https://github.com/LeDXIII/Qwen-TTS-GUI-for-Windows
    cd Qwen-TTS-GUI-for-Windows
  2. Prepare dependencies:
    • Python 3.12: Install Python 3.12 globally or use a portable version. If using a portable version, place its contents (python.exe file, Scripts, Lib folders, etc.) into the python312 folder inside the root of the repository. The path should be D:\your-path\Qwen-TTS-GUI-for-Windows\python312\python.exe.
    • SoX: Download SoX. Extract all files into the sox-14.4.2 folder inside the root of the repository. The path should be E:\your-path\Qwen-TTS-GUI-for-Windows\sox-14.4.2\sox.exe.
    • FFmpeg: Download FFmpeg. Extract all files into the ffmpeg folder inside the root of the repository. The path should be E:\your-path\Qwen-TTS-GUI-for-Windows\ffmpeg\bin\ffmpeg.exe.
  3. Install dependencies: Run the setup_qwen3_tts.py script from the root of the repository:
    python setup_qwen3_tts.py
  4. Run the application: Run run_qwen3_tts_gui.bat.

Usage

  1. Run the application using run_qwen3_tts_gui.bat.
  2. A web browser will open with the Gradio interface at http://127.0.0.1:7860.
  3. Select the tab corresponding to the desired mode (Custom Voice, Voice Design, Voice Clone).
  4. Select or specify the model you wish to use.
  5. Enter text and configure parameters (language, speaker, instruction, generation parameters).
  6. Click the "Generate" button.
  7. If you are running the model for the first time, wait for the program to download files to the models folder.
  8. The finished audio will appear in the playback window and will be saved to the output folder. Files can be downloaded via the "Download WAV" and "Download MP3" buttons.

About

Qwen3-TTS GUI is a local graphical interface application (Gradio) that allows interaction with various modes of the Qwen3-TTS model, running on Windows.

Topics

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors