Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказатьВсем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

22cd1bee6ac0238391f42c9c96599fa6.webp

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.

Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.

И всё это с нативной поддержкой русского языка.

Как это работает

e38bc84d0983781fb6f71b16e82f09ba.webp

В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.

Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.

Работает очень быстро даже на старшей модели 1.7B.

Поддерживаемые языки

Qwen3-TTS работает с 10 языками:

  • Китайский (включая пекинский и сычуаньский диалекты)

  • Английский

  • Японский

  • Корейский

  • Немецкий

  • Французский

  • Русский

  • Португальский

  • Испанский

  • Итальянский

Возможности

Синтез с готовыми голосами (CustomVoice)

9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.

Создание голоса по описанию (VoiceDesign)

Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.

Клонирование голоса (Voice Clone)

Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.

Multi-Speaker режим

Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).

Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

Как попробовать

Онлайн-демо

Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.

Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS

Официальный GitHub

Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.

GitHub: https://github.com/QwenLM/Qwen3-TTS

API

e77bd11df4efa55896c2b58e428eb0ee.webp

Официальное API от Alibaba для production-интеграции.

Ссылка: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime

Портативная версия

Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:

  • Русифицированный интерфейс

  • Установка в один клик (install.bat)

  • 50+ готовых голосов в комплекте

  • 700+ дополнительных голосов для скачивания из интерфейса

  • Multi-Speaker режим до 4 спикеров

  • Поддержка NVIDIA GPU и CPU

Скачать: https://github.com/timoncool/Qwen3-TTS_portable_rus

Системные требования

  • NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)

  • Windows 10/11 64-bit

  • 16 ГБ оперативной памяти

  • 20 ГБ свободного места на диске

Текущие ограничения

  • Ударения иногда расставляются неправильно

  • С длинными текстами могут быть проблемы

  • Инструкции для VoiceDesign лучше писать на английском

Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).


Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до офера

Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до офера

Пятничный вечер, бар, шумные разговоры. Мы - компания из нескольких ML-инженеров, DE и DA из Сбера, Магнита, Озона и Альфа-Банка собрались не ради обсуждения за
Поделиться
ProBlockChain2026/01/25 13:22
ETHZilla (ETHZ) Stock: компания с казначейством в Ethereum покупает реактивные двигатели после крупной продажи ETH

ETHZilla (ETHZ) Stock: компания с казначейством в Ethereum покупает реактивные двигатели после крупной продажи ETH

Коротко ETHZilla приобрела два реактивных двигателя CFM56-7B24 за 12,2 млн $ через свою новую дочернюю компанию ETHZilla Aerospace LLC Ранее компания продала на 114,5 млн $
Поделиться
Coincentral2026/01/25 17:42
Приложение Wattly на базе VeChain вознаграждает пользователей за сокращение экранного времени

Приложение Wattly на базе VeChain вознаграждает пользователей за сокращение экранного времени

Новое приложение Wattly на базе VeChain вознаграждает пользователей токенами за сокращение использования устройств. Американцы смотрят на свои телефоны 200 раз в день; 46% признают, что они
Поделиться
Crypto News Flash2026/01/25 17:03