Технологии

Mistral выпустила открытую модель для генерации речи

Французская компания Mistral AI представила Voxtral TTS — открытую модель text-to-speech, поддерживающую девять языков. Модель адаптирует голос по образцу менее пяти секунд и достигает время до первого звука 90 мс, при реальном факторе 6×.

Сигнал: открытый доступ и низкая цена делают Voxtral конкурентом для ElevenLabs, Deepgram и OpenAI, ускоряя внедрение голосовых AI в бизнес‑приложениях.

Mistral AI анонсировала Voxtral TTS — небольшую модель синтеза речи, которую можно запускать на смарт‑часах, смартфонах и ноутбуках. Вице‑президент по научным операциям Pierre Stock сообщил, что модель стоит гораздо дешевле аналогов и даёт качество, сопоставимое с лучшими решениями рынка. Она работает с английским, французским, немецким, испанским, голландским, португальским, итальянским, хинди и арабским языками.

Технические характеристики

Voxtral построена на базе Mistral 3B и адаптирует голос по образцу менее 5 секунд, сохраняя акценты, интонацию и другие нюансы. Модель переключается между языками без потери индивидуальных особенностей, что удобно для дубляжа и перевода в реальном времени. При тестах Voxtral достигла TTFA 90 мс для 10‑секундного текста и реального фактора – 10‑секундный отрывок генерируется за ~1,6 секунды.

Стратегия компании

Mistral ранее выпустила две модели транскрипции и сейчас разрабатывает голосовую платформу, обрабатывающую аудио, текст и изображения. Открытый код и возможность тонкой настройки делают её привлекательной для предприятий, желающих интегрировать голосовых агентов без зависимости от крупных провайдеров.

Все материалы