Технологии

Cohere запускает открытую голосовую модель для транскрипции

Компания Cohere представила Transcribe — открытый автоматический распознаватель речи с 2 млрд параметров, работающий на потребительских GPU и поддерживающий 14 языков.

Сигнал: Появление модели с WER 5.42 усиливает конкуренцию в секторе ASR и расширяет возможности компаний‑пользователей развертывать собственные решения без облачных расходов.

В четверг Cohere анонсировала свой первый голосовой продукт — модель Transcribe, открытую на GitHub и в сервисе Model Vault. Модель весит 2 млрд параметров и оптимизирована под потребительские графические процессоры, поэтому пользователи могут запускать её без дорогостоящего оборудования.

Характеристики модели

Transcribe поддерживает 14 языков, среди которых английский, французский, немецкий, испанский, португальский, китайский, японский, корейский, вьетнамский и арабский. По результатам тестов Hugging Face Open ASR модель показала средний уровень ошибок слов 5.42 %, превзойдя Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3‑ASR‑1.7B. При оценке людьми её транскрипции получили 61 % голосов за точность, связность и удобство; в португальском, немецком и испанском языках она отстала от конкурентов.

Характеристики и планы

Скорость обработки составляет 525 минут аудио в минуту. Cohere планирует встроить модель в платформу оркестрации агентных решений North и открыть публичный API бесплатно. Открытый доступ упрощает интеграцию в приложения для заметок и диктовки, такие как Granola и Wispr Flow. Компания уже объявила о планах достичь годового рекуррентного дохода в $240 млн к 2025 году и рассматривает IPO в ближайшее время.

Все материалы