В четверг Cohere анонсировала свой первый голосовой продукт — модель Transcribe, открытую на GitHub и в сервисе Model Vault. Модель весит 2 млрд параметров и оптимизирована под потребительские графические процессоры, поэтому пользователи могут запускать её без дорогостоящего оборудования.
Характеристики модели
Transcribe поддерживает 14 языков, среди которых английский, французский, немецкий, испанский, португальский, китайский, японский, корейский, вьетнамский и арабский. По результатам тестов Hugging Face Open ASR модель показала средний уровень ошибок слов 5.42 %, превзойдя Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3‑ASR‑1.7B. При оценке людьми её транскрипции получили 61 % голосов за точность, связность и удобство; в португальском, немецком и испанском языках она отстала от конкурентов.
Характеристики и планы
Скорость обработки составляет 525 минут аудио в минуту. Cohere планирует встроить модель в платформу оркестрации агентных решений North и открыть публичный API бесплатно. Открытый доступ упрощает интеграцию в приложения для заметок и диктовки, такие как Granola и Wispr Flow. Компания уже объявила о планах достичь годового рекуррентного дохода в $240 млн к 2025 году и рассматривает IPO в ближайшее время.