Microsoft AI, исследовательское подразделение корпорации, объявило о выпуске трёх ИИ‑моделей, которые умеют генерировать текст, голос и изображения. MAI‑Transcribe‑1 распознаёт речь более чем на 25 языках и работает в 2,5 раза быстрее, чем Azure Fast. MAI‑Voice‑1 создаёт 60‑секундный аудиофайл за одну секунду и поддерживает пользовательские голоса. MAI‑Image‑2 генерирует видеоконтент.
Детали выпуска
Все модели теперь доступны в Microsoft Foundry, а транскрипция и голосовые сервисы — также в MAI Playground. Стоимость: $0,36 за час за транскрипцию, $22 за миллион символов аудио и $5 за миллион токенов текста; генерация изображений стоит $33 за миллион токенов.
Контекст и значение
Модели создала команда MAI Superintelligence под руководством Мустафы Сулеймана. Они предлагаются как более доступные альтернативы продуктам Google и OpenAI. Несмотря на собственные разработки, Microsoft продолжит сотрудничество с OpenAI, что стало возможным после пересмотра условий партнёрства. Инвестиции в AI‑лабораторию превысили $13 млрд, что подтверждает стратегическую важность проекта для компании.