ТехнологииВажное

Microsoft запускает три новых фундаментальных ИИ‑модели

Microsoft AI представила три мультимодальных модели: MAI‑Transcribe‑1 (транскрипция речи), MAI‑Voice‑1 (генерация аудио) и MAI‑Image‑2 (создание видео). Они доступны в Microsoft Foundry и MAI Playground, цены начинаются от $0,36 в час за транскрипцию.

Это часть стратегии компании к собственному AI‑стеку и конкуренции с Google и OpenAI, при сохранении партнёрства с последним. Сигнал: Microsoft повышает независимость в AI‑рынке, предлагая более дешёвые сервисы и расширяя набор продуктов.

Microsoft AI, исследовательское подразделение корпорации, объявило о выпуске трёх ИИ‑моделей, которые умеют генерировать текст, голос и изображения. MAI‑Transcribe‑1 распознаёт речь более чем на 25 языках и работает в 2,5 раза быстрее, чем Azure Fast. MAI‑Voice‑1 создаёт 60‑секундный аудиофайл за одну секунду и поддерживает пользовательские голоса. MAI‑Image‑2 генерирует видеоконтент.

Детали выпуска

Все модели теперь доступны в Microsoft Foundry, а транскрипция и голосовые сервисы — также в MAI Playground. Стоимость: $0,36 за час за транскрипцию, $22 за миллион символов аудио и $5 за миллион токенов текста; генерация изображений стоит $33 за миллион токенов.

Контекст и значение

Модели создала команда MAI Superintelligence под руководством Мустафы Сулеймана. Они предлагаются как более доступные альтернативы продуктам Google и OpenAI. Несмотря на собственные разработки, Microsoft продолжит сотрудничество с OpenAI, что стало возможным после пересмотра условий партнёрства. Инвестиции в AI‑лабораторию превысили $13 млрд, что подтверждает стратегическую важность проекта для компании.

Все материалы