На конференции Google I/O компания объявила Gemini Omni — первую в серии моделей, способную создавать видеоконтент из комбинации изображений, аудио, текста и видео. Модель связывает входные данные, поэтому получаются короткие, но качественные ролики, демонстрирующие понимание физики, культуры, истории и науки. Пример: запрос «claymation explainer of protein folding» мгновенно превратился в стоп‑моушен‑видео с озвучкой.
Что произошло
Первая версия — Gemini Omni Flash — доступна в приложении Gemini, в YouTube Shorts и в AI‑студии Flow. Она генерирует до 10 секунд видеоматериала; более длительные ролики появятся позже. Пользователи могут редактировать фото простыми текстовыми командами и создавать персонализированные аватары, защищённые системой SynthID и проверкой голоса.
Почему это важно
Запуск Omni показывает, что Google строит мультимодальный интеллект, способный не только отвечать на запросы, но и воспроизводить сцены. Это открывает новые бизнес‑сценарии: рекламодатели получат быстрый генератор роликов, а кинематографисты — инструменты для предварительной визуализации. Параллельно Google готовит Omni Pro для профессионального использования и планирует выпустить API для разработчиков.
Что дальше
В ближайшие недели модель будет добавлена в API, а более продвинутая версия Omni Pro выйдет, когда Google улучшит качество генерации. Ожидается, что широкое внедрение ускорит создание мультимедийного контента и усилит конкуренцию с решениями от OpenAI и стартапов вроде Luma AI.