ТехнологииВажное

Google Gemini Omni создаёт видео из изображений, аудио и текста — и это только начало

Google представил Gemini Omni — новую серию мультимодальных моделей, которые умеют генерировать короткие видеоролики, комбинируя изображения, аудио, текст и видео.

Это продолжение стратегии компании по созданию «мировой модели», способной понимать физику, культуру и науку; уже есть функции редактирования фотографий по текстовым командам и создания цифровых аватаров.

Сигнал: запуск Omni показывает, что ИИ переходит от предсказания текста к симуляции реальности, открывая возможности для потребителей, рекламодателей и кинопроизводителей.

На конференции Google I/O компания объявила Gemini Omni — первую в серии моделей, способную создавать видеоконтент из комбинации изображений, аудио, текста и видео. Модель связывает входные данные, поэтому получаются короткие, но качественные ролики, демонстрирующие понимание физики, культуры, истории и науки. Пример: запрос «claymation explainer of protein folding» мгновенно превратился в стоп‑моушен‑видео с озвучкой.

Что произошло

Первая версия — Gemini Omni Flash — доступна в приложении Gemini, в YouTube Shorts и в AI‑студии Flow. Она генерирует до 10 секунд видеоматериала; более длительные ролики появятся позже. Пользователи могут редактировать фото простыми текстовыми командами и создавать персонализированные аватары, защищённые системой SynthID и проверкой голоса.

Почему это важно

Запуск Omni показывает, что Google строит мультимодальный интеллект, способный не только отвечать на запросы, но и воспроизводить сцены. Это открывает новые бизнес‑сценарии: рекламодатели получат быстрый генератор роликов, а кинематографисты — инструменты для предварительной визуализации. Параллельно Google готовит Omni Pro для профессионального использования и планирует выпустить API для разработчиков.

Что дальше

В ближайшие недели модель будет добавлена в API, а более продвинутая версия Omni Pro выйдет, когда Google улучшит качество генерации. Ожидается, что широкое внедрение ускорит создание мультимедийного контента и усилит конкуренцию с решениями от OpenAI и стартапов вроде Luma AI.

Все материалы