
Как устроены world models, что показал Google на прошлой неделе и где это меняет gamedev и робототехнику
ShyDamn 1 час назад Как устроены world models, что показал Google на прошлой неделе и где это меняет gamedev и робототехнику Простой 15 мин 3K Искусственный интеллект Машинное обучение * Разработка игр * Робототехника...
Вот важная новость с фронта ИИ: ShyDamn 1 час назад Как устроены world models, что показал Google на прошлой неделе и где это меняет gamedev и робототехнику Простой 15 мин 3K Искусственный интеллект Машинное обучение * Разработка игр * Робототехника 3D-графика * Обзор 19 мая 2026 года на Google I/O разработчики DeepMind показали то, что неделей раньше казалось демкой для технотвиттера. Project Genie теперь умеет привязывать сгенерированный 3D-мир к реальным координатам Google Street View. Робот, который пока ездит только по виртуальному Сан-Франциско, сможет получить тренировочную сессию в Лондоне или Токио, не покидая дата-центр.
И всё это — за деньги $200 в месяц на тарифе Google AI Ultra. Эта статья — про то, как устроена технология под капотом, чем она принципиально отличается от Sora и Veo, что уже работает в проде (Waymo), кто играет на этом поле кроме Google, и что произойдёт с разработкой игр и робототехникой, если эту штуку завтра состыкуют с открытыми MCP-серверами для Unity и Blender. Project Genie + Street View: робот тренируется на снежной версии нью-йоркского квартала, который снимали летомЧем мировая модель отличается от видеогенерацииСамая частая путаница в новостях: «Sora — это мировая модель».
Технические детали
Sora и Veo генерируют видео. На вход — текст или картинка. На выход — фиксированный набор кадров.
Вы не можете повернуть камеру, нажать кнопку «вперёд», открыть дверь. Видео — это результат, а не среда. Genie 3 генерирует играбельную среду.
На вход — текст или картинка. На выход — мир, в который вы заходите через клавиатуру (стрелки, WASD), идёте, поворачиваете голову, и модель в реальном времени дорисовывает то, что должно появиться в поле зрения. Никакого предзаписанного видео нет.
Отраслевые последствия
Каждый кадр — это новый кадр, сгенерированный в момент, когда вы на него смотрите. CNIL (французский регулятор) в марте 2026 формализовал это разделение в статье «From language models to world models». Мировая модель — это ИИ-система, которая моделирует динамику окружения: предсказывает, как среда эволюционирует, и как действия игрока на неё влияют.
У видео-моделей этого нет в принципе — они генерируют «фиксированную траекторию», без интерактивности и без альтернативных сценариев. Различие в одном слове — действие. Видео-модель не принимает действие на вход.
Мировая модель принимает действие на каждом кадре и предсказывает следующий кадр с учётом этого действия. Слева — Sora/Veo: фиксированное видео. Справа — Genie 3: интерактивная среда, реагирующая на вводИстория: путь от Genie 1 до Genie 3Хронология короткая, но плотная — три прыжка за два года.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





