k0mar0v 12 минут назад Как Vision-Language Models учатся работать с 3D-миром Простой 10 мин 363 Блог компании МТС Робототехника Обзор Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной...

В сфере искусственного интеллекта произошло заметное событие. k0mar0v 12 минут назад Как Vision-Language Models учатся работать с 3D-миром Простой 10 мин 363 Блог компании МТС Робототехника Обзор Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий.

Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве. Пропасть между зрением и действиемДля начала давайте обозначим проблематику. Представьте, что вы просите робота взять кружку с полки.

Технические детали

Для человека эта задача тривиальна — мозг автоматически вычисляет расстояние до кружки, оптимальную траекторию руки, силу захвата для удержания гладкой поверхности и учитывает, что кружка стоит за чайником, поэтому сначала нужно убрать чайник. Для современного робота, оснащенного самой передовой Vision-Language Model, эта задача остается исключительно сложной. Почему так происходит?

Потому что модели VLM, которые сегодня считаются золотым стандартом для встраиваемых систем ИИ, демонстрируют фундаментальную слабость. Они отлично отвечают на вопросы вида «какого цвета эта кружка? » или «это чашка или стакан?

», но почти не способны ответить на вопросы: «Могу ли я захватить эту кружку, не задев стоящий рядом чайник? », «Какой участок поверхности наиболее устойчив для постановки этой коробки? » или «Как изменится вид объекта, если я перейду в другую точку обзора?

Отраслевые последствия

Последние исследования систематически подтверждают этот разрыв. Сравнительный анализ современных VLM на бенчмарке PhyBlock (задачи физического планирования с трехмерными блоками) показал катастрофическое падение точности при переходе от простых сценариев к сложным — более чем вдвое. При этом на низкоуровневых вопросах о цвете или форме модели демонстрировали высокие результаты, а их точность на вопросах о пространственных зависимостях и физической устойчивости стремилась к нулю.

Авторы исследования выделили два универсальных типа ошибок: неверная оценка ориентации блоков и игнорирование зависимостей поддержки, необходимых для стабильности конструкции. Важно, что включение режима «цепочки рассуждений» в более крупных моделях практически не изменило этих ошибок — генерация большего количества текстовых токенов сама по себе не компенсирует отсутствие физических знаний. Другое масштабное исследование на бенчмарке SpinBench выявило систематические слабости, которые авторы назвали «эгоцентрическим смещением» и «плохим пониманием вращений».

Модели демонстрируют высокую точность при оценке сцен с привычной точки обзора, но начинают ошибаться, когда требуется мысленно повернуть объект или представить сцену с другой перспективы или под другим углом освещения.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Как Vision-Language Models учатся работать с 3D-миром

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News