
Смогут ли LLM выжить во время катастрофы? Gemini, ChatGPT и другие играют в «Бункер» (анализ поведения)
daniilgorbenko 15 минут назад Смогут ли LLM выжить во время катастрофы? Gemini, ChatGPT и другие играют в «Бункер» (анализ поведения) Простой 24 мин 485 Блог компании RUVDS.com Искусственный интеллект Научно-популярное...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
Значимый прорыв формирует отрасль ИИ: daniilgorbenko 15 минут назад Смогут ли LLM выжить во время катастрофы? Gemini, ChatGPT и другие играют в «Бункер» (анализ поведения) Простой 24 мин 485 Блог компании RUVDS. com Искусственный интеллект Научно-популярное Будущее здесь Кейс Тестирование современных LLM-моделей проводится с помощью стандартных бенчмарков, которые оценивают математические способности, программирование, понимание текста или умение строить логические выводы.
Однако эти тесты слабо отражают умение моделей вести переговоры, адаптироваться к ситуации и выстраивать социальные взаимодействия. Давайте выйдем за рамки сухих метрик и поместим нейросети в условия, где логика уступает место психологии. В этой статье мы посмотрим, как будут вести себя языковые модели, оказавших в сложной сиутации, где нужно уметь договариваться, обсуждать и продумывать свои действия наперед.
Технические детали
Напомним правила: по сюжету группа людей пытается спастись от катастрофы в защищённом убежище, однако вместимость бункера ограничена. У каждого игрока есть свой набор характеристик (здоровье, профессия, возраст и т. Задача игроков — путём голосования определить, кто окажется наиболее полезным для выживания и продолжения рода, а кого придётся оставить снаружи.
Использование игры «Бункер» в качестве основы для межличностного взаимодействия моделей позволяет выявить и проанализировать ряд когнитивных навыков и поведенческих паттернов моделей, а также ответить на ряд вопросов:Будут ли модели прогнозировать действия других игроков наперёд? Как модели оценивают риски в условиях неполной информации (скрытых карт других участников)? Будут ли модели, подобно человеку, переоценивать людей с прикладными профессиями и игнорировать важность и ценность людей с творческими профессиями, но важными картами на руках?
Будут ли модели отдавать гендерное предпочтение мужчинам или женщинам на голосовании? Насколько сильно влияет контекст промпта на процесс принятия решений моделью: изменится ли поведение модели, если ей сначала сказать, что она играет в «Бункер», а затем попробовать внушить, что она находится в теле робота-гуманоида и перед ней стоит сложный выбор. Способны ли модели подвергаться мнению толпы (других таких же моделей)?
Отраслевые последствия
Правила и условия симуляцииВ каждой игре участвуют 8 различных LLM-моделей: Gemini 3 Flash, Gemini 3. 5 Flash, ChatGPT 5 mini, Grok 4. 3, DeepSeek 4 Pro, Qwen 3.
6 Plus, Mistral Medium 3. На руках у каждого участника находится стандартный для «Бункера» набор из 8 характеристик (карт):Профессия. Каждому игроку присваивается имя и скрытое описание его личности (описание того, какой игрок в реальной жизни вне игры).
Этот параметр очень важен, так как исходя из этого параметра модель будет выстраивать стратегию в игре, например, один игрок может целенаправленно избавляться от персонажей с бесполезными профессиями, а другой — голосовать против игроков с плохим здоровьем.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





