Иллюзия IaC: почему Terraform не знает, что происходит с вашей инфраструктурой
RaisonCollab 11 минут назад Иллюзия IaC: почему Terraform не знает, что происходит с вашей инфраструктурой Средний 12 мин 231 DevOps * Системное администрирование * Облачные сервисы * Кейс TL;DR. IaC решает проблему...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: RaisonCollab 11 минут назад Иллюзия IaC: почему Terraform не знает, что происходит с вашей инфраструктурой Средний 12 мин 231 DevOps * Системное администрирование * Облачные сервисы * Кейс TL;DR. IaC решает проблему первичного развёртывания, но не проблему непрерывной консистентности. Конфигурационный дрейф — структурная характеристика любой живой инфраструктуры, а не следствие «плохой дисциплины».
Ни один инструмент детектирования не предотвращает его на архитектурном уровне. В статье РАССУЖДАЮ, почему это так и что с этим реально делать. Цель данной статьи исследовать дыру с дрейфом и поделиться результатами своих поисков и выводами.
Технические детали
Я не претендую на звание IaC гуру, а описываю свой путь от проблемы до конечного решения или выводов. Рекомендую начать с выводов, чтобы определить, что стоит вашего внимания. Если у вас уже все случилось и ищете решение, то перед разделом "Выводы" есть небольшой чек-лист.
Откуда взялась эта проблема? Нас двое: я веду инфраструктуру как основной, коллега подхватывает дежурство когда меня нет. Всё началось в обычный вторник около двух часов ночи.
Упал прод: один из сервисов перестал стучаться до Redis. Коллега залез в YC Console, нашёл группу безопасности и добавил недостающее inbound-правило. Написал мне в Telegram «починил, всё ок».
Отраслевые последствия
Коллега работает по методичке, написанной мною в Obsidian, а если возникают вопросы, но нет возможности задать их мне, то он идет общаться с чатом. Я уже думаю написать ему шаблон для системного промпта, чтобы хотя бы как-то нивелировать эту часть работы. Следующий terraform apply случился через три дня — в рамках планового деплоя, который делал уже я.
Terraform увидел расхождение между state-файлом и реальным состоянием ресурса и удалил вручную добавленное правило. Сервис снова упал — в рабочее время, с клиентами онлайн. Первая реакция очевидна: «я что-то сломал в Terraform».
Вторая - после разбора с коллегой: а разве Terraform должен был это поймать? В репозитории была «правильная» конфигурация. Он просто применил то, что там написано.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




