
Пять самых крупных ошибок, которые допускают компании при внедрении SRE
kmoseenk 10 минут назад Пять самых крупных ошибок, которые допускают компании при внедрении SRE Средний 11 мин 267 Блог компании OTUS Системное администрирование * DevOps * Управление разработкой * Аналитика Подход SRE...
Вот важная новость с фронта ИИ: kmoseenk 10 минут назад Пять самых крупных ошибок, которые допускают компании при внедрении SRE Средний 11 мин 267 Блог компании OTUS Системное администрирование * DevOps * Управление разработкой * Аналитика Подход SRE обещал более эффективный путь. Возникнув внутри Google и став популярным благодаря поколению платформенных инженеров, SRE предложил компаниям дисциплинированный, ориентированный прежде всего на инженерную практику подход к переходу от хаотичного «тушения пожаров» к предсказуемой и устойчивой эксплуатации систем. Однако спустя годы после массового распространения SRE многие организации обнаружили, что тратят на инструменты SRE больше денег, чем когда-либо, а дежурные инженеры по-прежнему тонут в инцидентах в два часа ночи.
Картина повторяется снова и снова. Названия должностей меняются. Количество дашбордов растёт.
Технические детали
Закупаются платформы AIOps с поддержкой ИИ. Бюджеты ошибок определяются в таблице и тут же забываются. А через полгода отчёты о разборе инцидентов выглядят точно так же, как два года назад.
После анализа десятков инженерных организаций снова и снова всплывают одни и те же пять ошибок. Причём со временем они начинают усиливать друг друга так, что распутать последствия становится крайне сложно. Cпойлер: какие это ошибкиКультурный провал — отношение к SRE как к переименованию команды, а не как к культурной трансформацииОшибки кадровой стратегии — найм по регалиям вместо инженерного мышления и игнорирование способности устранять рутинуОшибки измерения — определить SLO в таблице и затем забыть о нихAI/AIOps — поспешное внедрение ИИ-функций для обеспечения надёжности до создания полноценного ObservabilityСтратегические ошибки — масштабирование SRE быстрее, чем организация способна это переварить, и выгорание командыПереименовать команду эксплуатации в «SRE», не изменив сам подход к работе, — это организационный эквивалент спортивной полосы на семейном универсале.
Культурный провал — отношение к SRE как к переименованию команды, а не как к культурной трансформацииОргструктура меняется. Система стимулов — нет. А дальше из этого вытекает всё остальное.
Отраслевые последствия
Самая распространённая ошибка при внедрении SRE одновременно и самая незаметная: объявить победу на уровне организационной схемы. Компания заявляет о создании SRE-функции, переводит в неё существующих инженеров эксплуатации и продолжает работать ровно так же, как раньше, только теперь сверху в очереди заявок написано «SRE». Настоящий SRE требует принципиально иных отношений между разработкой и эксплуатацией.
Он предполагает, что разработчики несут ответственность за показатели надёжности, а SRE-инженеры имеют право замедлять выпуск новых функций, если исчерпан бюджет ошибок. Он требует атмосферы психологической безопасности для проведения безобвинительных пост-мортемов (разборов инцидентов), где инженеры могут честно рассказать, что произошло на самом деле, не опасаясь последствий для карьеры.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





