
Как мы внедряли SLO в платформу, которая отвечает за наблюдаемость в банке
rusboy_habr 14 минут назад Как мы внедряли SLO в платформу, которая отвечает за наблюдаемость в банке Простой 13 мин 496 Блог компании Т-Банк DevOps * Habr IT-инфраструктура * Конференции Кейс Привет, Хабр! Я Руслан...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: rusboy_habr 14 минут назад Как мы внедряли SLO в платформу, которая отвечает за наблюдаемость в банке Простой 13 мин 496 Блог компании Т-Банк DevOps * Habr IT-инфраструктура * Конференции Кейс Привет, Хабр! Я Руслан Боярский, SRE-инженер в Т-Банке, где мы строим и поддерживаем Sage — внутреннюю платформу наблюдаемости для 7 000+ инженеров. У нас собираются миллионы метрик в секунду, работают десятки тысяч алертов, и на нас завязаны решения о стабильности критически важных сервисов.
В какой-то момент мы задались вопросом: насколько на самом деле надежна наша платформа? У нас были SLA, но не было уверенности, что они отражают реальные ожидания пользователей. В статье по мотивам моего доклада на DevOpsConf 2025 — наш путь от гипотез и «галлюцинаций» до рабочих SLO: как мы с помощью глубинных интервью с клиентами перестали гадать о надежности и начали измерять ее по-настоящему.
Технические детали
Как все началось: от SLA по умолчанию к вопросам о реальной надежностиНаша observability-платформа формирует фундамент наблюдаемости в Т-Банке. Нагрузка на платформу за семь лет выросла многократно, а с ней — доверие пользователей и их ожидания в вопросе надежности. В начале пути у нас уже есть SLA с клиентом и механизмы отслеживания.
С ростом нагрузки и появлением новых функций возникли вопросы:Какая надежность у нас сейчас? Как нам измерить надежность и правильно ли мы ее измеряем сейчас? Какие ожидания у наших пользователей по надежности от нас?
Вопросы стали отправной точкой — с этого момента начался этап Discovery. Нас ожидали проработка требований, общение с клиентами и проектирование SLO. Выбор точки входа: почему начали с подсистемы метрикSage — огромная система: логи, трейсы, метрики.
Отраслевые последствия
Это слон, которого надо есть по кускам. Поэтому мы решили пойти по пути, когда выбираем одну подсистему, получаем опыт и потом масштабируем его на остальные подсистемы. Выбор пал на подсистему метрик.
Она популярна у наших пользователей: многие SRE-команды в компании строят свои алертинги, дашборды и работу на основе метрик, хранящихся в Sage. Дальше нужно было собрать контекст: архитектура, процессы и функциональность. Информацию мы искали в команде, которая отвечает за подсистему метрик.
Это небольшая кросс-функциональная команда: нет отдельного QA, но есть разработчики, продакты и SRE-партнер, помогающий надежностью и инфраструктурой. Важно: команда работает по принципу you build it — you run it. Работая с командой, мы сразу фиксируем ключевую функциональность подсистемы:Запись временных рядов метрик в наше коммунальное хранилище.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





