Дашборд зелёный, командир, но сервис мёртв: ставим требования к observability правильно
froav 14 минут назад Дашборд зелёный, командир, но сервис мёртв: ставим требования к observability правильно Средний 4 мин 217 Анализ и проектирование систем * Кейс Подходя к офису ты думаешь, что сейчас придешь,...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. froav 14 минут назад Дашборд зелёный, командир, но сервис мёртв: ставим требования к observability правильно Средний 4 мин 217 Анализ и проектирование систем * Кейс Подходя к офису ты думаешь, что сейчас придешь, нальешь себе кофе, поболтаешь с коллегами, откроешь таск-трекер и спокойно начнешь рабочий день. Инженеры GitHub 27 апреля 2026 года тоже так думали… И начали. А через пару часов поиск по репозиториям, issues и PR-ам начал отваливаться — до 65% запросов уходили в таймауты.
Но самое странное: все дашборды были зелёными. CPU — в норме, память — в норме, 200 OK — летят. А пользователи обрывают линию техподдержки.
Технические детали
Потому что метрики меряют техническое здоровье, а не бизнес-результат. GitHub — не слепая система: мониторинг зафиксировал деградацию поиска, поднял инцидент. Но метрики видели только следствие — перегрузку балансировщиков.
Они не могли классифицировать природу этой нагрузки. А причина оказалась в распределённом скрейпинге: более 600 000 уникальных IP-адресов гнали анонимный поисковый трафик, обходя rate limits, и сжимали 30% дневного объёма в четырёхчасовое окно. Балансировщики захлебнулись, время ответа выросло, и поиск перестал возвращать результаты.
Дашборды были зелёными, потому что они измеряли техническое здоровье компонентов, но не различали тип нагрузки. А различать нужно: если это обычный рост — масштабируйся, если баг клиента — чини клиента, если скрейпинг — вводи конитроль для анонимного трафика. GitHub не сразу понял это, и инцидент длился больше шести часов.
Отраслевые последствия
Когда инженеры GitHub наконец поняли, с чем имеют дело, они развернулись в четырёх направлениях одновременно: разгружали балансировщики, масштабировали балансировочный слой, блокировали аномальный трафик и тюнили настройки балансировщиков. К 21:33 UTC основные последствия были устранены, и поиск начал возвращать результаты. Ещё чуть больше часа команда мониторила систему, и в 22:46 UTC инцидент был официально закрыт.
Но главное — выводы, которые GitHub сделал после инцидента. Они не ограничились «починили и забыли». Во-первых, масштабировали сам балансировочный слой и применили оптимизации для работы с соединениями, чтобы подобное насыщение не повторилось.
Во-вторых, добавили новые мониторы и механизмы контроля, которые позволяют ограничивать анонимный трафик, защищая зарегистрированных пользователей. И в-третьих — пересмотрели саму логику мониторинга: теперь система должна не просто фиксировать «нам плохо», а различать тип нагрузки, чтобы скрейпинг больше не оставался незамеченным риском. Именно здесь граница наблюдаемости: GitHub не был слеп, но система видела следствие, а не причину.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





