
Загадка ядра Linux: почему на 36 vCPU Cilium падает, а на 32 — нет
kubelet 44 минуты назад Загадка ядра Linux: почему на 36 vCPU Cilium падает, а на 32 — нет Средний 12 мин 1.8K Блог компании Флант DevOps * Kubernetes * Linux * Кейс Перевод Автор оригинала: Пьер Мане (Pierre Magne)...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
В сфере искусственного интеллекта произошло заметное событие. kubelet 44 минуты назад Загадка ядра Linux: почему на 36 vCPU Cilium падает, а на 32 — нет Средний 12 мин 1. 8K Блог компании Флант DevOps * Kubernetes * Linux * Кейс Перевод Автор оригинала: Пьер Мане (Pierre Magne) Автор оригинальной статьи, Пьер Мане, рассказывает, как его команда столкнулась с на первый взгляд необъяснимым поведением Cilium и как поиск решения привёл его к конфигурации ядра Linux. Отладка сродни археологии: ты пробираешься сквозь слои абстракций, пока не доберёшься до коренной породы — ядра.
Это история о том, как скрытая в коде Linux логика работы со степенями двойки приводила к случайным и загадочным падениям Cilium, из-за чего мы не могли выкатиться в production. Для Qonto — лицензированной платежной организации, обслуживающей бизнес по всей Европе, — безопасность крайне важна. Поэтому и кластеры Kubernetes защищены по-максимуму: обнаружение рантайм-угроз, непривилегированные поды, read-only-файловые системы, аутентификация на каждом эндпоинте.
Технические детали
Сетевая сегментация должна была стать финальным штрихом нашей эшелонированной обороны. В Kubernetes сеть по умолчанию плоская (mutualized), то есть технически любой под может достучаться до любого пода. Но когда на кону защита денег клиентов и их финансовых данных, важен любой дополнительный слой безопасности.
Поэтому мы решили развернуть Cilium — Open Source-проект для реализации сетевых политик прямо на уровне ядра (с помощью eBPF). По сути, это такой регулировщик трафика внутри кластера, который решает, кто с кем может общаться. Следуя нашему правилу вносить изменения в инфраструктуру максимально осторожно, мы сперва выкатили всё на стейдж.
Развёртывание прошло успешно. Но спустя несколько недель начались спорадические сбои: примерно раз в неделю один из агентов Cilium падал так, что приходилось полностью перезагружать весь узел. Никаких явных паттернов или очевидных причин.
Отраслевые последствия
Баг случался редко, но бил слишком больно, чтобы пускать такое в production. Первая мысль — скорее всего, намудрили с конфигурацией, ведь Cilium — серьёзный, проверенный в бою проект, который используют тысячи компаний по всему миру. Наверняка мы допустили ошибку в конфигурации или столкнулись с пограничным случаем.
Забегая вперед — догадка оказалась и верной, и неверной одновременно, причём весьма неожиданным образом. Итак, я приступил к расследованию проблемы, опираясь на системные тесты, эмпирические данные и помощь искусственного интеллекта. Пытаемся воспроизвести проблемуПервым делом нужно было научиться воспроизводить баг.
Ждать целую неделю до следующего сбоя — не вариант. Я начал копаться в логах и метриках в поисках хоть какой-нибудь закономерности. Заметил кое-что интересное: упавшие агенты Cilium потребляли аномально много памяти во время запуска узлов, на которых они размещались.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





