
PII-Shield: режем персональные данные в логах до того, как они доехали до ELK
aragossa 8 минут назад PII-Shield: режем персональные данные в логах до того, как они доехали до ELK Средний 8 мин 178 DevOps * Информационная безопасность * Go * Kubernetes * Open source * Кейс Из песочницы Изначально...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
Значимый прорыв формирует отрасль ИИ: aragossa 8 минут назад PII-Shield: режем персональные данные в логах до того, как они доехали до ELK Средний 8 мин 178 DevOps * Информационная безопасность * Go * Kubernetes * Open source * Кейс Из песочницы Изначально идея была грубее: взять логовую строку, посчитать энтропию у подозрительных кусков и скрывать всё, что похоже на случайный секрет. PII здесь — это personally identifiable information, то есть персонально идентифицируемая информация: email, телефон, адрес, паспортные данные, номера карт, токены доступа и другие значения, которые не должны свободно гулять по логам. На бумаге звучало неплохо.
Многие токены, ключи и сессионные строки действительно выглядят как шум:x9VdQp2Mz_La77kPq0 sk_live_51Nx... eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9... Но быстро выяснилось, что одной энтропией нормальный фильтр не собрать.
Технические детали
С одной стороны, есть значения с низкой энтропией, которые всё равно надо скрывать: password=123, token=dev, cvv=000. С другой — полно технических строк, которые выглядят случайными, но не являются секретами: идентификаторы трассировки, UUID, короткие хэши коммитов, идентификаторы запросов, куски путей. Если сделать порог ниже, фильтр начинает портить полезные логи.
Если поднять порог, начинает пропускать слабые секреты. После этого в PII-Shield появились регулярки, чувствительные ключи, список исключений и отдельные валидаторы вроде алгоритма Луна для номеров банковских карт. Мне не нравился и сам момент, в котором мы обычно пытаемся лечить такую проблему.
Часто PII чистят уже на уровне Fluentd, Logstash, SIEM или какого-нибудь большого логового конвейера. Это полезно, но поздно: данные уже покинули приложение, уже прошли через часть инфраструктуры, уже могли попасть в буферы, ретраи, временные файлы и чужие дашборды. Так появился PII-Shield: небольшой open-source инструмент, который старается вырезать персональные данные и секреты из логов до того, как они ушли из pod.
Отраслевые последствия
Репозиторий PII-Shield на GithubИдеяСамая короткая версия:приложение пишет лог | v PII-Shield читает сырой лог рядом с приложением | v наружу уходит уже очищенная строка То есть не «почистим где-то потом», а «не дадим сырому значению выйти наружу». PII-Shield сейчас можно использовать несколькими способами:консольная утилита или контейнер, который фильтрует стандартный ввод и вывод;sidecar-контейнер в Kubernetes;Kubernetes operator, который добавляет sidecar через проверяющий webhook при создании пода;Helm-чарты для установки;WASM SDK для Node. js и Python, если хочется встроить сканер прямо в процесс.
Основной Kubernetes-сценарий выглядит так: приложение пишет лог в файл на общий том, sidecar читает этот файл, прогоняет строки через сканер и пишет очищенный поток в стандартный вывод. Дальше его уже забирает обычный логовый сборщик. ┌──────────────────── pod ────────────────────┐ │ │ │ app container │ │ │ │ │ │ /var/log/app/output.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.



