
Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe
RukInDaHouse 13 минут назад Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe Уровень сложности Средний Время на прочтение 10 мин Охват и читатели 210 DevOps * Kubernetes * Системное...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. RukInDaHouse 13 минут назад Гайды по nxs-universal-chart v3. 0: AI Inference контур на основе KServe Уровень сложности Средний Время на прочтение 10 мин Охват и читатели 210 DevOps * Kubernetes * Системное администрирование * IT-инфраструктура * Машинное обучение * Туториал Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс.
Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация.
Технические детали
В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер компании Nixys . В этой статье я покажу, как собрать полноценный inference-контур из пяти Kubernetes-операторов в одном values.
yaml размером в 120 строк, используя nxs-universal-chart . Общая архитектура Наш контур будет состоять из пяти слоёв: Слой Технология Компоненты Функция NUC subchart Serving KServe InferenceService Развёртывает модель, обеспечивает V2 Inference Protocol nuc-kserve Networking Istio Gateway VirtualService Маршрутизирует внешний трафик к предиктору, mTLS nuc-istio Runtime Knative Service Serverless runtime, scale-to-zero, revision management nuc-knative Secrets Vault Secrets Operator VaultConnection VaultAuth VaultStaticSecret Доставляет S3-креды для загрузки модели из Vault nuc-vault-secret-operator Monitoring KubePrometheusStack ServiceMonitor Rules Метрики инференса, алерт на latency nuc-kube-prometheus-stack Обзор технологий: пять слоёв inference-контура Прежде чем переходить к конфигурации, давайте кратко разберём каждую технологию и зачем она нужна. Istio - service mesh для управления трафиком Istio - open-source service mesh, который прозрачно интегрируется с Kubernetes через sidecar-прокси (Envoy).
Каждый pod в mesh получает sidecar-контейнер, через который проходит весь входящий и исходящий трафик. Это позволяет реализовать mTLS-шифрование между сервисами, гранулярную маршрутизацию (canary, A/B, blue-green) и observability — без изменения кода приложения. Однако, в нашем примере мы не будем затрагивать функции service mesh, оставив это для следующих статей и будем использовать только Istio Gateway.
Отраслевые последствия
В нашем inference-контуре Istio отвечает за три задачи. Во-первых, Gateway определяет точку входа для внешнего трафика и терминирует TLS. Во-вторых, VirtualService и DestinationRule описывают правила маршрутизации к предиктору, что даёт возможность реализовать canary-деплой новых версий модели (например, 90% трафика на v1, 10% на v2).
В-третьих, AuthorizationPolicy ограничивает доступ к API инференса: только эндпоинты /v1/models/* открыты для внешних клиентов, а метрики и admin-панели остаются закрытыми.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





