
Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей
fox52 23 минуты назад Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей 5 мин 791 Машинное обучение * Информационная безопасность * Аналитика Часть 2 серии про...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: fox52 23 минуты назад Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama. cpp) — и при чём тут кража облачных ключей 5 мин 791 Машинное обучение * Информационная безопасность * Аналитика Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку MCP (Model Context Protocol — протокол инструментов для агентов) в обычный мультипротокольный скан.
Тогда речь шла о слое агентов и инструментов. Сегодня спускаемся на уровень ниже — к самому inference-слою: открытым серверам Ollama и llama. cpp, на которых крутятся модели.
Технические детали
И тут картина мая 2026-го получилась куда интереснее, чем «просто сканируют». Коротко тезис: открытый Ollama — это бесплатный GPU для атакующего, и охота за таким compute давно поставлена на поток. Но за май наша сеть ханипотов (приманки в DE/US/RU) зафиксировала не только воровство инференса, а нечто новое — использование LLM-эндпоинта как SSRF-плацдарма для кражи облачных учёток.
(Про «открытые AI-сервера без аутентификации» как явление подробно — в части 1, повторяться не буду; здесь — про то, что с ними делают. )Откуда данныеУ нас развёрнута сеть приманок (honeypot) в трёх странах. Среди прочих сервисов — фейковый Ollama API на стандартном порту 11434: он отвечает как настоящий Ollama (список моделей, OpenAI-совместимые эндпоинты), но ничего не исполняет, а пишет в лог каждый запрос: путь, тело, User-Agent, источник.
За май на эту приманку прилетело ~75 300 запросов. Это зрелая категория со своей таксономией, инструментарием и — что важнее всего — постоянными акторами, которых видно из месяца в месяц. Анатомия атаки: что именно делают с открытым OllamaРазложим классифицированные запросы по типу активности (доли округлены, от размеченной части трафика):ТипДоляЧто это значитСканирование~95%Массовый поиск открытых Ollama/llama.
Отраслевые последствия
cpp в интернетеinference_abuse~3. 7%Кража инференса: гоняют запросы к /api/generate, /v1/chat/completionsmodel_abuse_external~0. 8%Попытки подгрузить/использовать сторонние моделиssrf_cloud_cred~0.
5%SSRF через LLM-эндпоинт → кража cloud-metadata кредовadmin_probe~0. 1%Зондирование админских путей95% — это, ожидаемо, разведка: интернет прочёсывают на предмет «а есть ли тут живая модель». Но дальше начинается интересное.
Кража инференса — экономика «бесплатного GPU»Зачем кому-то чужой Ollama? Затем же, зачем чужой майнинг-риг. Inference больших моделей стоит денег — GPU-часы, электричество, API-токены.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





