
Бенчмарк для оценки LLM в задачах триажа security-находок
Qwertcoser 38 минут назад Бенчмарк для оценки LLM в задачах триажа security-находок Сложный 17 мин 1.3K Информационная безопасность * Иконки * Анализ и проектирование систем * Системное администрирование * DevOps *...
В сфере искусственного интеллекта произошло заметное событие. Qwertcoser 38 минут назад Бенчмарк для оценки LLM в задачах триажа security-находок Сложный 17 мин 1. 3K Информационная безопасность * Иконки * Анализ и проектирование систем * Системное администрирование * DevOps * Аналитика Recovery ModeПеревод Автор оригинала: Florian Roth Я создал собственный бенчмарк для оценки языковых моделей, потому что стандартные публичные тесты не отвечают на мой главный вопрос: какая модель лучше справляется с триажем security-находок. Эта задача отличается от оценки общей сообразительности модели.
| Если вам интересна тема AI‑агентов и внедрения нейросетей, заглядывайте в мой Telegram‑канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых. | Почему стандартные бенчмарки не подходятTHOR - это форензик-сканер, который мы разрабатываем в Nextron Systems.
Технические детали
Он ищет признаки компрометации, подозрительные артефакты, инструменты атакующих, вредоносное ПО, следы persistence и другие security-релевантные свидетельства. Бенчмарк использует находки THOR как входные данные, но сама проблема не специфична для THOR. Находка THOR - это не задача по программированию, не математическая головоломка и не творческое задание.
Это кусок форензик-контекста или security-контекста из реальной системы. Она может указывать на вредонос, инструмент атакующего, подозрительный persistence, странный артефакт кэша, dual-use утилиту админа или просто на ложное срабатывание, которое выглядит страшно на первый взгляд. Модель должна принять решение:подавить как ложное срабатываниеоставить для ручной проверкиэскалировать как вероятный инцидентЭти решения имеют разную стоимость ошибки.
Если модель помечает безобидную находку как подозрительную, это тратит время аналитика. Особенно плохо, если таких находок много, при сканировании сотен или тысяч систем даже небольшой процент ложных эскалаций создаёт массу лишней работы. Но гораздо хуже, если модель помечает реальный инцидент как безобидный.
Отраслевые последствия
Это может скрыть атакующего и убрать единственную находку, которая должна была запустить расследование. Модель может отлично справляться с кодом, логическими задачами или написанием отчётов по уязвимостям, но плохо оценивать реальные security-события. И наоборот: менее известная модель может быть более консервативной и принимать лучшие операционные решения для этой конкретной задачи.
Общие ориентиры в сравнении с сортировкой по степени угрозы безопасности Я построил бенчмарк вокруг триажа находок THOR. Цель - не найти лучшую LLM в общем смысле, а понять, как разные модели ведут себя при классификации security-находок как истинно положительных, ложно положительных или неопределённых (Inconclusive). Важно не только, правильный ли ответ дала модель, но и что происходит, когда ответ неправильный.
Модель, которая отправляет слишком много на проверку - шумная. Модель, которая подавляет реальные угрозы - опасная. Устройство бенчмаркаБенчмарк намеренно начинается с чистого листа.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





