
Промпты, RAG, LLM-тюнинг, Harness… Идём дальше?
Safreliy 8 минут назад Промпты, RAG, LLM-тюнинг, Harness… Идём дальше? 9 мин 20 Блог компании Postgres Professional Искусственный интеллект Машинное обучение * PostgreSQL * Базы данных * Кейс В LLM-инженерии постепенно...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. Safreliy 8 минут назад Промпты, RAG, LLM-тюнинг, Harness… Идём дальше? 9 мин 20 Блог компании Postgres Professional Искусственный интеллект Машинное обучение * PostgreSQL * Базы данных * Кейс В LLM-инженерии постепенно меняется объект оптимизации. Сначала подбирали промпты.
Потом настраивали RAG. Параллельно тюнили модели под конкретные задачи и домены, подбирали грамматики, засовывали модель в цикл. И вот появилось модное слово harness — по сути, сборная солянка из всего, что не LLM: тулы, MCP, память, агентные workflow, guard rails, record/replay-механики, механизмы компакции, маскирование, сабагенты, скиллы и много чего ещё.
Технические детали
В попытках систематизировать весь этот зоопарк технологий был разработан интерактивный mindmap, который доступен для всех желающих. Следующий логичный шаг — оптимизировать harness целиком: не только промпты или top-k в retriever, не только веса модели, а весь исполняемый runtime, в котором действует модель. В литературе встречаются названия типа compound AI systems optimization или meta-harness optimization — оптимизация AI-систем, состоящих из нескольких взаимодействующих компонентов, а не из одного вызова модели.
Мы с командой не ограничились чтением статей, а разработали небольшой бенчмарк с записью работы СУБД и MCP-тулов в реальных нагрузочных кейсах и с последующим ускоренным Replay этой записи на диагностическом агенте с целью оптимизации его harness. Саму оптимизацию проводили через циклическое генетическое сэмплирование и выбор наилучшего варианта harness посредством парето-оптимизации. Оказалось, что это работает.
Да, на небольшом бенчмарке, но целевая метрика в двух независимых запусках с разной методологией оценки заметно выросла:в первом запуске: 0. 9% к baseline;во втором запуске: 0. Тут интересна даже не сама метрика, а то, какие изменения нашёл оптимизатор.
Отраслевые последствия
Он не просто переписывал промпты. В удачных кандидатах он начал менять этапность workflow, доступные MCP-профили и процесс сбора доказательств как отдельный этап формирования AI-вердикта. Это уже похоже не на prompt-engineering, а на маленький AutoML для agent harness.
Минимальная формализацияПусть есть модель:где — веса модели. Вокруг неё есть harness:где — всё, что мы можем менять без дообучения модели:Большинство этих параметров нечисловые (это важно в плане отсутствия возможности градиентной оптимизации параметров). Они могут представлять собой markdown, Python, YAML, JSON schemas, описания тулов, MCP-профили, порядок и состав этапов, разные агентные циклы, политики compaction/masking и так далее.
На шаге harness строит контекст:где: — исходная задача; — история сообщений, вызовы тулов и разные observations; — состояние среды (например, в случае анализа СУБД: телеметрия, snapshots, различные отчёты, query fingerprints); — context builder. Модель порождает действие:Действие может быть финальным ответом или вызовом инструмента.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.



