ivgl 21 минуту назад Как я заставил 9B обгонять 30B: три месяца с local LLM агентом Средний 6 мин 942 Node.JS * Open source * Машинное обучение * Кейс Я дал qwen3.5-9B (8-bit) и qwen3-coder-30B (iq2_xxs) одну задачу —...

Вот важная новость с фронта ИИ: ivgl 21 минуту назад Как я заставил 9B обгонять 30B: три месяца с local LLM агентом Средний 6 мин 942 Node. JS * Open source * Машинное обучение * Кейс Я дал qwen3. 5-9B (8-bit) и qwen3-coder-30B (iq2_xxs) одну задачу — исправить падающие тесты в Python-проекте.

9B справился за 3 шага. 30B сделал 24 шага, потерял нить, повторил одни и те же вызовы инструментов и вернул уверенный неправильный ответ. У 30B больше параметров.

Технические детали

Причина не в модели — в harness’е. Три месяца я строил агентный CLI для локальных LLM и разбирался, почему маленькая модель с правильным окружением стабильно бьёт большую без него. Типичный сценарий провалаЗадача: исправить падающие тесты в репозитории.

Придумывает фикс — и возвращает ответ. Тесты при этом всё ещё красные. Модель не запустила тесты.

Она не могла — у неё не было механизма проверить себя. Она просто сгенерировала правдоподобный ответ и остановилась. Без цикла обратной связи модель работает вслепую — как повар, которому не дают пробовать еду.

Отраслевые последствия

Он может быть хорошим поваром. Просто блюдо с вероятностью 50% окажется пересолённым. Что такое harness и почему он важнее моделиКогда запускаешь агент — Claude Code, Cursor, любой другой — большая часть работы происходит не внутри модели.

Harness решает: какие файлы показать, запустить ли тесты, что помнить между сессиями, как не потерять нить на длинной задаче. Умная модель в плохом harness’е работает хуже, чем средняя модель в хорошем. Это контринтуитивно — мы привыкли думать что качество = размер.

Но на практике разрыв между “9B не справляется” и “9B справился за 3 шага” — это не веса, это инфраструктура вокруг них. Я написал lema — опенсорсный агентный CLI для локальных LLM. Расскажу что внутри и какие решения оказались нетривиальными.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Как я заставил 9B обгонять 30B: три месяца с local LLM агентом

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News