makarsuperstar 2 минуты назад Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM.Часть 3.Дистилляция Средний 11 мин 5 Машинное обучение * DevOps * Open source * Кейс С чего всё началосьПосле того...

В сфере искусственного интеллекта произошло заметное событие. makarsuperstar 2 минуты назад Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Дистилляция Средний 11 мин 5 Машинное обучение * DevOps * Open source * Кейс С чего всё началосьПосле того как delta-merge оказался неподходящим и я перешёл на fresh-from-base, обнаружилась нехватка трейсов. У меня было примерно 1700 hand-crafted трейсов — это полный цикл: система → запрос пользователя → размышление модели → вызов инструмента → наблюдение → следующий шаг → final_answer.

И за каждым из них стоит работа: каждый трейс — это итерация с Claude Code, ревью, правки, повторная генерация. На 1700 рабочих трейсов я потратил неделю времени и финансовые ресурсы. Чтобы удвоить — ещё столько же.

Технические детали

А мне нужно было покрыть как минимум ещё 5–7 областей, до которых руки тогда не дошли: SSH, продвинутый docker, kubernetes, postgres, мониторинг и логи. Стало ясно: hand-crafting в чистом виде постоянно клянчить с Claude не получится. Варианты, которые я рассматривал1.

Очевидное решение: даём модели эталонные примеры, просим сгенерировать ещё. Качество предсказуемо хорошее. Считаем стоимость для ~4000 трейсов (~6K input + 3.

5K output на трейс) — берём флагманы:ПровайдерМодельIn $/1MOut $/1MИТОГОAnthropicOpus 4. 7$5$25~$482OpenAIGPT-5. 5$5$30~$554QwenQwen3 Max$0.

Отраслевые последствия

90~$75Qwen3 Max за $75 выглядит почти бесплатным — но он мне не подходит. Моя базовая модель — qwen3:14b, и Qwen3 Max из того же семейства. Дистилляция через "большую" модель работает только тогда, когда она даёт другой взгляд на задачу — другие паттерны рассуждений, другую структуру ответа, другую логику подачи.

Если "учитель" и "ученик" из одной семьи, ты получишь те же самые паттерны, те же ошибки, такое же поведение — просто завёрнутые в более продвинутый формат. Дистилляция превращается в дублирование: модель учится у самой себя и не приобретает ничего нового. Поэтому Qwen-семейство для роли учителя отпадает по архитектурным причинам, а не по цене.

5 — довольно дорого, а если ещё учесть, что всё это потихоньку блокируется и скоро мы все переедем на проксирующие сервисы вроде RouterAI, цены станут просто космическими. Сейчас за тот же прогон 4000 трейсов через RouterAI получается: GPT-5. 5 ~53 000 ₽, остальные модели можете сами посчитать на сайте.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM.Часть 3.Дистилляция

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News