python_leader 27 минут назад Как правильно заLOOPить Fable 5 Простой 4 мин 596 Искусственный интеллект Программирование * Будущее здесь Обзор Перевод Автор оригинала: Lance Martin Модели класса Mythos (такие как Claude...

Значимый прорыв формирует отрасль ИИ: python_leader 27 минут назад Как правильно заLOOPить Fable 5 Простой 4 мин 596 Искусственный интеллект Программирование * Будущее здесь Обзор Перевод Автор оригинала: Lance Martin Модели класса Mythos (такие как Claude Fable 5) изменили рабочий процесс многих из нас в Anthropic. Хочу поделиться двумя советами, как работать с этим классом моделей эффективнее. Петли самокоррекции (loops)Тема циклов (loops) сейчас активно обсуждается.

Борис Черни (создатель Claude Code) как-то говорил, что «его работа — писать циклы». Схема, когда модель "забирается вверх" по функции оценки, — это распространённый способ повысить производительность на задаче. Примитив /goal в Claude Code позволяет применять эту схему к конкретным задачам.

Технические детали

Как отмечено в нашем руководстве по промптингу, Fable 5 хорошо справляется с самокоррекцией в цикле. Хорошо спроектированная цель позволяет Claude делать шаг, собирать обратную связь отталкиваясь от установленной цели, корректировать действия и продолжать до тех пор, пока условие не выполнено. Приведу один игрушечный пример, на котором я тестировал Fable: Parameter Golf — опенсорсный ML-инжиниринговый челлендж, цель которого — обучить лучшую модель, умещающуюся в 16 МБ артефакт, менее чем за 10 минут на 8×H100.

Эта задача немного похожа на autoresearch от Карпатого: по задаче надо проверить способность агента редактировать базовый обучающий код (один файл train_gpt. py), запускать обучение, опрашивать лог, считывать оценку и решать, какой эксперимент запустить следующим. Я сравнил Fable 5 и Opus 4.

7 на этом челлендже с помощью Claude Managed Agents (CMA). CMA предоставляет агентскую обвязку и песочницу, что отлично подходит для долгих задач с Fable 5. Для Parameter Golf я выдал CMA доступ к 8×H100 в виде self-hosted песочницы.

Отраслевые последствия

Один тонкий момент: важно то, что именно оценивает результат. Мы замечали, что модели плохо справляются с самокритикой собственных выводов. Притхви Раджасекаран писал об этом в нашем блоге.

Мы обнаружили, что агент-верификатор, как правило, превосходит самокритику при работе с Fable 5, поскольку оценка происходит в независимом контекстном окне. Outcomes в CMA реализует это, автоматически запуская агент-оценщик. Для каждого теста я передавал рубрику (файл) с девятью проверяемыми критериями (например, запустить baseline, провести 20 экспериментов и т.

), затем запускал Parameter Golf до 8 часов. Оценщик Outcomes подтверждал выполнение всех критериев, прежде чем позволить Claude завершить работу. Fable 5 улучшил обучающий пайплайн примерно в 6 раз лучше Opus 4.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Как правильно заLOOPить Fable 5

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News