diffnotes-tech 12 часов назад Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад Уровень сложности Простой Время на прочтение 9 мин Охват и читатели 8.3K Искусственный интеллект...

В сфере искусственного интеллекта произошло заметное событие. diffnotes-tech 12 часов назад Я просил Claude перестать мне льстить. Беру свои слова назад Уровень сложности Простой Время на прочтение 9 мин Охват и читатели 8. 3K Искусственный интеллект Программирование * Машинное обучение * Управление разработкой * Аналитика 16 апреля Anthropic выкатила Claude Opus 4.

На self-reported бенчмарках - 12 побед из 14. SWE-bench Verified +6. 6, SWE-bench Pro +10.

Технические детали

Цена та же, 25 за миллион токенов. Через 24 часа тред на Reddit с заголовком «Claude Opus 4. 7 is a serious regression, not an upgrade» собрал 2300 голосов.

На X пост в той же логике - 14000 лайков. Yahoo вынес заголовок «The Claude-lash is here». И вот тут у меня щёлкнуло.

Месяц назад я писал статью про сикофантию. Жаловался, что Claude поддакивает любому коду, как стажёр перед увольнением. Хотел модель, которая будет меня поправлять.

Отраслевые последствия

16 апреля Anthropic в release notes пишет: «more direct, opinionated tone with less validation-forward phrasing». И через сутки получили модель, которую разработчики называют legendarily bad за то, что она спорит до галлюцинаций. Я взял свои слова назад.

И пошёл разбираться, что они сделали с моделью. Это не независимый бенчмарк 4. 7 и не строгий A/B на моих задачах.

Это разбор релиза, публичной реакции и моего workflow. Reddit и X не доказывают, что модель объективно хуже - они показывают, где у части разработчиков сломались ожидания. Это разные вещи, и дальше я их стараюсь не смешивать.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News