Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад
diffnotes-tech 12 часов назад Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад Уровень сложности Простой Время на прочтение 9 мин Охват и читатели 8.3K Искусственный интеллект...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. diffnotes-tech 12 часов назад Я просил Claude перестать мне льстить. Беру свои слова назад Уровень сложности Простой Время на прочтение 9 мин Охват и читатели 8. 3K Искусственный интеллект Программирование * Машинное обучение * Управление разработкой * Аналитика 16 апреля Anthropic выкатила Claude Opus 4.
На self-reported бенчмарках - 12 побед из 14. SWE-bench Verified +6. 6, SWE-bench Pro +10.
Технические детали
Цена та же, 25 за миллион токенов. Через 24 часа тред на Reddit с заголовком «Claude Opus 4. 7 is a serious regression, not an upgrade» собрал 2300 голосов.
На X пост в той же логике - 14000 лайков. Yahoo вынес заголовок «The Claude-lash is here». И вот тут у меня щёлкнуло.
Месяц назад я писал статью про сикофантию. Жаловался, что Claude поддакивает любому коду, как стажёр перед увольнением. Хотел модель, которая будет меня поправлять.
Отраслевые последствия
16 апреля Anthropic в release notes пишет: «more direct, opinionated tone with less validation-forward phrasing». И через сутки получили модель, которую разработчики называют legendarily bad за то, что она спорит до галлюцинаций. Я взял свои слова назад.
И пошёл разбираться, что они сделали с моделью. Это не независимый бенчмарк 4. 7 и не строгий A/B на моих задачах.
Это разбор релиза, публичной реакции и моего workflow. Reddit и X не доказывают, что модель объективно хуже - они показывают, где у части разработчиков сломались ожидания. Это разные вещи, и дальше я их стараюсь не смешивать.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





