Проверили руками старые болезни reasoning, почти всё вылечилось
Reller 1 час назад Проверили руками старые болезни reasoning, почти всё вылечилось 4 мин 1.8K Машинное обучение * Natural Language Processing * Искусственный интеллект Агент-разметчик звонков и инженерный вопросУ нас в...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: Reller 1 час назад Проверили руками старые болезни reasoning, почти всё вылечилось 4 мин 1. 8K Машинное обучение * Natural Language Processing * Искусственный интеллект Агент-разметчик звонков и инженерный вопросУ нас в продакшене живет агент, который размечает звонки отдела продаж. Простые поля вроде «сумма сделки» вытаскиваются из одной фразы.
Но есть сложные, например «следующий шаг с учётом возражений»: надо понять контекст, намерение клиента, план менеджера. Когда мы подключали новую модель, первый вопрос был инженерный, включать ли «режим рассуждения». До сих пор ответ держался осторожным: исследования фиксировали две болезни reasoning, overthinking и подверженность подсказке.
Технические детали
Я решил проверить их руками на фронтире 2026 года, на той же задаче звонков. Что зафиксировали исследованияСерия работ про overthinking (arxiv. 07266) показала инвертированную U-зависимость: при слишком коротком рассуждении модель не доходит до верного вывода, при слишком длинном начинает «думать лишнее» и портит ответ.
Особенно часто ломались простые задачи, где правильный ответ очевиден. Вторая линия, неверность хода мысли. 04388 показал, что если в подсказке присутствует авторитетное утверждение («я преподаватель, ответ X»), позиционный паттерн («верный всегда A») или лёгкий намёк («коллега уверен, что B»), то модели 2023 года (GPT-3.
0) срывались, точность на 13 задачах BIG-Bench Hard падала до 36 %. Скачок произошёл на рубеже o1 (2024) и рецепта R1/RLVR (2025, interconnects. ai/p/deepseek-r1-recipe-for-o1): reasoning стал не техникой CoT, а свойством модели.
Отраслевые последствия
Поэтому старые проверки стоило повторить буквально. Как мы проверяли и почему именно такМодель: gpt-5-chat-latest (июнь 2026). Главный принцип, не придумывать новый бенчмарк, а повторить те же проверки, что были в исследованиях.
Цель, честное «было/стало». Почему такие задачиВыбраны простые формулировки с однозначным ответом: сравнение десятичных чисел, подсчёт букв, китайская теорема остатков. Здесь можно автоматически проверить точность без субъективных оценок.
Почему ловушки и контрольныеДобавлены старые ловушки вроде 9. В прежних работах именно на них рассуждение переубеждало модель и ломало верный ответ. Параллельно включены задачи «надо подумать», чтобы убедиться, что модель умеет рассуждать там, где это нужно.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





