Как мы отучали LLM выдумывать цифры в данных. Допрос Claude Desktop с пристрастием
e5004c 43 минуты назад Как мы отучали LLM выдумывать цифры в данных. Допрос Claude Desktop с пристрастием Простой 7 мин 1.8K Искусственный интеллект Программирование * Python * SQL * Кейс Никто не верил, что модель...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. e5004c 43 минуты назад Как мы отучали LLM выдумывать цифры в данных. Допрос Claude Desktop с пристрастием Простой 7 мин 1. 8K Искусственный интеллект Программирование * Python * SQL * Кейс Никто не верил, что модель можно подпустить к таблицам и заставить не галлюцинировать.
Цифры из воздуха, выдуманные колонки, суммы, которые не сходятся с источником, думаю на этом обжигались все, кто пробовал. Мы заставили, проблемы все еще есть, но выглядят решаемыми. Сначала про то, почему любая LLM врёт на данных.
Технические детали
Она достраивает правдоподобное продолжение токен за токеном. Таблица, которую вы положили ей в контекст, для модели такой же текст, как и всё остальное. Не хватило данных, неудобно читать, вопрос чуть в стороне — она не скажет «не знаю», а допишет то, что выглядит как правда.
Прямой путь, отдать ей CSV и попросить посчитать, ровно поэтому и не работает. Сработал другой подход. Мы взяли Claude Desktop и оказалось, что он прекрасно пережевывает большие датасеты: не захлёбывается и не врёт цифрой там, где обычная связка «модель плюс CSV» уже ломается.
Стало интересно, за счёт чего. Мы начали его опрашивать и разбирать, как он это делает. Вот что выяснили — и что из этого перенесли в свой MCP-сервер.
Отраслевые последствия
Первый подход: Claude Desktop умеет, но непредсказуемоСначала честно: анализ данных Claude делает и сам, без всякой обвязки. Дай ему датасет и вопрос — думаю он посчитает. Он умеет, проблема в том, что делает это каждый раз по-разному.
Тот же вопрос и он то возьмёт один разрез, то на полпути сменит подход, то выберет другую логику расчёта. Для разовой задачи сносно, но на должность дата аналитика не тянет. Раз он справляется с данными, рецепт у него есть.
Мы решили его просто спросить. Что рассказал Claude DesktopМы стали опрашивать напрямую: как ты работаешь с большими датасетами, как устроена твоя песочница, как устроены навыки для работы с данными и тд. Устройство его песочницы я оставлю за скобками — это кухня Anthropic, и реконструировать её догадками в статье про то, как не выдумывать, было бы смешно.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





