У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель действительно «собрала» правильную причинную цепочку, и тогда, когда она просто выдала...

В сфере искусственного интеллекта произошло заметное событие. У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель действительно «собрала» правильную причинную цепочку, и тогда, когда она просто выдала правдоподобный текст. Классические способы оценки неопределённости — энтропия распределения токенов, калибровка, ансамбли, conformal prediction — полезны, но обычно смотрят на модель как на чёрный ящик.

В этой статье я разберу другой подход: попробовать оценивать неопределённость не только по выходу модели, а по внутренней согласованности активной цепи трансформера. Речь пойдёт о метрике EICS — Effective Information Consistency Score.

Технические детали

Идея в том, чтобы за один прямой проход получить численную оценку того, насколько найденная трансформерная цепь ведёт себя согласованно и насколько её макроуровневое описание действительно несёт интегрированную информацию. Статья основана на исследовательской работе об оценке неопределённости в трансформерных цепях на основе согласованности эффективной информации.

Здесь я намеренно смягчил академическую подачу, оставив интуицию, формулы, алгоритм и практические ограничения.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Метрика EICS — ищем у трансформера причинное место

Технические детали

Related Prediction Markets

Related News