Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
YH7H22 2 часа назад Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл Средний 4 мин 2.9K Искусственный интеллект Машинное обучение * Привет, Хабр! Если вы...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. YH7H22 2 часа назад Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл Средний 4 мин 2. 9K Искусственный интеллект Машинное обучение * Привет, Хабр! Если вы следите за архитектурами современных LLM (например, LLaMA или Gemma), вы могли заметить одну маленькую, но важную деталь, которая стала стандартом де-факто - QK Norm (Query-Key Normalization).
В официальных пейперах её использование объясняют сухим математическим языком: при масштабировании моделей скалярные произведения Q * Kt начинают неконтролируемо расти, Softmax превращается в единичный вектор (one-hot), градиенты затухают, и обучение разваливается. Нормализация решает эту проблему численной стабильности. Но мне кажется, что за этим скрывается нечто гораздо более интересное.
Технические детали
В этой статье я хочу предложить теоретический взгляд на то, почему QK Norm дает буст не только к стабильности лосса, но и к фундаментальному качеству векторных представлений (эмбеддингов) слов. Анатомия ленивой нейросетиДавайте вспомним, что такое скалярное произведение двух векторов (Query и Key) с точки зрения геометрии. Формула известна со школы:A⋅B=∣A∣×∣B∣×cos(θ) В механизме Attention скалярное произведение определяет, насколько сильно токен A хочет смотреть на токен B.
Если нейросети нужно увеличить вес внимания между двумя словами (сделать их семантически близкими), у неё есть два пути: Изменить угол: Повернуть векторы так, чтобы они указывали в одном направлении в N-мерном пространстве Изменить длину: Оставить векторы на месте, но просто удлинить их. Нейронные сети, как известно, фантастически ленивы. Оптимизатору (тому же AdamW) гораздо проще градиентно "накачать" длину вектора (просто увеличивая веса линейного слоя), чем аккуратно вращать его в высокоразмерном пространстве, пытаясь не сломать угловые расстояния до десятков тысяч других токенов.
В итоге, без нормализации, модель учится выделять важные токены не за счет их точного позиционирования в пространстве смыслов, а за счет их «громкости». Векторы частых или грамматически доминирующих токенов раздуваются в размерах, подавляя более тонкие семантические связи. Отрезаем путь к отступлению: Геометрия QK NormЧто мы делаем, когда применяем RMSNorm к матрицам Query и Key перед их перемножением?
Отраслевые последствия
Мы принудительно делаем их длину константой Теперь наша формула скалярного произведения схлопывается до: Q⋅K≈cos(θ) Скалярное произведение превращается в чистое косинусное сходство (Cosine Similarity). Все векторы токенов оказываются заперты на поверхности N-мерной гиперсферы. И вот тут начинается магия.
Мы физически отрезали нейросети возможность изменять длину вектора. У неё остался только один вариант взаимодействия с данными, изменять положение вектора (угол). Почему это дает буст к "пониманию"Представьте себе комнату, в которой люди пытаются договориться.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





