Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация
YH7H22 43 минуты назад Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация Средний 3 мин 1.9K Машинное обучение * Мнение Если вы зайдете на Reddit или HuggingFace, вы увидите одну и ту же картину: люди...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. YH7H22 43 минуты назад Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация Средний 3 мин 1. 9K Машинное обучение * Мнение Если вы зайдете на Reddit или HuggingFace, вы увидите одну и ту же картину: люди соревнуются в том, кто сильнее покалечит модель, чтобы втиснуть её в свои 8 или 12 ГБ видеопамяти. «Смотрите, я запустил 70 миллиардную модель на RTX 3060!
Правда, пришлось использовать 3 битное квантование с размером группы 32, но она работает! Она складывает слова в предложения. Но давайте снимем розовые очки и поговорим о математике.
Технические детали
Экстремальное квантование сегодня превратилось в культ слепую веру в то, что магия алгоритмов (AWQ, GPTQ, EXL2) способна бесконечно сжимать информацию без потери интеллекта. Но у физики нейросетей есть предел. Золотая середина: почему 8 и 6 бит работают идеальноНужно вспомнить, почему квантование вообще работает.
Веса хорошо обученной нейросети имеют нормальное распределение вокруг нуля. Большинство весов близки к нулю, и лишь крошечная доля уходит в хвосты (выбросы). Когда мы переходим от FP16 к INT8 (8 бит), у нас есть 256 дискретных значений, чтобы описать этот колокол.
Для непрерывного пространства нейросети 256 градаций это более чем достаточно. Мы сохраняем и общую массу весов, и, что критически важно, точность в хвостах распределения. Переход на 8 (и даже на 6) бит это почти lossless операция.
Отраслевые последствия
Мы срезаем математический шум. Обрыв: переход к 4 и 3 битамНо дальше начинается жадность. 4 бита это всего 16 значений.
3 бита это 8 значений. Вы берете сложнейшее N-мерное латентное пространство, в котором сеть выучила тончайшие семантические различия между сарказмом и иронией, между квантовой физикой и кулинарией, и заставляете каждый вес в матрице принимать одно из 8 фиксированных значений. Это как попытаться сыграть симфонию на детском пианино с тремя клавишами.
Как это вообще работает? Алгоритмы вроде GPTQ или AWQ вычисляют, какие веса наиболее важны для активаций, и пытаются сохранить их точность за счет группировки (Group Size = 128 или 64). Мы спасаем каркас, но полностью уничтожаем детали Иллюзия perplexity: что мы на самом деле теряемГлавный аргумент фанатов экстремального квантования звучит так: "Смотрите на бенчмарки!
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





