
Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU)
slavb18 1 минуту назад Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU) Сложный 9 мин 0 Python * Туториал Из песочницы Взяли автоэнкодер из свежей работы CALM (Continuous...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: slavb18 1 минуту назад Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU) Сложный 9 мин 0 Python * Туториал Из песочницы Взяли автоэнкодер из свежей работы CALM (Continuous Autoregressive Language Models), который учится упаковывать чанк из K=4 токенов в один непрерывный вектор и разворачивать обратно, и обучили его не на 15 миллиардах токенов Pile на 8 GPU, как в оригинале, а на 18 тысячах коротких строк с требованиями из IT-вакансий - на обычной машине без видеокарты. По дороге выгребли три классических грабли (flash-attn без CUDA, deepspeed, который не импортируется под NumPy 2. x, и тихий OOM на 33 ГБ логитов).
Ниже - подробный разбор архитектуры, конфигов и честные результаты round-trip-реконструкции. 💡 Зачем вообще что-то менять в языковых моделяхСовременные LLM упираются в фундаментальное ограничение: они генерируют текст по одному токену за шаг. Сгенерировал токен → подал обратно на вход → сгенерировал следующий.
Технические детали
Чем длиннее ответ, тем больше последовательных шагов авторегрессии, и это плохо параллелится по своей природе. Авторы CALM (GitHub, блог) предлагают сместить парадигму: вместо предсказания одного дискретного токена модель предсказывает один непрерывный вектор, который кодирует сразу чанк из K токенов. Если K=4, то число шагов авторегрессии падает в 4 раза.
Появляется новая ось масштабирования - авторы называют её semantic bandwidth (K): можно наращивать не только параметры и данные, но и объём информации, обрабатываемой за один шаг. Чтобы это заработало, нужно две модели:Автоэнкодер высокой точности - учится сжимать K токенов в один вектор и реконструировать их почти без потерь. Это «словарь» между дискретным миром токенов и непрерывным латентным пространством.
Continuous-domain LM - авторегрессионная модель, которая предсказывает следующий вектор в этом непрерывном пространстве (а не следующий токен). Так как мы уходим из дискретного softmax-мира, обычный maximum likelihood больше не применим напрямую - поэтому в CALM есть целый likelihood-free тулкит: Energy-based training, метрика BrierLM и temperature sampling поверх чёрного ящика-сэмплера. Эта статья - про первую стадию, автоэнкодер.
Отраслевые последствия
Именно он определяет, насколько хорошо вообще возможна вся затея: если чанк токенов нельзя восстановить из вектора, то и моделировать в этом пространстве бессмысленно. 📚 Зоопарк моделей в репозиторииЧтобы было понятно, куда вписывается наш эксперимент, вот что лежит в репозитории CALM:МодельЧто делаетПараметрыAutoencoderсжатие K токенов ↔ вектор (стадия 1)75MCALM-M / L / XLнепрерывная авторегрессия (стадия 2)371M / 735M / 1. 82BAR baselineобычный токенный трансформер для сравнения-Для стадии 2 предусмотрены три варианта генеративной «головы», которая моделирует распределение следующего вектора:Energy-based (train_energy.
py) - основной, лучший по качеству;Diffusion (train_diffusion.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





