devpew 18 минут назад Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают Средний 5 мин 628 TypeScript * JavaScript * Go * Локальные LLM сейчас — это действительно мощный...

Вот важная новость с фронта ИИ: devpew 18 минут назад Как я разогнал Qwen3. 6-27B до 73 токен/с в llama. cpp: параметры, которые реально работают Средний 5 мин 628 TypeScript * JavaScript * Go * Локальные LLM сейчас — это действительно мощный инструмент.

Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах кодинга. Я сам активно использую локальные модели для разработки на TypeScript и Go. На данный момент самая интересная модель для моего стека — Qwen3.

Технические детали

Но один только выбор хорошей модели ничего не гарантирует. Без правильных параметров вы не получите ни скорости, ни качества. В этой статье я расскажу, с какими конкретно параметрами запускаю Qwen3.

cpp (мой текущий фаворит среди бэкендов), какие метрики считаю важными, и как нашел баланс между скоростью, стабильностью и качеством. Многие гонятся за чистой скоростью генерации токенов, но я считаю, что приоритеты должны быть другими:Удобство — размер контекста, в который должен помещаться весь ваш диалог или код. Стабильность — чтобы процесс не падал с OOM или ошибками CUDA.

Качество — осмысленные ответы, а не «каша» из токенов. Скорость — но только после выполнения первых трех пунктов. К сожалению, люди часто врут про скорость.

Отраслевые последствия

Например, один человек утверждал, что на M3 Studio выдает 55 токен/с на Qwen3. При детальном расспросе выяснилось:Модель — Qwen3. gguf (сильнейшая квантизация с огромной потерей качества)Контекст — всего 8000 токеновПоэтому давайте сразу договоримся: мы говорим о честной скорости при нормальном качестве и комфортном контексте.

Какие метрики скорости мы измеряемПри работе с LLM важны две цифры:pp (prompt processing) — скорость «чтения» моделью вашего запроса. Измеряется в токенах в секунду. tg (token generation) — скорость генерации ответа.

Именно эту метрику пользователь ощущает как «быстроту» модели. Мои показатели на Qwen3. 6-27B:pp ~2800 токенов/секtg ~73 токена/секЧто влияет на pp (обработка промпта)pp — это вычислительная задача, она упирается в количество ядер GPU, а не в пропускную способность памяти.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News