
Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз
MPfromLINUX 18 минут назад Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз Простой 5 мин 1.1K Linux * Искусственный интеллект Open source * Компьютерное железо Кейс Из песочницы Приветствую всех...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: MPfromLINUX 18 минут назад Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз Простой 5 мин 1. 1K Linux * Искусственный интеллект Open source * Компьютерное железо Кейс Из песочницы Приветствую всех читателей Хабра! В этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил скорость генерации на одной из нейросетей в 20 раз (я не преувеличиваю).
Но об этом чуть позже, а начну я повествование с описания своего железа. Комплектующие и ОСВ роли моего “LLM-сервера” выступает обычный домашний ПК, на данный момент его можно считать бюджетным игровым. Вот список железа, установленного в нем:Процессор AMD Ryzen 5 5600XМатеринская плата на B550 чипсетеВидеокарта Intel Arc B580 (12 ГБ)Два модуля оперативной памяти DDR4 3200 МГц по 8 ГБSSD NVMe с версией PCI Express 3.
Технические детали
0Операционная система Arch LinuxПо производительности это самый обычный «народный» игровой ПК, в нем выделяется только дискретная видеокарта Intel и операционная система, но для наших целей это не минус. Видеокарта имеет 12 Гб не самой новой видеопамяти GDDR6, но благодаря шине в 192 бита даже немного обгоняет по пропускной способности памяти RTX 5060. К тому же, этот GPU обладает открытыми драйверами, а это плюс для Linux.
Arch Linux имеет отличный репозиторий, тратит менее 700 МБ ОЗУ в простое, имеет множество документаций и отличную совместимость, возможно, это лучшая ОС для меня. Стоит отдельно сказать про память. Не секрет, что для современного ИИ нужно много памяти, желательно — быстрой.
Если Intel и не обделили VRAM, то с RAM в моем ПК не все так гладко. Изначальная частота модулей всего 2666 МГц, что непростительно мало для нашей цели, мне пришлось разогнать их хоть немного, несмотря на чипы памяти Samsung C‑Die. Я не стал сильно завышать частоты и вольтаж, оставив их на 3200 МГц и 1.
Отраслевые последствия
30V, так как эти чипы «не любят» вольтаж более 1. Если вы хотите запускать LLM на своем компьютере, вы можете делать это даже на менее производительном железе, однако меньшее количесвто памяти еще больше ограничивает вас в объеме запускаемой нейросети, а меньшая скорость памяти влияет на скорость генерации. Это далеко не все факторы, но пожалуй, наиважнейшие.
Ладно, перейдем к софту. Про LM Studio и OlamaПервым делом я установил LM Studio, запустил, программа предложила установить Gemma 4 E4B, я согласился. После установки, до запуска модели, я посмотрел общее потребление ОЗУ и немного удивился.
Было занято 3 ГБ RAM, просто на главном экране, я считаю это большим объемом. После этого я немного изучил настройки LM Studio, закрыл программу и удалил ее. Интерфейс показался мне перегруженным, тяжелым во всех смыслах.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





