
Поднимаем Llama 3 в облаке: Ollama и Open WebUI
automagician 13 минут назад Поднимаем Llama 3 в облаке: Ollama и Open WebUI Простой 16 мин 317 Блог компании Selectel Искусственный интеллект Машинное обучение * Облачные сервисы * Системное администрирование * Туториал...
Значимый прорыв формирует отрасль ИИ: automagician 13 минут назад Поднимаем Llama 3 в облаке: Ollama и Open WebUI Простой 16 мин 317 Блог компании Selectel Искусственный интеллект Машинное обучение * Облачные сервисы * Системное администрирование * Туториал Локально запустить LLM сегодня можно за десять минут — например, с помощью LM Studio. Но как только модели нужно дать доступ команде, подключить RAG или встроить ее в сервис — такого подхода зачастую недостаточно. В этой статье мы разберем, как развернуть LLM на сервере, какие ресурсы для этого понадобятся и с какими сложностями можно столкнуться.
Перейдем к практикеРазвернуть модель в облаке или на собственном сервере можно несколькими способами — выбор зависит от задач и доступных ресурсов. В качестве базового решения рассмотрим связку Ollama + Open WebUI. Это типичная архитектура «движок + интерфейс», которая сочетает простоту запуска с возможностью дальнейшего расширения.
Технические детали
Ollama отвечает за запуск и управление жизненным циклом моделей — их загрузку, запуск и остановку. Инструмент предоставляет удобный CLI и HTTP API для взаимодействия. Open WebUI — веб-интерфейс с привычным чат-форматом, админкой и возможностями расширения.
План следующий:выберем модель;развернем Ollama и Open WebUI в докере;разберем несколько важных настроек Ollama;проверим RAG на локальных документах. Выбор моделиНачать поиск моделей для Ollama можно со следующих репозиториев: или выборе модели важно учитывать несколько параметров:Параметры выделены по блокам. Разные семейства оптимизированы под разные задачи: генерацию текста, следование инструкциям, мультиязычность и т.
Для сравнения можно посмотреть llm leaderboard;Количество параметров. Чем больше параметров, тем выше потенциальное качество, но вместе с этим растут и требования к ресурсам;Базовая vs Instruct-модель. Базовая модель хорошо подходит для генерации текста, также ее можно использовать для дообучения.
Отраслевые последствия
Instruct-модель дополнительно обучена следовать инструкциям пользователя;Квантование. Это способ с некоторой потерей качества уменьшить размер модели за счет снижения точности весов. Обозначение «q» показывает количество бит на вес: чем меньше — тем больше потерь в качестве;Контекстное окно.
Объем текста, который модель может учитывать в рамках одного запроса. 4K–8K токенов обычно достаточно для коротких диалогов, 32K–128K токенов подходят для работы с большими документами и длинными переписками;Размер модели. Это объем файлов модели на диске.
В идеале модель должна полностью помещаться в VRAM — это обеспечивает максимальную скорость инференса. Если видеопамяти недостаточно или GPU отсутствует, модель можно частично или полностью запускать в оперативной памяти (RAM), однако скорость работы в таком режиме будет заметно ниже.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





