
ML для больших компаний: от DevBox до платформы на тысячу пользователей
antonaleks605 3 минуты назад ML для больших компаний: от DevBox до платформы на тысячу пользователей Средний 15 мин 8 Блог компании AvitoTech Машинное обучение * DevOps * Kubernetes * Open source * Обзор Привет, Хабр!...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. antonaleks605 3 минуты назад ML для больших компаний: от DevBox до платформы на тысячу пользователей Средний 15 мин 8 Блог компании AvitoTech Машинное обучение * DevOps * Kubernetes * Open source * Обзор Привет, Хабр! Меня зовут Антон Алексеев, я MLOps-инженер в Авито. В статье расскажу, как мы строим ML-платформу на базе Kubeflow.
От первых DevBox-решений мы пришли к набору небольших юнит-платформ, которые разные команды развивали под свои бизнес-задачи и связывали между собой. Со временем возникла задача объединить эти решения в единую платформу. Поделюсь, как мы это делали, с какими проблемами столкнулись и как их решили.
Технические детали
И немного о том, как должны выглядеть агентские платформы, когда за управление инфраструктурой отвечают агенты. Статья будет полезна не только тем, кто разрабатывает и использует платформы в больших компаниях, но и тем, кто работает на DevBox-машинах или небольших платформах для юнит-команд от 10 до 100 человек. Немного про себя: я работаю над ML-платформой на базе Kubeflow и занимаюсь разработкой inference-платформы на базе KServe.
Люблю делиться знаниями про ML-инфраструктуру, выступаю программным экспертом курса Яндекс Практикума по MLOps и пишу в Telegram-канал про инфраструктуру для AI/ML. СодержаниеТри архитектурных подходаDevBox PlatformUnit PlatformCentral PlatformInference PlatformAgentic PlatformКакой подход выбратьКорочеЧто почитать и посмотретьТут еще больше контентаТри архитектурных подходаНачнём с небольшой базы — трёх архитектурных подходов к построению ML-инфраструктуры, которые ребята из западных компаний, таких как Netflix (Metaflow), Uber (Michelangelo) и Google (Vertex AI), показали несколько лет назад. → Можно разрабатывать SDK для дата-сайентистов, которые помогают увеличивать воспроизводимость экспериментов при работе с DevBox-решениями.
→ Можно построить on-premise ML-платформу на собственном кластере, как это сделали ребята из Uber. → Либо, как ребята из Google, сделать полноценную платформу и выдать её как SaaS-решение для других компаний — облачная ML-инфраструктура как сервис. Иллюстрация из статьи «Как компании строят MLOps: три архитектурных подхода»При построении этих платформ компании смотрят на две метрики, которые напрямую влияют на бизнес-результат:Time-to-market — время от создания эксперимента до вывода модели в прод.
Отраслевые последствия
Наша задача с помощью платформизации уменьшать его любыми способами. Можно сокращать время онбординга клиентов, ускорять воспроизведение экспериментов, которые дата-сайентисты уже делали раньше. GPU Utilization — максимизация утилизации GPU-кластеров.
Нужно превратить разрозненное пространство, где у каждого своя виртуалка с GPU и она недоутилизирована, в центральное внутреннее облако компании. (Зачем это нужно — объясню чуть позже. )Расскажу, как мы проходим этот путь в Авито ↓DevBox PlatformDevBox-решение — это лучшая ML-платформа для дата-сайентиста, но худшая для компании.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





