
Внутри метастора S3 в One-Cloud
HooinKema 13 минут назад Внутри метастора S3 в One-Cloud Средний 16 мин 545 Блог компании VK Хранение данных * IT-инфраструктура * Кейс Как мы пришли к локальному скану, фильтру Блума и переезду очереди на Kafka — и...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: HooinKema 13 минут назад Внутри метастора S3 в One-Cloud Средний 16 мин 545 Блог компании VK Хранение данных * IT-инфраструктура * Кейс Как мы пришли к локальному скану, фильтру Блума и переезду очереди на Kafka — и почему это всё случилось Привет, Хабр. Я Данил Кислов, разработчик команды хранилищ. У нас в One-cloud (внутренняя корпоративная облачная платформа) лежит собственная S3-совместимая реализация — one-object-storage.
Хочу рассказать, как эволюционировал метастор S3 — та часть, что отвечает за метаданные объектов: списки версий, индексы, настройки бакетов и прочую служебную мелочь. История начинается с того, что система, построенная под одни требования, перестаёт им соответствовать и постепенно адаптируется к новым. Почти каждое дальнейшее решение — компромисс, который приехал под конкретную боль на конкретном масштабе.
Технические детали
И почти у каждого есть свои плюсы и минусы. Что мы держимЧтобы было понятно, о каком масштабе речь. На сегодня one-object-storage обслуживает десятки кластеров и хранит миллиарды объектов с совокупным объёмом в диапазоне десятков петабайт.
Ежедневно система обрабатывает несколько петабайт на чтение и сотни терабайт на запись и удаление. Метастор развёрнут примерно на тысяче хостов с десятками тысяч ядер процессоров. Решением пользуется множество внутренних продуктов и сервисов группы компаний.
Что такое S3 и из чего он состоитS3 — это объектное хранилище данных от Amazon. Формальной спецификации в привычном смысле у него нет, есть только референс — поведение оригинального Amazon S3, под которое подстраиваются альтернативные реализации. Те, что повторяют этот референс, называются S3-совместимыми.
Отраслевые последствия
One-object-storage — одна из таких реализаций. Базовая клиентская часть S3 описывается через HTTP API: GetObject, PutObject, DeleteObject и DeleteObjects для массовых удалений, CopyObject, ListObjects. То есть это не файловая система, а именно API над объектами: положить, забрать, удалить, скопировать, отдать список.
Помимо клиентских HTTP-запросов, у S3 есть фоновые задачи. Главная — lifecycle rules, правила жизненного цикла объектов: Transition action, Expiration action, Expire noncurrent, Expire after days и after date, AbortIncompleteMultipartUpload, ExpiredObjectDeleteMarker. И отдельно идёт статистика, нужная для мониторинга, биллинга и квотирования.
Сразу отмечу: в нашей истории статистика не декоративная фича и станет одной из причин, по которой одного периодического снапшота окажется мало. Шаблон S3-хранилища и кто в роли когоАрхитектурно S3-хранилище удобно представить как четыре блока. Client стучится в API S3 — это сервис, отвечающий за поведение S3.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





