Vasily_Sizov 32 минуты назад Graph Rag и «Гарри Поттер» Средний 20 мин 1K Блог компании ВТБ Кейс Всем привет! Меня зовут Василий Сизов и я работаю лидером кластера "ML CRM и ML клиентский опыт" в ВТБ. Мы с несколькими...

В сфере искусственного интеллекта произошло заметное событие. Vasily_Sizov 32 минуты назад Graph Rag и «Гарри Поттер» Средний 20 мин 1K Блог компании ВТБ Кейс Всем привет! Меня зовут Василий Сизов и я работаю лидером кластера "ML CRM и ML клиентский опыт" в ВТБ. Мы с несколькими командами разрабатываем как классические модели, так и полноценные сервисы с LLM.

Это история одного пет-проекта на выходные, который вырос в небольшой фреймворк. Я расскажу, как поднять весь ML-стек для RAG одной командой, как разрезать книгу на правильные чанки, как вообще устроен Graph RAG (на примере Microsoft GraphRAG), почему я не смог его приручить — и что в итоге написал сам: Temporal Graph RAG с временными сообществами, составным ключом сущностей и двухуровневым реранкингом. И, конечно, честно сравню его с классическим RAG на живых вопросах по книге.

Технические детали

Будет много схем и таблиц, минимум кода. Зачем я вообще за это взялсяЕсли коротко — сошлись три обстоятельства. Первое: у меня появился личный доступ к внешней H100.

Когда у тебя в руках карта с 80 ГБ памяти, то очень хочется потрогать что-то тяжелее. Второе: у меня запланирован рабочий проект с документами — и там почти наверняка пригодится графовый подход к поиску. Разбираться в новой технологии «в бою», на проде, под горящие сроки — плохая идея.

Хотелось обкатать Graph RAG заранее. Третье: нужен был датасет, который я знаю наизусть и где легко оценить качество ответа. «Гарри Поттер и философский камень» подошёл идеально: связный сюжет, куча персонажей и связей между ними, явная хронология событий — ровно то, на чём графовый поиск должен раскрыться.

Отраслевые последствия

Так и родился этот проект: поднять инфраструктуру, нарезать книгу, построить классический RAG как baseline, разобраться, как работает Graph RAG, и сравнить подходы на конкретных вопросах. Инфраструктура: vLLM + Docker ComposeЧто такое vLLMvLLM (Virtual Large Language Model) — высокопроизводительный фреймворк для инференса LLM. Для нашей задачи важны три его свойства:PagedAttention — управление KV-кэшем на GPU по аналогии с виртуальной памятьюContinuous Batching — запросы динамически дособираются в батч на лету, а не ждут, пока наберётся фиксированный батч.

GPU простаивает минимально. OpenAI-совместимый API — модель сразу доступна по эндпоинтам /v1/chat/completions, /v1/embeddings, /v1/rerank. Никакого своего протокола.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Graph Rag и «Гарри Поттер»

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News