
Не все якори одинаково полезны, или как I2I-рекомендации свежими сохранять
vorobev-iv только что Не все якори одинаково полезны, или как I2I-рекомендации свежими сохранять Средний 9 мин 71 Блог компании VK Машинное обучение * IT-инфраструктура * Высоконагруженные системы * Алгоритмы * Кейс...
В сфере искусственного интеллекта произошло заметное событие. vorobev-iv только что Не все якори одинаково полезны, или как I2I-рекомендации свежими сохранять Средний 9 мин 71 Блог компании VK Машинное обучение * IT-инфраструктура * Высоконагруженные системы * Алгоритмы * Кейс Привет, Хабр! Меня зовут Иван Воробьев, я работаю в команде рекомендаций VK Видео, AI VK. В данной статье хочу рассказать, как и зачем я переделывал систему построения I2I-рекомендаций.
Поговорим о том, какие решения были поставлены в её основу, насколько они оправдались, а также причём тут якори и как они связаны со свежестью рекомендаций. В первую очередь сосредоточимся на бэкенде: организации работы с данными и вычислений, их конфигурациях, и требуемых вычислительных ресурсах. Основной эффект от внедрения новой системы кроется именно тут: удалось обеспечить свежесть I2I-рекомендаций примерно в час, сократив при этом количество используемых ядер в три раза.
Технические детали
Саму логику построения рекомендаций тоже затронем, но в меньшей мере. Что такое I2I, или как отделить машины от котиков Начнем со способов подбора кандидатов для ранжирования. В принципе, стандартным способом персонализированного подбора кандидатов является поиск документов, похожих по эмбеддингу на пользователя.
Однако, у этого способа есть ограничение: если строить один эмбеддинг на пользователя, то в нём будут каким-то образом будут усреднены разные интересы этого пользователя. Это не мешает ранжированию, поскольку там нужны относительные величины, но в случае подбора кандидатов такое усреднение приводит к парадоксальным результатам. Профиль пользователя и ближайшие к нему документыПредположим, что пользователь провзаимодействовал с двумя видео, одно из которых - про котиков, а второе – про машины.
Если построить эмбеддинг пользователя как среднее между эмбеддингами этих видео, и потом найти к нему ближайшее видео, то им может оказаться, например, произвольное юмористическое видео. Так получается, поскольку тот самый эмбеддинг пользователя оказался в достаточно произвольной точке векторного пространства, и конкретно это видео оказалось ближе к ней, чем оба исходных или им подобные. С тем же успехом там могли попасться, например, новости.
Отраслевые последствия
Как же тогда подобрать что-то более релевантное? Например, можно искать видео, похожие на просмотренные пользователем документы-якори. Но искать похожие по эмбеддингу для каждого просмотренного пользователем видео будет достаточно долго.
Впрочем, тут можно воспользоваться тем, что список этих похожих не зависит от самого пользователя. Значит, что такие списки (далее – I2I-рекомендации) можно построить оффлайн, и в рантайме просто доставать готовые результаты. НюансыОтмечу, что как якори можно использовать не только сами документы, но и, например, кластеры документов.
Главное, чтобы сами эти якори были статическими, не зависящими от конкретного пользователя.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





