
Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM
AntonyZak 16 минут назад Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM Средний 30 мин 562 Блог компании Ростелеком Машинное обучение * Искусственный интеллект...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. AntonyZak 16 минут назад Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM Средний 30 мин 562 Блог компании Ростелеком Машинное обучение * Искусственный интеллект Natural Language Processing * Туториал Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии. Если вам приходилось разбирать большие массивы текстов: отзывов, обращений в поддержку или комментариев, то вы знаете, насколько это трудоемкий процесс.
В статье я покажу, как автоматизировать этот процесс с помощью пайплайна BERTopic: от эмбеддингов и кластеризации до интерпретации тем. Особое внимание уделим тому, как встроить локальную LLM в пайплайн и получить человекочитаемые названия тем. НавигацияКластеризация текстов: задача и архитектура решенияВыбор и настройка средыВыбор и подготовка датасетаИнтеграция в пайплайн эмбеддинг-моделиУменьшение размерностиКластеризация с помощью HDBSCANИнтерпретация кластеров: c-TF-IDF, LLM и KeyBERTInspiredТокенизация (Vectorizer)Выделение ключевых слов с помощью c-TF-IDFИнтерпретация тем (Representation Models)Сборка пайплайна BERTopicВизуализация результатов кластеризацииОценка качества кластеризацииПокрытие кластеризацииСогласованность тем Topic CoherenceРазнообразие тем Topic DiversityУстойчивость Stability (ARI)Анализ тем для определенного отзываОптимизация структуры тем: объединение и работа с шумомЗаключениеКластеризация текстов: задача и архитектура решенияКластеризация текстов — это задача группировки текстов таким образом, чтобы тексты внутри одного кластера были семантически близки, а тексты из разных кластеров — существенно различались.
Технические детали
В отличие от задачи классификации, количество тем заранее неизвестно, и их разметка отсутствует. Процесс начинается с очистки данных, которые часто содержат HTML-тэги, ссылки, лишние пробелы и другой шум, который не несёт смысловой нагрузки, но может исказить результаты кластеризации. После очистки и векторизации текстов недостаточно сразу запустить алгоритм кластеризации.
Возникает несколько ключевых проблем. Во-первых, эмбеддинги, получаемые современными моделями векторизации, имеют высокую размерность (512, 784 и более), что приводит к проблемам с расстояниями в многомерном пространстве и усложняет работу алгоритмов кластеризации. Во-вторых, в реальных данных количество кластеров заранее неизвестно, а распределение текстов по ним может быть неравномерным.
И, наконец, сформировав кластеры, необходимо сделать их интерпретируемыми для человека. Чтобы решить эти проблемы я предлагаю построить следующий пайплайн кластеризации:Подготовка и очистка исходных данных. Создание контекстных эмбеддингов моделью FRIDA.
Снижение размерности векторов методом UMAP. Иерархическая плотностная кластеризация алгоритмом HDBSCAN. Интерпретация тем с помощью c-TF-IDF и LLM.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





