
Выбираем и оцениваем open-source LLM для саммаризации встреч
JDTapp 14 минут назад Выбираем и оцениваем open-source LLM для саммаризации встреч Уровень сложности Простой Время на прочтение 5 мин Охват и читатели 523 Блог компании Doubletapp Natural Language Processing * Машинное...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. JDTapp 14 минут назад Выбираем и оцениваем open-source LLM для саммаризации встреч Уровень сложности Простой Время на прочтение 5 мин Охват и читатели 523 Блог компании Doubletapp Natural Language Processing * Машинное обучение * Кейс Recovery Mode Публичные бенчмарки LLM дают ориентиры по общему уровню моделей, но не отвечают на вопрос, как они ведут себя в конкретной задаче. А прикладные сценарии чувствительны к деталям: формату входных данных, структуре ответа, требованиям к точности. В этих условиях различия между моделями становятся более заметными.
Даже у близких по классу моделей небольшие различия в архитектуре и обучении дают заметный разброс в качестве ответов . Качество моделей сильно зависит от типа задачи — одни лучше следуют инструкциям, другие лучше формулируют текст, третьи реже галлюцинируют. Одна и та же модель может быть сильной в reasoning-задачах и значительно слабее в саммаризации или QA .
Технические детали
В этой статье расскажем, как оценивали открытые модели для создания саммари записей встреч и поделимся метриками, которые отражают полезность результата для бизнес-процессов заказчика. Содержание Что мы сделали Как это работает Как это устроено технически Результат Что мы сделали Наш заказчик, компания FollowUP, создаёт сервис для автоматического протоколирования и анализа рабочих встреч. Команде разработчиков Doubletapp нужно было разработать систему, которая позволяет сравнивать open-source LLM в рамках конкретной бизнес-задачи — генерации саммари.
Как это работает Мы заменили универсальные бенчмарки на прикладную систему оценки, заточенную под корпоративные данные. Оценка качества строится по двум направлениям: Полнота саммари Для каждой транскрипции автоматически формируется набор контрольных вопросов: какие задачи обсуждались, какие решения были приняты, какие договорённости зафиксированы. Далее проверяется, насколько саммари покрывает эти вопросы.
Так мы измеряем прикладную полезность текста — можно ли из него восстанавливать содержание встречи. Достоверность Из саммари выделяются ключевые утверждения и сопоставляются с исходной транскрипцией. Это позволяет: фиксировать галлюцинации, проверять фактическую точность, контролировать риск искажения договорённостей.
Отраслевые последствия
Изначально рассматривались готовые решения оценки (включая RAGAS), но они оказались недостаточно точными в генерации вопросов именно под контекст деловых коммуникаций. Поэтому мы разработали собственную методику — она учитывает специфику разговорных данных, лучше отражает бизнес-смысл встречи и даёт стабильную сравнимость моделей. Как это устроено технически Под капотом — повторяемый процесс из четырёх шагов: Берем набор транскрипций, собранных из различных открытых источников.
Прогоняем через них тестируемую модель и получаем саммари. В одной и той же системе сравниваем и локальные открытые модели (Qwen, Mistral, Llama, Gemma), и коммерческие API (GPT-5, GPT-4. 1) — для нас это просто разные источники саммари.
По каждой транскрипции отдельно более сильная модель-судья (GPT-4.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





