
С чего начать тестирование LLM: 5 проверок из практики
VeronLezh 14 минут назад С чего начать тестирование LLM: 5 проверок из практики Простой 4 мин 567 Тестирование IT-систем * Искусственный интеллект Машинное обучение * Туториал Пять проверок — первое, что я делаю на...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: VeronLezh 14 минут назад С чего начать тестирование LLM: 5 проверок из практики Простой 4 мин 567 Тестирование IT-систем * Искусственный интеллект Машинное обучение * Туториал Пять проверок — первое, что я делаю на новом LLM-проектеВам дали фичу на LLM — чат-бот, агент, голосовой ответчик. Привычное «шаг 1, шаг 2, ожидаемый результат» не работает: ответы плавают, эталона нет, а «зелёный прогон» вчера ничего не гарантирует сегодня. В я разбирала, почему классический QA ломается на LLM.
Но между «я понял проблему» и «я пишу фреймворк» есть пропасть: а что конкретно проверить в первую неделю? Вот 5 проверок, с которых я начинаю на каждом новом LLM-проекте. Без кода, без фреймворков — только подход.
Технические детали
Код будет потом, когда станет ясно, что именно автоматизировать. Задайте один и тот же вопрос 10 разЗачем. Убедиться, что вы понимаете масштаб недетерминизма вашей системы, а не абстрактной LLM из статей.
Возьмите один типичный запрос пользователя — не синтетический, а реальный. Отправьте его 10 раз подряд, ничего не меняя. На что смотреть:Все 10 ответов корректны, но сформулированы по-разному?
— Это норма, но ваш expected == actual тут не работает. — Это не «шум», это частота дефекта. Именно так я обнаружила проблему на голосовом ответчике: 4 из 10 прогонов одного и того же запроса распознавались неверно, и дальше весь ответ менялся.
Отраслевые последствия
В классике это было бы «не воспроизводится» и в итоге закрыто. Здесь 4 из 10 — это дефект, который нужно мерить, а не воспроизводить. Вывод из проверки: вы получите число — ваш baseline нестабильности.
Без него вы не отличите баг от нормы. Спросите то, чего система знать не должнаЗачем. Проверить, что система умеет говорить «не знаю», а не уверенно выдумывать.
Задайте вопрос, ответа на который нет в базе знаний / контексте / домене системы. Например: если бот отвечает про тарифы банка — спросите про рецепт борща или про тариф, которого не существует. На что смотреть:Отказался отвечать или честно сказал «не знаю»?
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





