
Могут ли LLM находить flaky‑тесты по одному только коду теста? Разбор одного исследования
SiYa_renko 2 часа назад Могут ли LLM находить flaky‑тесты по одному только коду теста? Разбор одного исследования Простой 5 мин 2.7K Блог компании OTUS Тестирование IT-систем * Искусственный интеллект Машинное обучение...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. SiYa_renko 2 часа назад Могут ли LLM находить flaky‑тесты по одному только коду теста? Разбор одного исследования Простой 5 мин 2. 7K Блог компании OTUS Тестирование IT-систем * Искусственный интеллект Машинное обучение * Аналитика Недавно прочитала исследование про flaky тесты, и оно оказалось интереснее, чем я ожидала.
Вопрос у авторов был довольно простой. Можно ли показать модели только код теста и попросить определить, flaky он или нет? На уровне интуиции идея звучит вполне нормально.
Технические детали
У flaky тестов и правда часто бывают заметные признаки. Где‑то тест завязан на порядок элементов, где‑то есть сомнительные ожидания, где‑то всплывает работа со временем, случайностью или состоянием. Кажется, что модель вполне могла бы научиться такие вещи замечать.
Но чем дальше читаешь статью, тем яснее становится, что проблема тут глубже. И дело не только в качестве самих моделей. Почему подход выглядел многообещающимИнтерес к такой задаче понятен.
Flaky тесты всем портят жизнь. Они шумят в CI, ломают доверие к автотестам, заставляют тратить время на падения, которые потом могут просто не повториться. Перезапускать тесты много раз можно, но это дорого и не всегда удобно.
Отраслевые последствия
Поэтому идея заранее понимать, что тест подозрительный, выглядит очень заманчиво. Flaky‑тесты действительно часто оставляют следы в коде. Например, тест может полагаться на неупорядоченные коллекции, строковое сравнение сериализованного JSON, sleep, хрупкие проверки, завязку на время, shared state и прочие конструкции, которые давно воспринимаются как рискованные.
Ранние работы по этой теме как раз строились на предположении, что у flaky‑тестов есть характерный словарь и что по нему можно обучить классификатор. Тем более что раньше на эту тему уже были работы с довольно красивыми результатами. В одном из ранних исследований на DeFlaker‑бенчмарке даже сообщался MCC 0.
9, то есть картинка выглядела очень обнадёживающей. Отсюда и ощущение, что направление перспективное. Но в этой новой статье как раз хорошо показано, почему к таким цифрам стоит относиться осторожно.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





