
Перевод: LLMs Corrupt Your Documents When You Delegate от Microsoft
catprokhorova 5 минут назад Перевод: LLMs Corrupt Your Documents When You Delegate от Microsoft Уровень сложности Средний Время на прочтение 27 мин Охват и читатели 203 Natural Language Processing * Искусственный...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. catprokhorova 5 минут назад Перевод: LLMs Corrupt Your Documents When You Delegate от Microsoft Уровень сложности Средний Время на прочтение 27 мин Охват и читатели 203 Natural Language Processing * Искусственный интеллект Перевод Автор оригинала: Microsoft Research Это перевод научной статьи от исследователей компании Microsoft. Статья была опубликована 17 апреля 2026 года. источник Большие языковые модели (LLM) готовы кардинально изменить сферу интеллектуального труда за счёт появления делегированной работы как новой парадигмы взаимодействия (например, «vibe coding»).
Делегирование требует доверия — ожидания, что LLM добросовестно выполнит задачу, не добавляя ошибок в документы. Мы представляем DELEGATE-52 для изучения готовности систем ИИ к делегированным рабочим процессам. Эта модель создаёт длинные делегированные рабочие процессы, требующие глубокого редактирования документов в 52 профессиональных областях, таких как программирование, кристаллография и нотная запись.
Технические детали
Наш крупномасштабный эксперимент с 19 LLM показывает, что современные модели ухудшают качество документов при делегировании: даже передовые модели (Gemini 3. 4) повреждают в среднем 25% содержания документов к концу длинных рабочих процессов, а другие модели дают еще более серьезные сбои. Дополнительные эксперименты показывают, что использование инструментов агентов не влияет на производительность DELEGATE-52.
Ухудшения качества напрямую зависит только от размера документа, продолжительностью взаимодействия или наличия файлов-отвлекателей. Наш анализ показывает, что современные LLM являются ненадежными: они вводят редкие, но серьезные ошибки, которые незаметно повреждают документы, накапливаясь в ходе длительного взаимодействия. Рисунок 1: Наглядные примеры того, как большие языковые модели (LLM) повреждают документы в ходе длительных рабочих процессов в тесте DELEGATE-52.
При редактировании файлов, содержащих графические диаграммы, узоры или 3D-объекты, LLM вносят редкие, но серьезные ошибки, которые незаметно повреждают документы, а их последствия накапливаются в ходе длительного взаимодействия. Введение Последние достижения в области больших языковых моделей (LLM) открывают путь к новым парадигмам взаимодействия, таким как делегирование задач (Shao et al. , 2025), когда специалисты контролируют работу LLM, выполняющих задачи от их имени (например, «vibe coding»).
Важно отметить, что пользователи, делегирующие работу, могут не иметь достаточной экспертизы или времени для проверки изменений, внедрённых LLM, и вынуждены доверять тому, что LLM не вносит ошибок, таких как галлюцинации или удаления. Жизнеспособность такой делегированной работы зависит от способности LLM выполнять задачи и манипулировать документами в конкретной области без ошибок. Мы изучаем с помощью моделирования готовность современных LLM к делегированной работе в широком спектре профессий.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





