
Почему промпты для VLM работают наоборот: как это исправить
Qwertcoser 10 минут назад Почему промпты для VLM работают наоборот: как это исправить Сложный 9 мин 373 Машинное обучение * Программирование * Алгоритмы * Python * Кейс Recovery ModeПеревод Автор оригинала: Suresh R...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: Qwertcoser 10 минут назад Почему промпты для VLM работают наоборот: как это исправить Сложный 9 мин 373 Машинное обучение * Программирование * Алгоритмы * Python * Кейс Recovery ModeПеревод Автор оригинала: Suresh R Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто от изменения порядка: сначала изображение, потом текст. Просто перестановка блоков.
Трансформеры используют позиционное кодирование, но модель видит те же пиксели и те же слова. Порядок не должен так сильно влиять. Я проверил, оказалось, автор был прав.
Технические детали
| Если вам интересна тема AI‑агентов и внедрения нейросетей, заглядывайте в мой Telegram‑канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых. | Результаты в двух словахПростая перестановка входных данных изображение перед текстом вместо текста перед изображением — даёт прирост точности 13–18%.
Без изменений в модели, без дополнительных вычислений. Только другой порядок. Вот что получилось на 89 образцах OCR:Qwen3-VL-2B-instruct: 0.
4%)Gemma-3-4B-instruct: 0. 5%)Оба результата статистически значимы p < 0. Одна и та же модель и данные, разный порядок и внезапно теряешь двузначный прирост, если следуешь «стандартному» подходу.
Отраслевые последствия
Что меняетсяКогда вызываешь vision-language модель через OpenAI-совместимый API, отправляешь массив messages. В каждом сообщении можно передать и текст, и изображения, но порядок этих блоков выбираешь сам. Модель получает те же пиксели и те же слова.
Меняется только последовательность: какие токены попадают в трансформер первыми. Я думал, что разница будет минимальной, однако нет. Эксперимент: OCRBench v2Нужен был датасет, который действительно проверяет модель на прочность, а не просто подтверждает, что она умеет читать чистый текст.
Для этого подошёл OCRBench v2 — набор тестов от идеальных документов до кошмаров вроде ASCII-арта, капч и неразборчивого почерка. Вот с чем приходится работать моделям:Задачи в OCRBench v2 Если модель будет ошибаться или ломаться, то именно на таких образцах. Это идеальный полигон для проверки, влияет ли порядок входных данных на результат.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





