
OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов
Alt_Tab 7 минут назад OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов Уровень сложности Простой Время на прочтение 8 мин Охват и читатели 25 Блог компании Raft Машинное...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. Alt_Tab 7 минут назад OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов Уровень сложности Простой Время на прочтение 8 мин Охват и читатели 25 Блог компании Raft Машинное обучение * Обработка изображений * Искусственный интеллект Кейс Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions . В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров.
Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе». Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать. Установка и версионный ад Первое, с чем приходится столкнуться это не качество распознавания, а окружение.
Технические детали
Модель не всегда запускается из коробки. Установка часто превращается в перебор зависимостей: возникают конфликты версий библиотек (в первую очередь transformers и связанных компонентов), из-за чего даже базовый запуск требует нескольких попыток. Особенно это заметно при запуске через vLLM.
Формально это один из самых удобных способов развертывания, но на практике именно здесь чаще всего проявляются проблемы совместимости. В моём случае только на то, чтобы добиться первой корректной генерации без ошибок, ушло около 1–2 часов. Фактически, это выглядит так: не pip install и поехали , а ручная настройка среды под конкретную конфигурацию.
Без подготовки можно потратить больше времени на окружение, чем на саму работу с OCR. Промпт и поведение модели По практическим наблюдениям, промпт это 80% успеха стабильной работы HunyuanOCR. Проще и надёжнее использовать формулировки на китайском языке: несмотря на то, что модель понимает английский, на родных для неё промптах она работает значительно стабильнее, реже галлюцинирует и меньше склонна к зацикливанию.
Отраслевые последствия
Также критически важен формат вывода. Markdown при работе с таблицами часто плывёт, в то время как HTML лучше сохраняет исходную геометрию ячеек. Вот эволюция моего подхода к промптам: 1.
Первый тест (базовый): 請嚴格提取圖片中的所有文字,按原文順序輸出。 不要翻譯,不要總結,不要改寫,不要糾錯,不要補全。 盡量保留原始換行、段落、標點和閱讀順序。如果有表格,只按原樣輸出表格內容,不要生成多余空表格,不要擴展內容。 如果無法確定某部分內容,請留空或跳過,不要猜測。輸出只包含識別結果。 2. Вариант от разработчиков: 請提取圖片中正文的所有信息,並按閱讀順序輸出為 Markdown。 頁眉和頁腳請忽略。表格請輸出為 HTML。 不要翻譯,不要總結,不要改寫,不要糾錯,不要補全。 不要生成空表格,不要重復同一內容。輸出只包含識別結果。 3. Мой универсальный промпт (для текста и таблиц): 請完整提取圖片中的所有文字,嚴格按原文輸出。 不要翻譯,不要總結,不要改寫,不要糾錯。 盡量保持原始排版、段落、換行、標點和閱讀順序。 Почему это важно: если модель начинает зацикливаться (бесконечно повторять один и тот же паттерн в конце документа), это часто лечится именно уточнением задачи в промпте.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





