
Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду
VitTurov 23 минуты назад Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду Средний 8 мин 480 Искусственный интеллект Машинное обучение * Python * Визуализация данных * Обработка...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
Значимый прорыв формирует отрасль ИИ: VitTurov 23 минуты назад Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду Средний 8 мин 480 Искусственный интеллект Машинное обучение * Python * Визуализация данных * Обработка изображений * Кейс MacBook M3, 16 гигабайт, никакого облака. Свежая Gemma 4 берёт с картинки график и отдаёт CSV. Первые три кейса — идеально.
На четвёртом модель начала врать. И врать аккуратнее, чем говорила правду. ВводнаяВышла Gemma 4 12B Unified — мультимодальная модель, которая читает не только текст, но и картинки.
Технические детали
В квантованном виде она помещается на обычный ноутбук, и мне стало любопытно, что это даёт на практике, а не в бенчмарках. Просто запустить «hello world» неинтересно. Задача была двойная: собрать на этой модели маленький рабочий инструмент — и заодно честно проверить, где у локального зрения предел.
Научился сам — расскажи, как оно на самом деле. Инструмент выбрал такой, чтобы локальность была оправдана, а не «потому что могу»: вытаскивать данные из картинок с графиками и таблицами в CSV. Это то, что нельзя слить в облако, и то, что сразу грузит vision по полной — OCR, чтение осей, разбор структуры.
Дальше по порядку: что за модель и влезает ли в 16 ГБ, поднимается ли на Mac, на какие грабли я наступил, как устроен инструмент — и карта из семи кейсов, где видно, чему верить, а чему нет. Зачем локально, если облако читает лучшеОблачные API распознают картинки точнее и быстрее. Но есть данные, которые нельзя выгружать наружу: внутренние дашборды, отчёты под NDA, в общем, визуализация, которую надо оцифровать, не светя в стороннем логе.
Отраслевые последствия
Тут локальная модель — единственный вариант. Приватность, офлайн, нулевая стоимость инференса. Вопрос один: насколько ей можно верить.
Что берём и влезает ли это в 16 ГБГерой — Gemma 4 12B Unified. Мультимодальная, encoder‑free: проецирует патчи картинки напрямую, без отдельного визуального энкодера. Контекст до 256K, режим рассуждений гасится одним флагом.
В full precision это ~24 ГБ, в 16 не влезает. Беру квантованную:gemma-4-12b-it-UD-Q4_K_XL. gguf — это «глаза», без него модель текстовая — 167 МБ.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





