
75 картинок ablation: как Reddit-критика заставила меня переосмыслить FLUX-LoRA пайплайн
yukakust 16 минут назад 75 картинок ablation: как Reddit-критика заставила меня переосмыслить FLUX-LoRA пайплайн Уровень сложности Простой Время на прочтение 7 мин Охват и читатели 575 Машинное обучение * Искусственный...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. yukakust 16 минут назад 75 картинок ablation: как Reddit-критика заставила меня переосмыслить FLUX-LoRA пайплайн Уровень сложности Простой Время на прочтение 7 мин Охват и читатели 575 Машинное обучение * Искусственный интеллект Open source * Python * Развитие стартапа Кейс Из песочницы TL;DR. io — бесплатную ленту AI-генерации животных в стиле советских спичечных коробков. 2-klein + кастомная LoRA + двухпроходный «sandwich»-пайплайн.
Получил детальный технический комментарий на r/StableDiffusion с двумя конкретными претензиями. Прогнал ablation: 5 вариантов × 5 категорий × 3 сида = 75 картинок . Нашёл дыры в собственном пайплайне — в том числе кириллицу в выходе LoRA (training-set leakage) и полный коллапс LoRA при scale=2.
Технические детали
Текущий sandwich оказался патчем поверх плохо обученной LoRA. Пересобираю датасет на 1500 примеров и ухожу в single-pass. В статье — все картинки, цифры, и почему оба «правильных» совета критика на текущей модели не сработали.
Master comparison grid, seed=42 — 5 variants × 5 animals Master comparison grid, seed=42. Строки — варианты пайплайна (A–E), столбцы — категории животных. Подробный разбор ниже.
io пару недель назад. Идея проще пареной репы: Заходишь на сайт — видишь сетку AI-картинок животных в стиле винтажного советского плаката. Каждые 30 секунд выходит новая.
Отраслевые последствия
Можно лайкать, скачивать, шарить, искать («cat», «owl», «fox»…), генерить свои («peacock»). Бесплатно, без регистрации, без вотермарки. К моменту этой статьи в базе ~6700 картинок.
Пользовательский поиск и кастомные промпты прыгают очередь и подсказывают системе, чего хотят люди — это сигнал спроса. Стек: Frontend: статика (vanilla JS), Caddy Backend: FastAPI + SQLite (WAL) на дешёвой Ubuntu-машине у знакомого FLUX worker: один RTX 3090 на vast. 20/час), запросы через SSH-туннель Caption worker: Qwen2.
5-VL-7B INT4 на вторичной машине Real-ESRGAN для апскейла топовых картинок (Hall of Fame) Stripe для оплаты edit-токенов (Nano Banana 2) Total стоимость генерации одной картинки — около $0. Архитектура «two-pass sandwich» Это центральный технический выбор, который и оказался под огнём. Текущий пайплайн на одну картинку: prompt = "cat" │ ├─ Pass 1: FLUX.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





