Fakeonomics 32 минуты назад Четыре грабли, один вихрь и 60% на CIFAR-10 с M0+ Средний 2 мин 339 Искусственный интеллект Программирование микроконтроллеров * Кейс Продолжение цикла. До этого были базовые цифры и анонс 5...

Значимый прорыв формирует отрасль ИИ: Fakeonomics 32 минуты назад Четыре грабли, один вихрь и 60% на CIFAR-10 с M0+ Средний 2 мин 339 Искусственный интеллект Программирование микроконтроллеров * Кейс Продолжение цикла. До этого были базовые цифры и анонс 5 архитектур. Теперь - что сломалось, как чинили, что узнали.

GraphKAN: полный датасет меняет всёВ прошлых постах я показывал 96. 15% на MNIST на 10K сабсете. Переход на полный датасет (60K) - 94.

Технические детали

46% после 20 эпох float + 5 STE. Нашёл баг: ternary_map=0 - +1 молча обнулялся на unpack. 73% (30 эпох float + 10 STE, полный датасет, 49 минут).

CNN Fashion: аугментация + cosine annealingБыло 87-88%. Схема 10+20+5+10 эпох с аугментацией и cosine annealing дала 90. Тернарная версия не потеряла точность - выиграла 0.

ViT: история про взрыв дисперсииПервая попытка: loss 8. Копаю - attention scores в one-hot, градиенты нулевые. Причина: ternary Q/K/V без нормализации выхода дают variance на порядки выше, чем нужно.

Отраслевые последствия

Фикс - learnable per-projection scaling: log_scale_qk, log_scale_v, log_scale_o, log_scale1, log_scale2. Пять параметров, каждый учится гасить variance до входа в softmax. Не SOTA, но для микроконтроллера без FPU - честно.

RNN/LSTM: не взлетелоSMNIST, 28 шагов по пикселям. Float на той же архитектуре - ~25%. Причина: hidden_dim=64 не тянет 28 шагов.

Нужно 128-256, но это 4-8x больше параметров. Тернарность тут ни при чём. C-кодогенерация: все пять под Unicorn5 архитектур генерируются в C11, компилируются под cortex-m0plus, прогоняются через Unicorn.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Четыре грабли, один вихрь и 60% на CIFAR-10 с M0+

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News