Skip to content
SezgiX
Loading…
Можно ли пересадить алгоритм из маленькой модели в LLM? Эксперимент с grokking, residual stream и линейной проекцией