MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95

TL;DR. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифтом распределения и сколько стоит держать её живой. Три оси: $/1M...

Related Prediction Markets

Anthropic — What company has the best second artificial intelligence model at the end of June?

→

В сфере искусственного интеллекта произошло заметное событие. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифтом распределения и сколько стоит держать её живой. Три оси: $/1M успешных решений, часы до деградации без ретрейна, p99-латентность сенсор→актуатор под 40 °C. 30 суток непрерывного инференса, 5 сидов, два температурных профиля, sensitivity-анализ.

На closed-loop manipulation наш агент (Metabolic AI, non-transformer) против Llama-class 7B INT8 показал 9. 5× по выживанию под дрифтом, ~1600× композитно. Архитектура закрыта — патент на стадии экспертизы.

Бенч открытый: харнесс, сцены, оракул, sensitivity-скрипты, опубликованный VAE-энкодер дрифта. Прогоните своих агентов и положите рядом. PDF с полной методологией и threats to validity — в конце статьи.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

SezgiX News — sezgix.com

MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95

Related Prediction Markets

Related News