
Делаем фреймворк Meta-Spider на основе мета-внимания
Imperius14 1 час назад Делаем фреймворк Meta-Spider на основе мета-внимания Средний 12 мин 1.9K Машинное обучение * Искусственный интеллект Кейс Spider-GwenЭто прямое продолжение статьи "meta-attention is all you need"....
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: Imperius14 1 час назад Делаем фреймворк Meta-Spider на основе мета-внимания Средний 12 мин 1. 9K Машинное обучение * Искусственный интеллект Кейс Spider-GwenЭто прямое продолжение статьи "meta-attention is all you need". Рекомендую ее прочитать перед тем как продолжить, но это необязательно, экскурс в архитектуру мы проведем.
В первой статье я подробно расписал идею, и опубликовал все исходники экспериментов, но "исходники" это просто весь написанный код, без какой либо системы, в том числе с разными реализациями одних и тех же компонентов. Поэтому будет представлен фреймворк с заготовленным набором инструментов, который вы сможете опробовать в работе с LLM, в том числе в агентных сценариях. Так же будут предоставлена готовая легкая обученная обвязка для моделей, один малыш (Qwen-3.
Технические детали
5-4b) и среднячок (Granite 4. Все их можно будет запустить через llama. Со-автор и со-разработчик идеи и фреймворка - Claude Opus 4.
Все исходники, как обычно, будут приведены в конце. Рабочая ли это концепция? Все описанные идеи (насколько я могу судить по поиску) авторские.
В первую очередь я хочу, чтобы толковые спецы дали обратную связь по моим наработкам, именно поэтому эта статья и пишется. Я допускаю, что могу ошибаться, в конце концов это просто пет-проект, разрабатываемый программистом-одиночкой в свободное от работы время. Описанные эксперименты вы можете проверить сами.
Отраслевые последствия
То же можно сказать насчет фреймворка. Это наверное один из самых интересных проектов, которые я делал за всю свою 4-летнюю карьеру программиста, и по обьему она получилась соответствующая. Я пытался выявить все баги и даже разыграл роль тестировщика-пользователя, но косяки все равно могли пролезть.
Чего стоит ждатьМы продолжаем экспериментировать с механизмом мета-внимания для больших языковых моделей на основе трансформеров. На этот раз будет представлен фреймворк, который состоит из четырех ключевых компонентов. Meta-Core - ядро фреймворка, его функционал используют остальные компонентыMeta-Loom - конвейер обучения и проверки модели Meta-Agent - использование модификатора или группы модификаторов поведения в агентных сессиях и в чате.
Meta-Deploy - компонент для работы обвязки мета-внимания на выбранной модели через llama. cppПока у фреймворка есть только один модификатор поведения - это Скептик (Doubter). Он усиливает неуверенность модели, что приводит к тому, что модель начинает гораздо меньше врать.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




