
Стягивай куда нужно: Activation Steering Tutorial
sad__sabrina 6 часов назад Стягивай куда нужно: Activation Steering Tutorial Сложный 14 мин 5.2K Машинное обучение * Математика * Искусственный интеллект Туториал Привет, друзья! Если вы по запросу "как сделать модель...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: sad__sabrina 6 часов назад Стягивай куда нужно: Activation Steering Tutorial Сложный 14 мин 5. 2K Машинное обучение * Математика * Искусственный интеллект Туториал Привет, друзья! Если вы по запросу "как сделать модель добрее" видите в output-е LLM фразу "рулевое управление" — значит LLM говорит про Steering.
В этом туториале вы:узнаете, что такое steering и на чем он основан;осуществите steering, используя pytorch-hooks;познакомитесь с библиотеками nnsight и pyvene для interventions;И если какое-то слово из bullet-ов было непонятно, они все станут вам понятны к концу. Created by my best friend — Claude. Activation Steering — этоВ research-народье, Activation Steering — это добавление, вычитание или иная трансформация векторов во внутренних состояниях LLM во время forward pass-а.
Технические детали
Steering основан на предположении о том, что у обученной модели есть фиксированные «направления» в латентном пространстве. Activation Steering — это inference-time intervention (вмешательство в модель во время инференса). Мы не меняем веса модели (в отличие от fine-tuning) — мы вмешиваемся в поток вычислений "на лету", пока модель "думает" — то есть генерирует.
Базовая формула:где — steering vector, вектор, кодирующий нужное поведение,— номер слоя, в который мы вмешиваемся, — сила вмешательства. Сдвигаемое поведение должно быть чётко выражено и иметь полярную пару, например:refusal vs compliance;positive sentiment vs negative sentiment;Заметим, что во втором случае "positive" и "negative" определяется контекстом. Классический пример из жизни — то, что "positive" для консервативных людей, явно "negative" для сторонников нового.
Отложим это пока в памяти. В этом туториале мы поставим цель сдвинуть модель в сторону hate-speech. Выбор темы hate-speech обусловлен исследовательским интересом.
Отраслевые последствия
Сдвигать, повторюсь, можно в любое место, выражающее полярность. Примеры из ноутбука не выражают мою личную позицию относительно субъектов высказывания. Что нужно для steering?
Первое — конечно, модель. Для быстрого демо используется небольшая модель gpt2, чтобы ноутбук запускался почти везде. Скрытый текстДля более веселых экспериментов можно заменить MODEL_NAME в ноуктбуке, который я прикреплю ниже на:- gpt2-medium- EleutherAI/pythia-410m- TinyLlama/TinyLlama-1.
0- Llama/Mistral/Gemma open-weight модели, если есть доступ и GPUВыбирайте своё! Contrastive datasetПервый шаг стиринга — конструирование направления. Чтобы его найти, нам нужен набор данных, отражающий сдвигаемую полярность.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





