yeetmq 1 час назад Параллельность RNN? Сложный 6 мин 3.5K Python * Математика * Машинное обучение * Научно-популярное Искусственный интеллект Обзор Из песочницы Смотрели итоги прошедшего ICLR? Меня заинтересовала...

В сфере искусственного интеллекта произошло заметное событие. yeetmq 1 час назад Параллельность RNN? 5K Python * Математика * Машинное обучение * Научно-популярное Искусственный интеллект Обзор Из песочницы Смотрели итоги прошедшего ICLR? Меня заинтересовала довольно провокационная, на первый взгляд, статья от Эплов — ParaRNN.

Казалось бы, параллельность РНН — это их главный недостаток, благодаря которому их заменили трансформеры (в большинстве задач). Так вот, давайте разберемся со всем, на максимально низком уровне, если знаете, что такое RNN и производная — то эта статья для вас. Алгоритм DEERDEER = Deep Equilibrium Evaluation of Recurrence (Lim et al.

Технические детали

Базовый алгоритм, на котором строится ParaRNN. Постановка как задача нахождения корняПусть у нас есть обыкновенная RNN с переходной функцией , начальным состоянием и неизвестными состояниями . Введем остаток (residual):Истинная траектория - это единственное решение уравнения:Когда говорят «применить RNN к последовательности», имеют в виду стандартную процедуру: взять начальное состояние , применить переходную функцию , получить , потом еще раз применить , получить , и так далее:Соответственно, получается, что - вектор, у которого все элементы равны 0, опять же потому что при соблюдении рекуррентности и .

Итерации НьютонаСоответственно дальше, необходимо найти решение уравнения , или в полном случае — вектор, решающий систему уравнений. Но для начала разберемся со скалярным случаем. Скалярный случай: одно уравнение от одной переменнойПусть у нас есть гладкая функция и мы хотим найти такое , что .

Геометрически — найти точку, где график функции пересекает ось абсцисс. Идея метода Ньютона строится на простой мысли: в малой окрестности точки гладкая функция почти неотличима от своей касательной. Если мы стоим в текущем приближении (которое, в общем случае, не корень — там ), мы можем сделать вид, что — это ее касательная в этой точке, и для такой линейной функции легко аналитически найти, где она пересекает ось.

Касательная к в точке — это первое слагаемое разложения Тейлора:Вспомним: Разложение Тейлора — это способ приблизить любую гладкую функцию вблизи точки многочленом:где каждое следующее слагаемое уточняет приближение, добавляя информацию о все более тонкой особенности формы функции (наклон, кривизна, и т. Логический смысл такой: если функция гладкая, то ее поведение в окрестности точки полностью закодировано в значениях ее производных в этой одной точке — измерив несколько чисел в , мы можем восстановить значения функции рядом. Делитель возникает естественно из требования, чтобы в точке совпадали все производные многочлена и самой функции (он сокращается с факториалом, выскакивающим при -кратном дифференцировании ).

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Параллельность RNN?

Технические детали

Related Prediction Markets

Related News