
Switchback-тесты: инфраструктура для экспериментов в условиях сетевых эффектов
DanikNik 17 минут назад Switchback-тесты: инфраструктура для экспериментов в условиях сетевых эффектов Простой 17 мин 549 Блог компании AvitoTech Тестирование IT-систем * Тестирование веб-сервисов * Статистика в IT Big...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. DanikNik 17 минут назад Switchback-тесты: инфраструктура для экспериментов в условиях сетевых эффектов Простой 17 мин 549 Блог компании AvitoTech Тестирование IT-систем * Тестирование веб-сервисов * Статистика в IT Big Data * Обзор Меня зовут Даниил Никольский, я бэкенд-инженер команды Trisigma. В создании статьи участвовали Искандер Мирмахмадов, руководитель продуктового направления, и Александр Кузнецов, старший аналитик. В этой статье я расскажу про Switchback-эксперименты, рассмотрим как они устроены, почему для него не подходит обычный t-тест, и какая инфраструктура нужна, чтобы проводить такие эксперименты в промышленном масштабе.
Решение доступно всем желающим по ссылке, а тут можно познакомиться с подробной технической документацией. В этой статье: Когда классический A/B ломаетсяПрактические кейсыПопытка №1: делим водителей по user_idПопытка №2: Москва — тест, Санкт-Петербург — контрольПопытка №3: один город, разные районыПопытка №4: тасуем районы во времениАнатомия Switchback: геохрон, окна, перетекание эффектаЧто такое геохрон и почему это first-class citizenCluster ID — это просто строкаSpillover effect и параметры Burn-in / Burn-outПочему обычный t-test не подходитКак Trisigma сделала платформу для SwitchbackЧто аналитик может настроитьГлавное архитектурное решение: материализация назначенийAPI: один контракт, две стратегииЧто нужно от клиента – только cluster_idТа же фабрика метрик, что и для обычных A/BГде Switchback работает, а где лучше быть аккуратнымRoadmapЗаключениеКогда классический A/B ломается Мы знаем, что классический A/B-тест опирается на предположение о независимости единиц эксперимента. Если пользователь из тестовой группы не влияет на пользователя из контрольной, оценки работают корректно.
Технические детали
Однако в ряде предметных областей это условие нарушается системно. Давайте разбираться подробнее. Это может быть:Конкуренция за общий ресурсВ таком сценарии, пользователи из разных групп претендуют на один и тот же ограниченный ресурс.
Типичные примеры — каршеринг и кикшеринг (машины, самокаты), рекламные биржи (слоты для показов), сервисы доставки. Когда тестовая и контрольная группы борются за одни и те же объекты, эффект воздействия перетекает из группы в группу. Тестовая группа не генерирует дополнительный спрос, а перехватывает ресурс у контрольной.
Оценка среднего эффекта воздействия, Average Treatment Effect (ATE), оказывается систематически смещённой. Распространение информацииВ данном случае, участники теста узнают об условиях, в которых находятся другие участники, и меняют свое поведение. Это характерно для социальных сетей, маркетплейсов с отзывами, сервисов с видимыми ценами или рейтингами.
В данном случае, под «маркетплейсами» подразумевается бизнес-модель, в которой взаимодействуют два типа аудиторий. Например: селлеры и баеры, водители и пользователи, репетиторы и ученики и т.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




