>>> На главную <<<

Ab-tests

OEC (общий критерий оценки) - количесивенный показатель цели эксперимента (реакция, зависимая переменная, результат, оценка или функция пригодности. Если целей несколько - применяется сбалансированная система показателей.)

Параметр - контроллируемая экспериментальная переменная, которая, как ожидается, влияет на OEC и другие показатели. Иногда называют фактоармси или переменными. Параметрам часто присваивают значения, называемые уровнями. В простом аб-тесте обычно используют один параметр с двумя уровнями, в онлайн-экспериментах обычно используется несколько уровней. Мультивариантные тесты оценивают несколько параметров совместно.

Вариант - тестируемый пользовательский опыт, обычно путем присвоения значений параметрам. В простом аб-тесте варианты А и Б - это два варианта, контрольный и тестовый. Иногда под вариантом понимают только тестовый вариант.

Рандомизатор - псевдослучайный процесс, применяемый к объектам эксперимента для сопоставления их с вариантами.

Три основных постулата для организаций, которые хотят проводить контроллируемые онлайн-эксперименты:

  1. Организация хочет принимать решения на основе данных и официально оформила OEC
  2. Организация готова инвестировать в инфраструктуру и тесты, чтобы проводить эксперименты и гарантировать достоверность
  3. Организация признает, что плохо умеет оценивать значимость целей

Статистическая мощность (statistical power) - вероятность обнаружения значимого различия между вариантами, когда эта разница действительно есть. Каждый эксперимент должен обладать достаточной стат.мощностью, чтобы с высокой вероятностью сделать вывод о том, привел ли эксперимент к более значимым изменеениям, чем предполагалось. Чем больше выборка, тем больше мощность. Обычно эксперимент планируется при мощности 80-90%…

Для разработки эксперимента надо определить следующие вещи:

На длительность экспермента влияют:

Для проведения эксперимента требуется:

Для внедрения результатов необходимо найти компромисс между ценой внедрения и ценностью. Необходимо учитывать стоимость обслуживания после внедрения улучшений. Модель внедрения такая:

  1. результат не является стат.значимым и практически не важен - можно повторить эту идею в тесте или отказаться от нее
  2. результат статистически и практически значим - запускать
  3. результат значим статистически, но не практически. Необходима оценка стоимости и других факторов запуска.
  4. доверительные интерфвалы выходят за рамки практической значимости, статистическая значимость незначительна - недостаточно данных или стат.мощности эксперимента.
  5. результат значим практически, но не статистически. Нужен повторный тест.
  6. результат статистически значим и. вероятно, значим практически - повторить тест.

Закон Тваймана - любая статистика, которая выглядит интересно, почти наверняка неверна. Причины:

Доверительный интервал - количественно определенная степень неопределенности эффекта от измерения. Уровень доверия показывает как часто интервал должен содержать истинный эффект от воздействия.

Внутренняя достоверность - относится к правильности экспериментальных результатов, которые не обобщают на другие популяции или периоды времени. Угрозы:

  1. нарушение правила SUTVA (допущение о стабильном влиянии на экспериментальный объект) - предполагается, что объекты эксперимента не влияют друг на друга
  2. ошибка выжившего - оценка тех, кто дожил до конца эксперимента
  3. вынужденное воздействие - неслучай ное распределение вариантов
  4. несоответствие коэффициента выборки (соотношение объектов между вариантами значительно отличается от задуманного). Это может быть обусловлено редиректами. ботами, различиями в производительности серверов и т.д.

Внешняя достоверность отображает степень, в которой результаты контроллируемого эксперимента могут быть обобщены на другие выборки и с течением времени. Угрозы:

  1. эффект первичности - пользователям может потребоваться время для адаптации к изменеениям
  2. эффект новизны - непродолжительный ээффект, вызванный интересом пользователей к измененеиям

Парадокс Симпсона - если мы проводим эксперимент с накоплением, т.е. имеем два или более периода с разными процентными долями распределения вариантов, объединение результатов может привести к смещенной неверной оценке эффектов воздействия, т.е. тест может быть лучше, чем контроль как в первой. так и во второй фазе, но в целом хуже, когда два периода объединены. Возможна и инверсия парадокса.

Модели зрелости эксперитмента

  1. Запуск - строительство фундамента экспериментальной платформы, подбор экспериментов и базовых методов науки о данных, для вычисления сводной статистики, задействованной в проверке гипотез.
  2. Разбег - переход от проведения нескольких экспериментов к определению стандартных показателей и побуждению организации к проведению дополнительных экспериментов. На этом этапе повышается доверие, проводятся А/А тесты и тесты на соответствие отношения выборок (SRM)
  3. Взлет - переход к масштабному проведению экспериментов. Эксперименты используются для оценки большинства новых функций и измененеия
  4. Полет - А/Б тесты становятся нормой каждого измененеия. Должно анализироваться большинство экспериментов, особенно простых, без помощи специалистов по данным. Акцент смещается на автоматизацию

Организационные показатели экспериментов

Кроме того, могут учитываться показатели активов и вовлеченности (к примеру число пользователей и ценность, которую пользователи получают от сервиса) и бизнес-метрики и операционные показатели (например выручка на пользователя). А еще показатели качества данных, диагностически или отладочные показатели.

Как выбрать показатели? Убедитесь, что целевые показатели:

Убедитесь, что показатели движущих сил:

Как выработать показатели?

При оценке показателей следует:

Показатели экспериментов должны быть:

Как объединять показатели в OEC?

При этом есть четыре подхода к внедрению:

Чтобы объединить метрики в OEC, часто ест ьсмысл сократить их число.

Закон Гудхарда. Любая наблюдаемая статистическая закономерность будет иметь тенденцию разрушаться, как только на нее будет оказано давление в целях контроля. Или, сокращенно, “когда мера становится целью, она перестает быть хорошей мерой”.

Закон Кэмпбелла. Чем чащще какой-либо количественный социальный показатель используется для принятия социальных решений, тем больше он будет подвержен коррупционному давлению и тем более склонен к искажению и разрушению социальных процессов, для отслеживания которых он предназначен. Замечание Лукаса к нему: “взаимосвязи, наблюдаемые в исторических данных, не могут считаться структурными или причинными. Политические решения могут изменить структуру экономических моделей, и корреляции, существовашие исторически, прекратят свое действие”

Метаанализ

Институционная память (institutional memory) - это по сути коллекция всех экспериментов, удачных и не удачных, сведения о внедрении опыта и результатах, которая хранится в компании.

Почему это полезно? Полученные данные можно применять пятью способами:

Этика контроллируемых экспериментов

Дополнительные методы оценки

Анализ на основе логов (ретроспективный анализ) полезен по следующим причинам:

Исследование причинно-следственных связей

Когда контроллируемые эксперименты невозможны?

Планы для для наблюдательных исследований причинно-следственных связей

Прерывистый временной ряд (interupted time series ITS) - квазиэкспериментальный план, в котором возможно контроллировать измерения в своей системе, но невозможно рандомизировать воздействие. Тогда используется одна популяция для теста и контроля и измеряется то, что она испытывает с течением времени.

Наиболее распространенная проблема ITS - это временные эффекты, т.к. сравнения производятся в разное время. Важно так-же гарантировать, что вы не приписываете какой-либо эффект изменению, хотя на самом деле имеется некий совместный эффект. Это можно разрешить путем многократного переключения между воздействием и бездействием.

Другая проблема - взаимодействие с пользователем, в результате которого пользователь может заметить, что их опыт переключается, что может привести к раздражению и недовольству.

Эксперименты с чередованием - план используется для оценки алгоритмов ранжирования. Алгоритм эксперимента чередует рекоторы должен показывать каждый из алгоритмов ранжирования с удалением повторов. В результате сравнивается рейтинг кликов двух алгоритмов.

Способ ограничен, т.к. результаты должны быть однородны. Если, существует предопределенная логика позиционирования или объекты тестирования выглядят по разному - начинаются сложности.

Метод разрывной регрессии (regression discontinuity design, RDD) - план эксперимента, который можно использовать всякий раз, когда существует четкий порог, идентифицирующий исследуемую популяцию. В этом случае мы можем определить популяцию, которая чуть ниже порога как контрольную, а популяцию, которая выше, как тестовую.

В RDD поведение пользователя может быть искажено другими факторами, связанными с тем же порогом

Иеструментальные переменные (instrumental variables, IV) - метод пытается аппроксимировать случайное назначение. Цель состоит в том, чтобы найти инструмент, который позволяет аппроксимировать случайное распределение. Иногда возможно проведение и естественных экспериментов (natural experiments), где практически случайны.

Отбор подобного по склонности (propensity score matching, PSM) - сегментация на основании общих специфических свойств или склонностей к чему либо. Идея заключавется в том ,чтобы гарантировать, что раздличие между контрольной и тестовой популяцией не связано с изменением состава популяции. PSM вместо сопоставления единиц на ковариантах сопоставляет одно число - сформулированную оценку склонности.

Проблема PSM в том, что учитываются только наблюдаемые варианты, неучтенные факторы могут привести к скрытым предубеждениям. Кроме того проблемой является наложение факторов.

Дифференциальная разница (difference in differences, DD или DID) - учитывается разница в контрольной и подопытной группах. Иными словами, групапы могут различаться, но “двигаться параллельно”. Метод обычно используется в географических экспериментах.

Ловушки причинно-следственных связей

Эксперименты на стороне клиента

Различия между серверной и клиентской стороной:

В качестве компромисса предполагается возможность для приложения работать офлайн, а так-же собственное хранилище данных на устройстве. Следствием компромисса является:

>>> На главную <<<