Ab-tests

Теги: tests 

OEC (общий критерий оценки) - количесивенный показатель цели эксперимента (реакция, зависимая переменная, результат, оценка или функция пригодности. Если целей несколько - применяется сбалансированная система показателей.)

Параметр - контроллируемая экспериментальная переменная, которая, как ожидается, влияет на OEC и другие показатели. Иногда называют фактоармси или переменными. Параметрам часто присваивают значения, называемые уровнями. В простом аб-тесте обычно используют один параметр с двумя уровнями, в онлайн-экспериментах обычно используется несколько уровней. Мультивариантные тесты оценивают несколько параметров совместно.

Вариант - тестируемый пользовательский опыт, обычно путем присвоения значений параметрам. В простом аб-тесте варианты А и Б - это два варианта, контрольный и тестовый. Иногда под вариантом понимают только тестовый вариант.

Рандомизатор - псевдослучайный процесс, применяемый к объектам эксперимента для сопоставления их с вариантами.

Три основных постулата для организаций, которые хотят проводить контроллируемые онлайн-эксперименты:

  1. Организация хочет принимать решения на основе данных и официально оформила OEC
  2. Организация готова инвестировать в инфраструктуру и тесты, чтобы проводить эксперименты и гарантировать достоверность
  3. Организация признает, что плохо умеет оценивать значимость целей

Статистическая мощность (statistical power) - вероятность обнаружения значимого различия между вариантами, когда эта разница действительно есть. Каждый эксперимент должен обладать достаточной стат.мощностью, чтобы с высокой вероятностью сделать вывод о том, привел ли эксперимент к более значимым изменеениям, чем предполагалось. Чем больше выборка, тем больше мощность. Обычно эксперимент планируется при мощности 80-90%…

Для разработки эксперимента надо определить следующие вещи:

  • единицу рандомизации
  • популяцию единиц рандомизации
  • размер (по охвату) эксперимента
  • длительность эксперимента
  • насколько безопасен эксперимент
  • надо-ли разделять трафик с другими экспериментами

На длительность экспермента влияют:

  • рост числа пользователей
  • эффект недели/времени дня
  • сезонность
  • эффект новизны и первичности

Для проведения эксперимента требуется:

  • инструмент записи и получения данных журналов
  • инфраструктура для организации тестов (конфигуратор тестов, назначение вариантов и т.д.)

Для внедрения результатов необходимо найти компромисс между ценой внедрения и ценностью. Необходимо учитывать стоимость обслуживания после внедрения улучшений. Модель внедрения такая:

  1. результат не является стат.значимым и практически не важен - можно повторить эту идею в тесте или отказаться от нее
  2. результат статистически и практически значим - запускать
  3. результат значим статистически, но не практически. Необходима оценка стоимости и других факторов запуска.
  4. доверительные интерфвалы выходят за рамки практической значимости, статистическая значимость незначительна - недостаточно данных или стат.мощности эксперимента.
  5. результат значим практически, но не статистически. Нужен повторный тест.
  6. результат статистически значим и. вероятно, значим практически - повторить тест.

Закон Тваймана - любая статистика, которая выглядит интересно, почти наверняка неверна. Причины:

  • нехватка стат.мощности
  • неверная интерпретация p-значений
  • отслеживание p-значений
  • множественные проверки одной гипотезы (использование разных методов для получения ожидаемого результата)

Доверительный интервал - количественно определенная степень неопределенности эффекта от измерения. Уровень доверия показывает как часто интервал должен содержать истинный эффект от воздействия.

Внутренняя достоверность - относится к правильности экспериментальных результатов, которые не обобщают на другие популяции или периоды времени. Угрозы:

  1. нарушение правила SUTVA (допущение о стабильном влиянии на экспериментальный объект) - предполагается, что объекты эксперимента не влияют друг на друга
  2. ошибка выжившего - оценка тех, кто дожил до конца эксперимента
  3. вынужденное воздействие - неслучай ное распределение вариантов
  4. несоответствие коэффициента выборки (соотношение объектов между вариантами значительно отличается от задуманного). Это может быть обусловлено редиректами. ботами, различиями в производительности серверов и т.д.

Внешняя достоверность отображает степень, в которой результаты контроллируемого эксперимента могут быть обобщены на другие выборки и с течением времени. Угрозы:

  1. эффект первичности - пользователям может потребоваться время для адаптации к изменеениям
  2. эффект новизны - непродолжительный ээффект, вызванный интересом пользователей к измененеиям

Парадокс Симпсона - если мы проводим эксперимент с накоплением, т.е. имеем два или более периода с разными процентными долями распределения вариантов, объединение результатов может привести к смещенной неверной оценке эффектов воздействия, т.е. тест может быть лучше, чем контроль как в первой. так и во второй фазе, но в целом хуже, когда два периода объединены. Возможна и инверсия парадокса.

Модели зрелости эксперитмента

  1. Запуск - строительство фундамента экспериментальной платформы, подбор экспериментов и базовых методов науки о данных, для вычисления сводной статистики, задействованной в проверке гипотез.
  2. Разбег - переход от проведения нескольких экспериментов к определению стандартных показателей и побуждению организации к проведению дополнительных экспериментов. На этом этапе повышается доверие, проводятся А/А тесты и тесты на соответствие отношения выборок (SRM)
  3. Взлет - переход к масштабному проведению экспериментов. Эксперименты используются для оценки большинства новых функций и измененеия
  4. Полет - А/Б тесты становятся нормой каждого измененеия. Должно анализироваться большинство экспериментов, особенно простых, без помощи специалистов по данным. Акцент смещается на автоматизацию

Организационные показатели экспериментов

  • целевые показатели (goal metrics), метрики успеха или показатели истинного севера, отражают то, что в конечном итоге волнует компанию.
  • показатели движущей силы (driver metrics) или метрики дорожного указателя или суррогатные или косвенные метрики- более краткосрочные метрики, отражают причинно-следственную модель того, что требуется для успеха компании, т.е. гипотезы о факторах успеха.
  • ограничительные показатели - защищают от ошибочных гипотез и бывают двух типов - показатели, защищающие бизнес и показатели оценивающие внутреннюю достоверность результатов.

Кроме того, могут учитываться показатели активов и вовлеченности (к примеру число пользователей и ценность, которую пользователи получают от сервиса) и бизнес-метрики и операционные показатели (например выручка на пользователя). А еще показатели качества данных, диагностически или отладочные показатели.

Как выбрать показатели? Убедитесь, что целевые показатели:

  • простые
  • стабильные

Убедитесь, что показатели движущих сил:

  • согласованы с целью
  • практичны и актуальны
  • чувствительны
  • устойчивы к манипуляциям

Как выработать показатели?

  • использовать гипотезы из менее масштабируемых методов для генерации идей, а затем проверять их в масштабируемом анализе данных для уточнения формулировки
  • учитывать качество при определении целей или показателей движущих сил (например учитывать плохие или хорошие клики)
  • включать только интерпретируемые модели и подтверждаемые с течением времени модели
  • измерять то, что ненужно точно, чем неявно то, что хотите (например недовольство пользователей, а не удовлетворенность)
  • показатели сами по себе косвенны - всегда есть набор неподходящих случаев

При оценке показателей следует:

  • использовать альтернативные источники данных
  • анализ данных наблюдений
  • опыт других компаний
  • проводить экспериме6нты, целью которых является оценка показателей
  • использовать исторические данные экспериментов

Показатели экспериментов должны быть:

  • измеримыми
  • назначемыми (должна быть возморжность присвоить занчения показателей экспериментальному варианту)
  • чувствительными и своевременными (чтобы своевременно обнаруживать важные изменеения)

Как объединять показатели в OEC?

  • выбрать наиболее значимый показатель (one metrics that matter OMTM)
  • выбрать чрезвычайно важную цель (wildly important goal WIG)
  • сформулировать взвешенный единый показатель с учетом их важности (взвешенная сумма показателей)
  • нормализовать каждый из показателей к заранее заданному диапазону и присвоить каждому вес (взвешенная сумма нормализованных показателей)

При этом есть четыре подхода к внедрению:

  • если все ключевые показатели статистически не значимы или статистически значимы или хотя бы один ключевой показатель статистически значим, то следует внедрить изменение
  • если все ключевые показатели не значимы или отрицательны или один показатель отрицателооен, следует отменить внедрение
  • если ничего не изменилось, следует подумать об увеличе6нии стат.мощности, прежде чем внедрять
  • если часть положительна, а часть отрицательна, следует исходить из компромиссов.

Чтобы объединить метрики в OEC, часто ест ьсмысл сократить их число.

Закон Гудхарда. Любая наблюдаемая статистическая закономерность будет иметь тенденцию разрушаться, как только на нее будет оказано давление в целях контроля. Или, сокращенно, “когда мера становится целью, она перестает быть хорошей мерой”.

Закон Кэмпбелла. Чем чаще какой-либо количественный социальный показатель используется для принятия социальных решений, тем больше он будет подвержен коррупционному давлению и тем более склонен к искажению и разрушению социальных процессов, для отслеживания которых он предназначен. Замечание Лукаса к нему: “взаимосвязи, наблюдаемые в исторических данных, не могут считаться структурными или причинными. Политические решения могут изменить структуру экономических моделей, и корреляции, существовашие исторически, прекратят свое действие”

Метаанализ

Институционная память (institutional memory) - это по сути коллекция всех экспериментов, удачных и не удачных, сведения о внедрении опыта и результатах, которая хранится в компании.

Почему это полезно? Полученные данные можно применять пятью способами:

  • культура экспериментов - краткоеизложение прошлых экспериментов помогает понять важность экспериментирования и спсобствует уреплению корпоративной культуры
  • лучшие подходы к экспериментам - эксперименты не всегда следуют лучшим практикам, особенно когда внутри команды растет число экспериментов
  • будущие инновации - для тех, кто приходит в команду очень важно понимание того, что уже испытано, что работало, а что не работало
  • показатели - история экспериментов позволяет видеть как менялись показатели во времени. Этот ак-же позволяет вывести априорные вероятности для баесовских оценок.
  • эмпирические исследования - эспериментальные данные позволяют вывести эмпирические оценки

Этика контроллируемых экспериментов

  • уважение к людям
  • полезность для людей
  • справделивость (распределение рисков и выгод)
  • возможность выбора для участников

Дополнительные методы оценки

  • исследование пользовательского опыта
  • фокус-группы
  • человеческая оценка
  • внешние данные
  • опросы
  • аналитика на основе логирования

Анализ на основе логов (ретроспективный анализ) полезен по следующим причинам:

  • позволяет развить понимание какие показатели важны
  • позволяет увидеть как потенциальные показатель мог работать в прошлом
  • выработка идей для А/Б тестов на основе полученных базовых знаний
  • изучение реализуемости идеи
  • выявление естественных экспериментов, которые происходят время от времени из-за внешних обстоятельств (анпример при измененеии каких-то параметро по умолчанию)
  • наблюдение причинно -следственных связей, часто в случаях, когда прямой эксперимент невозможен

Исследование причинно-следственных связей

Когда контроллируемые эксперименты невозможны?

  • организация не контроллирует проверяемое причинное действие
  • когда подопытных слишком мало
  • при формировании контрольной популяции формируются слишком большие издержки
  • когда изменение стоит дорого по сравнению с воспринимаемой ценностью (например, когда пытаются оценить сколько пользователей уйдет, если случится какое-то нежелательное событие)
  • когда невозможно рандомизировать единицу рандомизации должным образом
  • когда тест неэтичен или незаконен

Планы для для наблюдательных исследований причинно-следственных связей

Прерывистый временной ряд (interupted time series ITS) - квазиэкспериментальный план, в котором возможно контроллировать измерения в своей системе, но невозможно рандомизировать воздействие. Тогда используется одна популяция для теста и контроля и измеряется то, что она испытывает с течением времени.

Наиболее распространенная проблема ITS - это временные эффекты, т.к. сравнения производятся в разное время. Важно так-же гарантировать, что вы не приписываете какой-либо эффект изменению, хотя на самом деле имеется некий совместный эффект. Это можно разрешить путем многократного переключения между воздействием и бездействием.

Другая проблема - взаимодействие с пользователем, в результате которого пользователь может заметить, что их опыт переключается, что может привести к раздражению и недовольству.

Эксперименты с чередованием - план используется для оценки алгоритмов ранжирования. Алгоритм эксперимента чередует рекоторы должен показывать каждый из алгоритмов ранжирования с удалением повторов. В результате сравнивается рейтинг кликов двух алгоритмов.

Способ ограничен, т.к. результаты должны быть однородны. Если, существует предопределенная логика позиционирования или объекты тестирования выглядят по разному - начинаются сложности.

Метод разрывной регрессии (regression discontinuity design, RDD) - план эксперимента, который можно использовать всякий раз, когда существует четкий порог, идентифицирующий исследуемую популяцию. В этом случае мы можем определить популяцию, которая чуть ниже порога как контрольную, а популяцию, которая выше, как тестовую.

В RDD поведение пользователя может быть искажено другими факторами, связанными с тем же порогом

Иеструментальные переменные (instrumental variables, IV) - метод пытается аппроксимировать случайное назначение. Цель состоит в том, чтобы найти инструмент, который позволяет аппроксимировать случайное распределение. Иногда возможно проведение и естественных экспериментов (natural experiments), где практически случайны.

Отбор подобного по склонности (propensity score matching, PSM) - сегментация на основании общих специфических свойств или склонностей к чему либо. Идея заключавется в том ,чтобы гарантировать, что раздличие между контрольной и тестовой популяцией не связано с изменением состава популяции. PSM вместо сопоставления единиц на ковариантах сопоставляет одно число - сформулированную оценку склонности.

Проблема PSM в том, что учитываются только наблюдаемые варианты, неучтенные факторы могут привести к скрытым предубеждениям. Кроме того проблемой является наложение факторов.

Дифференциальная разница (difference in differences, DD или DID) - учитывается разница в контрольной и подопытной группах. Иными словами, групапы могут различаться, но “двигаться параллельно”. Метод обычно используется в географических экспериментах.

Ловушки причинно-следственных связей

  • наличие нераспознанной общей причины
  • ложные или обманчивые корреляции

Эксперименты на стороне клиента

Различия между серверной и клиентской стороной:

  • процесс выпуска клиентских приложений (в отличии от, к примеру, web-сайтов, где выпуск полностью контроллируется сервером) зависит как от стороны владельца площадки (к примеру магазина приложений), так и стороны климента. Из-за этого выпуски могут не попадать к клиентам вовремя. В результате, в любой момент времени существует несколько версий приложения, котоыре придется поддерживать.
  • обмен данными между клиентмо и сервером может зависеть от качества связи и ее доступности. приложение может находиться долго офлайн. На это влияют: качество подключения, пропускная способность канала, заряд батареи, производительность устройства клиента, память и ее доступность на устройстве, аппаратные и программные ограничения.

В качестве компромисса предполагается возможность для приложения работать офлайн, а так-же собственное хранилище данных на устройстве. Следствием компромисса является:

  • необходимо предвидеть изменеения как можно раньше. чтобы планировать эксперименты как можно раньше и тщательнее. АБ-тесты придется поставлять с релизом и ждать следующего, если что-то пошло не так.
  • возможны задержки данных и времени выпуска. т.к. не все пользовательские устройства получат новую версию, кроме того обновления могут не вступить в силу из-за особенностей загрузки или принятия пользователем изменеений. Таких устройств может оказаться много.
  • устройства могут находиться офлайн. Необходимо создать систему кеширования данных эксперимента
  • возможно придется анализировать данные на стороне клиента
  • нагрузка на устройстве клиента может повлиять на работу приложения. Это надо отслеживать
  • возможно придется запускать новую версию поэтапно, часть пользователей оставляя на старой, однако это может быть непрактично с точки зрения накладных расходов на устройстве пользователя.
  • у пользователя может быть множество разных устройств и разных программных платформ на них. В итоге один пользователь может оказаться в разных группах тестирования, имея несколько устройств. При этом данные с разных устройств могут синхронизироваться.