Ab-tests
Теги: tests
OEC (общий критерий оценки) - количесивенный показатель цели эксперимента (реакция, зависимая переменная, результат, оценка или функция пригодности. Если целей несколько - применяется сбалансированная система показателей.)
Параметр - контроллируемая экспериментальная переменная, которая, как ожидается, влияет на OEC и другие показатели. Иногда называют фактоармси или переменными. Параметрам часто присваивают значения, называемые уровнями. В простом аб-тесте обычно используют один параметр с двумя уровнями, в онлайн-экспериментах обычно используется несколько уровней. Мультивариантные тесты оценивают несколько параметров совместно.
Вариант - тестируемый пользовательский опыт, обычно путем присвоения значений параметрам. В простом аб-тесте варианты А и Б - это два варианта, контрольный и тестовый. Иногда под вариантом понимают только тестовый вариант.
Рандомизатор - псевдослучайный процесс, применяемый к объектам эксперимента для сопоставления их с вариантами.
Три основных постулата для организаций, которые хотят проводить контроллируемые онлайн-эксперименты:
- Организация хочет принимать решения на основе данных и официально оформила OEC
- Организация готова инвестировать в инфраструктуру и тесты, чтобы проводить эксперименты и гарантировать достоверность
- Организация признает, что плохо умеет оценивать значимость целей
Статистическая мощность (statistical power) - вероятность обнаружения значимого различия между вариантами, когда эта разница действительно есть. Каждый эксперимент должен обладать достаточной стат.мощностью, чтобы с высокой вероятностью сделать вывод о том, привел ли эксперимент к более значимым изменеениям, чем предполагалось. Чем больше выборка, тем больше мощность. Обычно эксперимент планируется при мощности 80-90%…
Для разработки эксперимента надо определить следующие вещи:
- единицу рандомизации
- популяцию единиц рандомизации
- размер (по охвату) эксперимента
- длительность эксперимента
- насколько безопасен эксперимент
- надо-ли разделять трафик с другими экспериментами
На длительность экспермента влияют:
- рост числа пользователей
- эффект недели/времени дня
- сезонность
- эффект новизны и первичности
Для проведения эксперимента требуется:
- инструмент записи и получения данных журналов
- инфраструктура для организации тестов (конфигуратор тестов, назначение вариантов и т.д.)
Для внедрения результатов необходимо найти компромисс между ценой внедрения и ценностью. Необходимо учитывать стоимость обслуживания после внедрения улучшений. Модель внедрения такая:
- результат не является стат.значимым и практически не важен - можно повторить эту идею в тесте или отказаться от нее
- результат статистически и практически значим - запускать
- результат значим статистически, но не практически. Необходима оценка стоимости и других факторов запуска.
- доверительные интерфвалы выходят за рамки практической значимости, статистическая значимость незначительна - недостаточно данных или стат.мощности эксперимента.
- результат значим практически, но не статистически. Нужен повторный тест.
- результат статистически значим и. вероятно, значим практически - повторить тест.
Закон Тваймана - любая статистика, которая выглядит интересно, почти наверняка неверна. Причины:
- нехватка стат.мощности
- неверная интерпретация p-значений
- отслеживание p-значений
- множественные проверки одной гипотезы (использование разных методов для получения ожидаемого результата)
Доверительный интервал - количественно определенная степень неопределенности эффекта от измерения. Уровень доверия показывает как часто интервал должен содержать истинный эффект от воздействия.
Внутренняя достоверность - относится к правильности экспериментальных результатов, которые не обобщают на другие популяции или периоды времени. Угрозы:
- нарушение правила SUTVA (допущение о стабильном влиянии на экспериментальный объект) - предполагается, что объекты эксперимента не влияют друг на друга
- ошибка выжившего - оценка тех, кто дожил до конца эксперимента
- вынужденное воздействие - неслучай ное распределение вариантов
- несоответствие коэффициента выборки (соотношение объектов между вариантами значительно отличается от задуманного). Это может быть обусловлено редиректами. ботами, различиями в производительности серверов и т.д.
Внешняя достоверность отображает степень, в которой результаты контроллируемого эксперимента могут быть обобщены на другие выборки и с течением времени. Угрозы:
- эффект первичности - пользователям может потребоваться время для адаптации к изменеениям
- эффект новизны - непродолжительный ээффект, вызванный интересом пользователей к измененеиям
Парадокс Симпсона - если мы проводим эксперимент с накоплением, т.е. имеем два или более периода с разными процентными долями распределения вариантов, объединение результатов может привести к смещенной неверной оценке эффектов воздействия, т.е. тест может быть лучше, чем контроль как в первой. так и во второй фазе, но в целом хуже, когда два периода объединены. Возможна и инверсия парадокса.
Модели зрелости эксперитмента
- Запуск - строительство фундамента экспериментальной платформы, подбор экспериментов и базовых методов науки о данных, для вычисления сводной статистики, задействованной в проверке гипотез.
- Разбег - переход от проведения нескольких экспериментов к определению стандартных показателей и побуждению организации к проведению дополнительных экспериментов. На этом этапе повышается доверие, проводятся А/А тесты и тесты на соответствие отношения выборок (SRM)
- Взлет - переход к масштабному проведению экспериментов. Эксперименты используются для оценки большинства новых функций и измененеия
- Полет - А/Б тесты становятся нормой каждого измененеия. Должно анализироваться большинство экспериментов, особенно простых, без помощи специалистов по данным. Акцент смещается на автоматизацию
Организационные показатели экспериментов
- целевые показатели (goal metrics), метрики успеха или показатели истинного севера, отражают то, что в конечном итоге волнует компанию.
- показатели движущей силы (driver metrics) или метрики дорожного указателя или суррогатные или косвенные метрики- более краткосрочные метрики, отражают причинно-следственную модель того, что требуется для успеха компании, т.е. гипотезы о факторах успеха.
- ограничительные показатели - защищают от ошибочных гипотез и бывают двух типов - показатели, защищающие бизнес и показатели оценивающие внутреннюю достоверность результатов.
Кроме того, могут учитываться показатели активов и вовлеченности (к примеру число пользователей и ценность, которую пользователи получают от сервиса) и бизнес-метрики и операционные показатели (например выручка на пользователя). А еще показатели качества данных, диагностически или отладочные показатели.
Как выбрать показатели? Убедитесь, что целевые показатели:
- простые
- стабильные
Убедитесь, что показатели движущих сил:
- согласованы с целью
- практичны и актуальны
- чувствительны
- устойчивы к манипуляциям
Как выработать показатели?
- использовать гипотезы из менее масштабируемых методов для генерации идей, а затем проверять их в масштабируемом анализе данных для уточнения формулировки
- учитывать качество при определении целей или показателей движущих сил (например учитывать плохие или хорошие клики)
- включать только интерпретируемые модели и подтверждаемые с течением времени модели
- измерять то, что ненужно точно, чем неявно то, что хотите (например недовольство пользователей, а не удовлетворенность)
- показатели сами по себе косвенны - всегда есть набор неподходящих случаев
При оценке показателей следует:
- использовать альтернативные источники данных
- анализ данных наблюдений
- опыт других компаний
- проводить экспериме6нты, целью которых является оценка показателей
- использовать исторические данные экспериментов
Показатели экспериментов должны быть:
- измеримыми
- назначемыми (должна быть возморжность присвоить занчения показателей экспериментальному варианту)
- чувствительными и своевременными (чтобы своевременно обнаруживать важные изменеения)
Как объединять показатели в OEC?
- выбрать наиболее значимый показатель (one metrics that matter OMTM)
- выбрать чрезвычайно важную цель (wildly important goal WIG)
- сформулировать взвешенный единый показатель с учетом их важности (взвешенная сумма показателей)
- нормализовать каждый из показателей к заранее заданному диапазону и присвоить каждому вес (взвешенная сумма нормализованных показателей)
При этом есть четыре подхода к внедрению:
- если все ключевые показатели статистически не значимы или статистически значимы или хотя бы один ключевой показатель статистически значим, то следует внедрить изменение
- если все ключевые показатели не значимы или отрицательны или один показатель отрицателооен, следует отменить внедрение
- если ничего не изменилось, следует подумать об увеличе6нии стат.мощности, прежде чем внедрять
- если часть положительна, а часть отрицательна, следует исходить из компромиссов.
Чтобы объединить метрики в OEC, часто ест ьсмысл сократить их число.
Закон Гудхарда. Любая наблюдаемая статистическая закономерность будет иметь тенденцию разрушаться, как только на нее будет оказано давление в целях контроля. Или, сокращенно, “когда мера становится целью, она перестает быть хорошей мерой”.
Закон Кэмпбелла. Чем чаще какой-либо количественный социальный показатель используется для принятия социальных решений, тем больше он будет подвержен коррупционному давлению и тем более склонен к искажению и разрушению социальных процессов, для отслеживания которых он предназначен. Замечание Лукаса к нему: “взаимосвязи, наблюдаемые в исторических данных, не могут считаться структурными или причинными. Политические решения могут изменить структуру экономических моделей, и корреляции, существовашие исторически, прекратят свое действие”
Метаанализ
Институционная память (institutional memory) - это по сути коллекция всех экспериментов, удачных и не удачных, сведения о внедрении опыта и результатах, которая хранится в компании.
Почему это полезно? Полученные данные можно применять пятью способами:
- культура экспериментов - краткоеизложение прошлых экспериментов помогает понять важность экспериментирования и спсобствует уреплению корпоративной культуры
- лучшие подходы к экспериментам - эксперименты не всегда следуют лучшим практикам, особенно когда внутри команды растет число экспериментов
- будущие инновации - для тех, кто приходит в команду очень важно понимание того, что уже испытано, что работало, а что не работало
- показатели - история экспериментов позволяет видеть как менялись показатели во времени. Этот ак-же позволяет вывести априорные вероятности для баесовских оценок.
- эмпирические исследования - эспериментальные данные позволяют вывести эмпирические оценки
Этика контроллируемых экспериментов
- уважение к людям
- полезность для людей
- справделивость (распределение рисков и выгод)
- возможность выбора для участников
Дополнительные методы оценки
- исследование пользовательского опыта
- фокус-группы
- человеческая оценка
- внешние данные
- опросы
- аналитика на основе логирования
Анализ на основе логов (ретроспективный анализ) полезен по следующим причинам:
- позволяет развить понимание какие показатели важны
- позволяет увидеть как потенциальные показатель мог работать в прошлом
- выработка идей для А/Б тестов на основе полученных базовых знаний
- изучение реализуемости идеи
- выявление естественных экспериментов, которые происходят время от времени из-за внешних обстоятельств (анпример при измененеии каких-то параметро по умолчанию)
- наблюдение причинно -следственных связей, часто в случаях, когда прямой эксперимент невозможен
Исследование причинно-следственных связей
Когда контроллируемые эксперименты невозможны?
- организация не контроллирует проверяемое причинное действие
- когда подопытных слишком мало
- при формировании контрольной популяции формируются слишком большие издержки
- когда изменение стоит дорого по сравнению с воспринимаемой ценностью (например, когда пытаются оценить сколько пользователей уйдет, если случится какое-то нежелательное событие)
- когда невозможно рандомизировать единицу рандомизации должным образом
- когда тест неэтичен или незаконен
Планы для для наблюдательных исследований причинно-следственных связей
Прерывистый временной ряд (interupted time series ITS) - квазиэкспериментальный план, в котором возможно контроллировать измерения в своей системе, но невозможно рандомизировать воздействие. Тогда используется одна популяция для теста и контроля и измеряется то, что она испытывает с течением времени.
Наиболее распространенная проблема ITS - это временные эффекты, т.к. сравнения производятся в разное время. Важно так-же гарантировать, что вы не приписываете какой-либо эффект изменению, хотя на самом деле имеется некий совместный эффект. Это можно разрешить путем многократного переключения между воздействием и бездействием.
Другая проблема - взаимодействие с пользователем, в результате которого пользователь может заметить, что их опыт переключается, что может привести к раздражению и недовольству.
Эксперименты с чередованием - план используется для оценки алгоритмов ранжирования. Алгоритм эксперимента чередует рекоторы должен показывать каждый из алгоритмов ранжирования с удалением повторов. В результате сравнивается рейтинг кликов двух алгоритмов.
Способ ограничен, т.к. результаты должны быть однородны. Если, существует предопределенная логика позиционирования или объекты тестирования выглядят по разному - начинаются сложности.
Метод разрывной регрессии (regression discontinuity design, RDD) - план эксперимента, который можно использовать всякий раз, когда существует четкий порог, идентифицирующий исследуемую популяцию. В этом случае мы можем определить популяцию, которая чуть ниже порога как контрольную, а популяцию, которая выше, как тестовую.
В RDD поведение пользователя может быть искажено другими факторами, связанными с тем же порогом
Иеструментальные переменные (instrumental variables, IV) - метод пытается аппроксимировать случайное назначение. Цель состоит в том, чтобы найти инструмент, который позволяет аппроксимировать случайное распределение. Иногда возможно проведение и естественных экспериментов (natural experiments), где практически случайны.
Отбор подобного по склонности (propensity score matching, PSM) - сегментация на основании общих специфических свойств или склонностей к чему либо. Идея заключавется в том ,чтобы гарантировать, что раздличие между контрольной и тестовой популяцией не связано с изменением состава популяции. PSM вместо сопоставления единиц на ковариантах сопоставляет одно число - сформулированную оценку склонности.
Проблема PSM в том, что учитываются только наблюдаемые варианты, неучтенные факторы могут привести к скрытым предубеждениям. Кроме того проблемой является наложение факторов.
Дифференциальная разница (difference in differences, DD или DID) - учитывается разница в контрольной и подопытной группах. Иными словами, групапы могут различаться, но “двигаться параллельно”. Метод обычно используется в географических экспериментах.
Ловушки причинно-следственных связей
- наличие нераспознанной общей причины
- ложные или обманчивые корреляции
Эксперименты на стороне клиента
Различия между серверной и клиентской стороной:
- процесс выпуска клиентских приложений (в отличии от, к примеру, web-сайтов, где выпуск полностью контроллируется сервером) зависит как от стороны владельца площадки (к примеру магазина приложений), так и стороны климента. Из-за этого выпуски могут не попадать к клиентам вовремя. В результате, в любой момент времени существует несколько версий приложения, котоыре придется поддерживать.
- обмен данными между клиентмо и сервером может зависеть от качества связи и ее доступности. приложение может находиться долго офлайн. На это влияют: качество подключения, пропускная способность канала, заряд батареи, производительность устройства клиента, память и ее доступность на устройстве, аппаратные и программные ограничения.
В качестве компромисса предполагается возможность для приложения работать офлайн, а так-же собственное хранилище данных на устройстве. Следствием компромисса является:
- необходимо предвидеть изменеения как можно раньше. чтобы планировать эксперименты как можно раньше и тщательнее. АБ-тесты придется поставлять с релизом и ждать следующего, если что-то пошло не так.
- возможны задержки данных и времени выпуска. т.к. не все пользовательские устройства получат новую версию, кроме того обновления могут не вступить в силу из-за особенностей загрузки или принятия пользователем изменеений. Таких устройств может оказаться много.
- устройства могут находиться офлайн. Необходимо создать систему кеширования данных эксперимента
- возможно придется анализировать данные на стороне клиента
- нагрузка на устройстве клиента может повлиять на работу приложения. Это надо отслеживать
- возможно придется запускать новую версию поэтапно, часть пользователей оставляя на старой, однако это может быть непрактично с точки зрения накладных расходов на устройстве пользователя.
- у пользователя может быть множество разных устройств и разных программных платформ на них. В итоге один пользователь может оказаться в разных группах тестирования, имея несколько устройств. При этом данные с разных устройств могут синхронизироваться.