Термины статистики, которые пригодятся для data science. Часть 2

Первую часть статьи можно найти по ссылке. Источником для данного материала является книга Practical Statistics for Data Scientists, Andrew Bruce, Peter Bruce

Выборки и распределения данных

В статистике используется понятие популяции (population) или генеральной совокупности — это вся совокупность данных, объединенная некой общей описательной функцией. Часто популяция является теоретической совокупностью данных и не обязательно относится к области фактических измерений или сбора данных. Тогда выборка (sample) — это некое подмножество данных из популяции. Используется обычная нотация множеств \(N\) размер популяции, а \(n\) размер выборки.

Случайный отбор (random sampling) — получение выборки путем произвольного отбора примеров из популяции. Выборка, полученная в результате такого отбора, называется простой (simple). Если разрешено повторно отбирать в выборку ранее отобранный пример из популяции, такой отбор называется отбором с возвратом.

Стратифицированный случайный отбор (stratified sampling) предполагает предварительное разбиение популяции на страты и случайный отбор примеров уже из страт.

Смещение выборки (sample bias) — искажение или отклонение в структуре выборки от структуры популяции. Такое смещение возникает в результате ошибок измерения или отбора. Со смещением связывают несколько понятий, часто порождающих ошибки отбора. Во-первых, это прочесывание данных (data snooping) — постоянное прочесывание данных с целью выявления неких закономерностей. Во-вторых, это эффект бескрайнего поиска (vast search effect), смещение, вызванное, многократным моделированием данных либо моделирование с большим количеством прогнозируемых переменных. В-третьих, регрессия к среднему значению, когда предельные примеры имеют свойство сопровождаться более центральными.

Распределение данных (data distribution) — частотное распределение значений данных в выборке. Очевидно, что распределения статистики и данных могут отличаться.

Выборочная статистика (sample statistic) — некий показатель, вычисляемый для выборки. Статистика характеризуется выборочным распределением (sampling distribution) — частотным распределением статистики на многочисленных выборках. Мерой оценки выборочной статистики является стандартная ошибка (standard error) — стандартное отклонение выборочной статистики на многочисленных выборках. \(S{\tiny x} = \frac{s}{\sqrt{n}}\), где \(s\) стандартное отклонение, а \(n\) размер выборки.

Центральная предельная теорема статистики (central limit error): сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному. Для статистики это может означать, что с ростом размера выборок, средние значения, распределение статистик будет приближаться к нормальному. Смотри подробную статью на википедии.

Бутстрап выборка (bootstrap sample) — метод, при котором из выборки многократно получают повторные выборки с возвратом и вычисляют для каждой из них статистику. Является эффективным способом оценки выборочной статистики и существенно расширяет возможности оценки выборки.

Повторный отбор (resampling) — бутстрап с перестановкой.

Ошибка (error) — разница между примером данных (точкой) и предсказанием.

Стандартизация (standardize) или нормализация — вычитание среднего значения выборки с последующим делением на стандартное отклонение. При этом результат стандартизации для каждой точки данных называется z-оценкой (z-score).

Нормальное или гаусово распределение — распределение, заданное функцией, совпадающей с функцией плотности вероятности. Стандартное нормальное распределение (standard normal) — нормальное распределение со средним, равным 0 и стандартным отклонением, равным 1.

В отличие от нормального распределения, скошенные распределения имеют длинные хвосты, в которых относительно предельные значения встречаются с низкой частотой. В скошенных распределениях один хвост длиннее другого (ассиметрия).

Биномиальное распределение (binomial distribution) — частотное распределение числа успехов в заданном числе испытаний с определенной вероятностью успеха в каждом испытании, где понятие «успех» соответствует целевому результату испытания, «испытание» является определенным событием с дискретным исходом, а понятие «биномиальный» предполагает, что есть только два исхода. См. статью.

Распределение Пуассона — грубо говоря, это частотное распределение числа событий за определенное фиксированное время. Более подробно в статье на википедии. В данном распределении определяющим является \(\lambda\) — интенсивность, с которой происходят события.

Экспоненциальное распределение — частотное распределение времени между событиями, при условии что \(\lambda\) постоянна (смотри статью). В распределении Вейбула допускается смещение \(\lambda\) во времени.