My deep learning

Основные термины машинного обучения. Часть №2

Теги: machine-learning 

В первой части статьи я разобрал базовую терминологию ML: постановку задачи, емкость, переобучение и недообучение, регуляризацию и гиперпараметры, точечную оценку, смещение оценки, дисперсию, стандартную ошибку и состоятельность, а так-же важные термины, определяемые в рамках этих терминов. Продолжим.

Оценка максимального правдоподобия

, где:

— множество, состоящее из примеров, независимо выбираемых из неизвестного порождающего распределения . В выражении максимального правдоподобия — параметрическое семейство распределений вероятности над одним и тем же пространством, индексированное параметром

Произведение неудобно по причине, т.к. подвержено потере значимости. Взятие логарифма не изменяет , но позволяет преобразовать произведение в сумму:

Если разделить правую часть на (умножение функции стоимости на константу не изменяет ), мы получаем математическое ожидание относительного эмпирического распределения определяемого обучающими данными:

Максимальное правдоподобие — это попытка совместить модельное распределение с эмпирическим , в идеале мы хотим получить совпадение истинного и порождающего распределения . Это интерпретируется с помощью минимизации расхождения Кульбака-Лейблера.

Условное логарифмическое правдоподобие

Если представляет все входы, все наблюдаемые выходы, а все примеры независимы и одинаково распределены, то условное логарифмическое правдоподобие:

Байесовская статистика

В отличие от частотного метода, в котором предполагается, что истинное значение фиксировано хотя и неизвестно, а точечная оценка — случайная величина, в байесовском подходе к статистике истинный параметр неизвестен или недостоверен и представляется случайной величиной, а набор данных случайной величиной не является, т.к. доступен прямому наблюдению. До наблюдения данных мы представляем свое знание о в качестве априорного распределения вероятности . Тогда можно реконструировать влияние данных на наши гипотезы о , объединив правдоподобие данных с априорным посредством теоремы Байеса:

, где — набор наблюдаемых примеров.

В отличие от оценки максимального правдоподобия, где предсказания делаются с использованием точечной оценки , в байесовской оценке предсказания делаются с помощью полного распределения . к примеру, после наблюдения примеров предсказанное распределение следующего примера описывается формулой: . Если после наблюдения примеров мы все еще не знаем , то эта неопределенность включается непосредственно в предсказания.

Кроме того, при байесовской оценке происходит сдвиг плотности вероятности в сторону тех областей пространства параметров, которые априори предпочтительны, что обусловлено значительным влиянием байесовского априорного распределения. Зачастую это приводит к предпочтению более простых и гладких моделей.

Байесовские модели обобщаются лучше при ограниченном числе обучающих данных, но с ростом данных обучение становится вычислительно более накладным.

Оценка априорного максимума

В большинстве случаев операции, включающие апостериорное байесовское распределение, недопустимы с точки зрения временной сложности алгоритмов. В этом случае точечная оценка дает разрешимую апроксимацию. Чтобы использовать преимущества байесовской оценки, разрешив априорному распределению влиять на выбор точечной оценки, применяют оценку апостериорного максимум (MAP):

, где — стандартное логарифмическое правдоподобие, а соответствует априорному распределению.

Проблемы, требующие глубокого изучения

Проклятие размерности

С увеличением размерности данных количество представляющих интерес конфигураций растет экспоненциально. Если имеется измерений и нужно различать значений вдоль каждой оси, то потребуется областей и примеров.

Регуляризация для достижения локального постоянства и гладкости

Чтобы алгоритм хорошо обобщался, необходимо иметь априорное представление о том, какого рода функцию он должен обучить. Самое распространенные априорные предположения — априорное предположение о гладкости или априорное предположение о локальном постоянстве. Это означает, что обучаемая функция не должна сильно изменяться в небольшой области.

Обобщаемость большинства алгоритмов опирается на этот принцип, поэтому они плохо масштабируются на многие статистические задачи.

Обучение многообразий

В основе ML лежит концепция многообразия — множества точек, ассоциированных с окрестностью каждой точки. Из этой концепции вытекает существование преобразований для перемещения из одного места многообразия в другое.

В ML многообразие — это связное множество точек в пространстве высокой размерности, которое можно хорошо аппроксимировать, вводя в рассмотрение лишь небольшое число степеней свободы, или измерений. В машинном обучении допускаются многообразия, размерность которых различна в разных точках.

Многие алгоритмы ML безнадежны, если ожидается, что в результате обучения алгоритм должен найти функции с нетривиальными изменениями во всем пространстве . Алгоритмы обучения многообразий преодолевают это препятствие, предполагая, что большая часть — недопустимые входные данные, а интересующие нас входы сосредоточены только в наборе многообразий, содержащем небольшое подмножество точек, причем интересные изменения результирующей функции будут происходить только вдоль направлений, принадлежащих какому-то одному многообразию, или при переходе с одного многообразия на другое.

Данное краткое описание составлено на основе книги «Глубокое обучение» за авторством Я.Гудфеллоу, И.Бенджио, А.Курвилль

Все статьи с тегом machine-learning

Этот проект поддерживается KonstantinKlepikov