Monte-Carlo methods
Теги: machine-learning r-learning
Меторы Монте-Карло в отличие от [dynamic-programming] учаются функциям ценности и оптимальным стратегиям на опыте в форме выборочных эпизодов. Это дает три преимущества:
- не нужна модель среды, можно обучаться непосредственно взаимодействуя со средой
- можно использовать выборочные модели или имитации
- необходимо только небольшое подмножество состояний. Полное множество состояний оценивать не требуется
- менее подвержены негативному эффекту нарушения марковского свойства, т.к. МК не обновляют оценки ценности на основании оценок ценности последующих состояний, как это делает ДП. Иными словами в МК отсутствует бустрепинг.
Вместо использования модели для вычисления ценности каждого состояния, МК усредняют множество доходов, полученных при старте из данного состояния. Такое усреднение оказывается хорошей аппроксимацией ценности. В МК шаги оценивания и улучшения стратегии чередуются в соседних эпизодах, что допускает инкрементную реализацию.
Этапы МК:
- оценивание ценности действий
- улучшение стратегии
- управление (реализация с единой стратегией и с раздельной)
Главная проблема МК - обеспечение достаточного исследования. Есть два метода: метод с единой стратегией агент пытается найти оптимальную стратегию, которая продолжает исследовать. В методе с раздельной стратегией агент также занимается исследованием, но обучается детерменированной оптимальной стратегии, которая может быть никак не связана со стратегией, которой он следует. В этом случае предсказанием будет обучение функции ценности целевой стратегии на данных, сгенерированных другой поведенческой стратегией
Смотри еще: