Another and nonstandart methods of reinforcemebt learning
Теги: machine-learning r-learning
Алгоритмы вне политик (с раздельной стратегией)
Такие алгоритмы разделяют исследование и использование с помощью двух раздельных стратегий - целевой стратегии и стратегии поведения. В таких алгоритмах целевая стратегия не имеет возможность проверить свою оценку, однако это не мешает получить оценку для обеих политик. Целевая стратегия оптимизируется с использованием данных стратегии повдения, которая в свою очередь сосредоточена на поиске новых состояний.
Варианты реализации
- q-learning
- GTD градиентное обучение на основе [temporal-difference]
- жадные GQ-алгоритмы
- актор-критик вне политики (off-PAC)
Детерменированные градиенты стратегий
Такие алгоритмы предполагают наличие одного конкретного действия для каждого состяония, что исключает необходимость использования выборки как в пространстве действий так и в пространстве состояний.
Вариации DPG:
- deep DPG (DDPG)
- дважды отложенные DPG (twin delayed deep deterministic policy gradients, TD3) реализует отложенное обновление стратегии, ограниченное двойное q-обучение и сглаживание целевой стратегии
Методы доверительной области
Направлены на снижение зависимости градиентных методов от размера шага.
- trust region policy optimization (TRPO) испольует расхождение Кульбака-Лейбнера для оптимизации стратегии, позволяя ограничить размер шага в соответствии с изменениями в стратегии
- natural policy gradients (NPG) позволят количественно определить размер шага с точки зрения метрики, основаной на расстоянии между текущей стратегией и стратегией после обновления с помощью шага градиента
- методы штрафующие большие шаги (proximal policy optimization, PPO)
Другие алгоритмы
- Retrace(\(\lambda\)) алгоритм вне политики с трассировкой , котоырй использует взвешенную отсеченную выборку по значимости для контроля части стратегии, которая отвечает за обновление.
- ACER (actor-critic with expirience relay) дополняет Retrace(\(\lambda\)) комбинацией вопсроизведения опыта, оптимизацией стратегии доверительной области и дуэльной архитектурой.
- ACKTR оптимизирует TRPO за счет аппроксимаций.
Смотри еще: