RL model
강화학습(Reinforcement Learning)에서 널리 사용되는 알고리즘
ppo
PPO (Proximal Policy Optimization):
- PPO는 정책 최적화 알고리즘으로, 안정적이고 높은 성능을 가지며, 샘플 효율성이 높은 특징을 갖습니다.
- PPO는 이전 정책과 비교하여 정책 갱신시에 큰 변화를 방지하는 클리핑 기법을 사용하여 안정성을 유지합니다.
- 장점: 안정적이고 높은 성능, 샘플 효율성
- 단점: 하이퍼파라미터 튜닝이 어려울 수 있음
sac
SAC (Soft Actor-Critic):
- SAC는 연속적인 행동 공간(continuous action space)에서 정책 최적화를 수행하는 알고리즘입니다.
- SAC는 자기 엔트로피(regularized entropy)를 이용하여 정책의 탐색성을 유지하면서 최적화를 진행합니다.
- 장점: 안정적인 학습, 연속적인 행동 공간에서 효과적인 탐색, 모델 기반 및 모델 프리 알고리즘으로 확장 가능
- 단점: 샘플 효율성이 다른 알고리즘에 비해 낮을 수 있음
trpo
TRPO (Trust Region Policy Optimization):
- TRPO는 정책 최적화 알고리즘으로, 안정적인 학습과 수렴성을 갖는 특징을 가지고 있습니다.
- TRPO는 정책의 갱신 범위를 Trust Region으로 제한하여 정책을 안정적으로 개선합니다.
- 주요 장점: 안정적인 학습, 수렴성 보장
- 주요 단점: 계산 비용이 높을 수 있음, 샘플 효율성이 다른 알고리즘에 비해 낮을 수 있음
td3
TD3 (Twin Delayed Deep Deterministic Policy Gradient):
- TD3는 연속적인 행동 공간에서의 정책 최적화와 Q-함수의 최적화를 결합한 알고리즘입니다.
- TD3는 정책 업데이트와 탐험 시에 불안정성을 완화하기 위해 Q-함수의 근사치를 사용합니다.
- 알고리즘은 세 개의 신경망을 사용하여 두 개의 Q-함수를 근사화하고, 타겟 신경망을 사용하여 안정적인 학습을 수행합니다.
- 주요 장점: 안정적인 학습, Q-함수의 최적화와 정책의 최적화를 효과적으로 결합
- 주요 단점: 하이퍼파라미터 튜닝이 필요할 수 있음