RL model

Published onesixx on

강화학습(Reinforcement Learning)에서 널리 사용되는 알고리즘

ppo

PPO (Proximal Policy Optimization):

  • PPO는 정책 최적화 알고리즘으로, 안정적이고 높은 성능을 가지며, 샘플 효율성이 높은 특징을 갖습니다.
  • PPO는 이전 정책과 비교하여 정책 갱신시에 큰 변화를 방지하는 클리핑 기법을 사용하여 안정성을 유지합니다.
  • 장점: 안정적이고 높은 성능, 샘플 효율성
  • 단점: 하이퍼파라미터 튜닝이 어려울 수 있음

sac

SAC (Soft Actor-Critic):

  • SAC는 연속적인 행동 공간(continuous action space)에서 정책 최적화를 수행하는 알고리즘입니다.
  • SAC는 자기 엔트로피(regularized entropy)를 이용하여 정책의 탐색성을 유지하면서 최적화를 진행합니다.
  • 장점: 안정적인 학습, 연속적인 행동 공간에서 효과적인 탐색, 모델 기반 및 모델 프리 알고리즘으로 확장 가능
  • 단점: 샘플 효율성이 다른 알고리즘에 비해 낮을 수 있음

trpo

TRPO (Trust Region Policy Optimization):

  • TRPO는 정책 최적화 알고리즘으로, 안정적인 학습과 수렴성을 갖는 특징을 가지고 있습니다.
  • TRPO는 정책의 갱신 범위를 Trust Region으로 제한하여 정책을 안정적으로 개선합니다.
  • 주요 장점: 안정적인 학습, 수렴성 보장
  • 주요 단점: 계산 비용이 높을 수 있음, 샘플 효율성이 다른 알고리즘에 비해 낮을 수 있음

td3

TD3 (Twin Delayed Deep Deterministic Policy Gradient):

  • TD3는 연속적인 행동 공간에서의 정책 최적화와 Q-함수의 최적화를 결합한 알고리즘입니다.
  • TD3는 정책 업데이트와 탐험 시에 불안정성을 완화하기 위해 Q-함수의 근사치를 사용합니다.
  • 알고리즘은 세 개의 신경망을 사용하여 두 개의 Q-함수를 근사화하고, 타겟 신경망을 사용하여 안정적인 학습을 수행합니다.
  • 주요 장점: 안정적인 학습, Q-함수의 최적화와 정책의 최적화를 효과적으로 결합
  • 주요 단점: 하이퍼파라미터 튜닝이 필요할 수 있음
Categories: RL

onesixx

Blog Owner

Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x