Markov chain
Markov chain
https://youtu.be/Yh62wN2kMkA : Markov chain
a stochastic process that undergoes transitions from one state to another based on certain probabilistic rules.
이산적 시간의 흐름에 따라, (바로 전 시간t의 state 또는 event 에만 영향을 받는)
어떤 state / event가 발생할 확률값이 변화해 가는 과정
=> 그 확률값은 수렴해간다.
마르코프연쇄를 따르는 State에, Action과 Reward를 추가한 확률과정 => Reinforce learning!
마르코프 가정

Markov Chain과 MDP는 근본적으로 다르다
Markov Chain ~> MP(Markov Process) -> MRP (+Reward) -> MDP ( +Action : Policy)
강화학습은 MDP에 학습의 개념을 넣은것
MP
Markov가정을 만족하는 연속적인 일련의 상태
- 일련의 상태 < S₁, S₂, …, Sₜ>
- State Transition Probability <P>

MDP (Markov Decision Process)

2023년 시청률은 2022년 시청률을 기반으로 계산됨
각 방송국 시청률에 대한 현재 State 는 MBC 60% , KBS 40% => X(t=0) = [ 0.6, 0.4 ]


MRP ( Markov Reward Process )
S, P, R, r가 주어진다면 => Markov Reward Process
cf) S, P가 주어진다면 => Markov Process가 정의
Reward Process에는 Action이란 게 없습니다.
단지, 확률에 따른 state가 정해지기 때문에 action이 아닌 state에만 reward가 주어지면 되는 것입니다. (즉각적인 Reward)
MDP에서는 State뿐만아니라 Action에도 Reward가 주어짐.
Env모델 = State Transition 모델 + Reward 모델
MDP 매 스텝마다 받는 Reward의 누적 Reward이 최대화
= return, value 함수