MDP(Markov Decision Process)
MDPλ₯Ό ν΄κ²°νκΈ° μν methodλ€
Model-based method
( λͺ¨λΈμ μλ€ = Agentκ° μνλ³ννλ₯ μ μκ³ μλ€)
modelμ μκ³ μκΈ° λλ¬Έμ μ΅μ μ μλ₯Ό planning(κ³μ°)κ°λ₯ => μ΄λ¦¬ μ 리 ν€λ§¬ νμ μμ΄ μ΅μ μ μλ₯Ό κ³μ°
– Dynamic Programming
(Value Iteration, Policy Iteraction)
– Heuristic search (MCTS: Monte Carlo tree search)
Model-free method
(Agenctκ° μνλ³ννλ₯ μ λͺ¨λ₯Έλ€.)
modelμ λͺ¨λ₯΄κΈ° λλ¬Έμ μ΄λ¦¬ μ 리 ν€λ§€λ©°learning(νμ΅), μ¦ κ°ννμ΅μ ν΅ν΄ μ΅μ μ μλ₯Ό μ°Ύμκ°λ€.
– MonteCarlo method (cf. Monte Carlo νλ₯ κ³μ°μκ³ λ¦¬μ¦ κ·Έ μ체)
– TD method
– SARSA, Q-learning…
MDP λ₯Ό νκΈ°μν κ°ννμ΅
wikibook.co.kr/rlrev/
https://dana-study-log.tistory.com/category/κ°ννμ΅
μν(S, State)
Agentκ° [κ΄μ°°κ°λ₯ν μν]μ μ§ν©. λλ¬Έμ Sλ‘ νκΈ°
μνλ₯Ό ꡬ체μ μΌλ‘ νννλ€λ©΄ μμ μ “μν©μ λν κ΄μ°°”μ΄λΌκ³ ν μ μλ€.
Agentκ° μμ¬κ²°μ μ νκΈ° μν΄ νκ²½μμ μ 곡ν΄μ£Όλ μ 보λ₯Ό “κ°κ³΅ν” μ 보μ΄λ€.
κ°κ³΅ν μ 보λΌκ³ ννν μ΄μ λ μνλ μ¬μ©μκ° μ μνκΈ° λλ¦μ΄κΈ° λλ¬Έμ΄λ€.
κ°ννμ΅μ μμ°¨μ μΈ νλκ²°μ λ¬Έμ λ₯Ό λ€λ£¨κΈ° λλ¬Έμ, μκ°μ λ³΄κ° μ€μνλ€.
κ·Έλμ, [t μκ°μμμ νΉμ μν]λ₯Ό St λΌκ³ νκΈ°νλ©°, μλ¬Έμ s λ‘ νμνκΈ°λ νλ€.
μ΄ [νΉμ μκ° tμμμ μν] Stλ νλ₯ λ³μμ΄λ€. μλλ©΄, μνκ° μκ°μ λ°λΌ νλ₯ μ μΌλ‘ λ³νλ κ°μ΄κΈ° λλ¬Έ
μ¦, St λ μκ° tμ μ 체 μν μ€(μμ μμμμ 36κ°μ§ μν μ€) νλμ κ°μ κ°μ§κ³ μλ€λ λ»μ΄λ€.
μ) μλ νκ²½(Grid-World)μμ
s[μν]λ₯Ό Gridμμ κ° μμΉμ 보(xμ’ν, yμ’ν)λΌ μ νλ€λ©΄,
S(μνμ μ§ν©)μ 36κ°μ§(6*6)κ° λ κ²μ΄λ€.
Episode
μ²μ StateλΆν° λ§μ§λ§ StateκΉμ§μ sequence
νλ(A, Action)
Agentκ° μμ¬κ²°μ μ ν΅ν΄ μ·¨ν μ μλ νλμ μ§ν©, λλ¬Έμ Aλ‘ νκΈ°
μμ νκ²½μΈ Grid-worldμμλ μ/ν/μ’/μ°λ‘ μ΄λνλ κ²μ λ§νλ€.
(λκ°μ μΌλ‘ μ΄λνλ κ²κΉμ§ ν¬ν¨νλ€κ³ μ μνλ©΄ 8κ°μ§μ νλμ΄ μλ κ²μ΄λ€.)
μνμ λ§μ°¬κ°μ§λ‘, μκ° tμμμ νΉμ νλμ At = a μ΄λΌκ³ νκΈ°νλ€.
At λν μκ° tμμ μ΄λ€ νλμ ν μ§ μ ν΄μ Έ μλ κ²μ΄ μλλ―λ‘, νλ₯ λ³μμ΄λ€.
μκ° tμμ μ·¨ν Actionμ μ§ν©μ΄ Policy
μν λ³ν(λ³μ΄) νλ₯
[μν s]μμ [νλ a]λ₯Ό νμ λ, [λ€μ μν s’]μ΄ λ νλ₯
Environmentκ° μλ €μ£Όλ λ³ν νλ₯ μ “νκ²½μ λͺ¨λΈ”μ΄λΌκ³ λ νλ©° μλ κ·Έλ¦Όμ²λΌ νκΈ°νλ€.
- μνλ³ννλ₯ μ μλ€λ©΄ : model-based -> Dynamic Programming
- μνλ³ννλ₯ μ λͺ¨λ₯Έλ€λ©΄: model-free -> Reinforcement Learning
μ¬κΈ°μ, s’ = St+1 μ΄λ€.
μ¦ s’μ
[μκ° t]μμμ [νΉμ μν s]μμ [μ΄λ€ νλ]μ νμ λ, [λ€μμκ° t+1μμ ]μμμ [νΉμ μν]λ₯Ό ννν κ²μ΄λ€.
μ΄λ νΉμ νλμ νλ©΄ μμν λ€μ μνκ° λλ κ²μ΄ λΉμ°νλ€κ³ μκ°ν΄μ κ·Έλ° κ²μ΄λ€. νμ§λ§ νΉμ μνμμ μ΄λ€ νλμ μ·¨νλ€κ³ κΌ μ νν μνμ λλ¬νλ κ²μ μλλ€.
μλ₯Όλ€μ΄, Grid-worldμμ, Agent(λ‘λ΄)κ° νμ¬ μμΉμμ μΌμͺ½μΌλ‘ κ°λ νλμ μ·¨νλ€κ³ κ°μ νμ.
μ΄ λ λ‘λ΄μ νμΉΈ μμΌλ‘ μ΄λνκ³ μ νκ² μ§λ§ νν λΉνκΈΈμ΄ μμ΄μ μΌμͺ½μΌλ‘ λμΉΈ μ΄λνκ² λμλ€.
μ΄λ¬ν μν©μ΄ μμ μ μκΈ° λλ¬Έμ μν λ³ν νλ₯ λ κ³ λ €ν΄μΌνλ κ²μ΄λ€.
μ μμλ₯Ό μμΉνν΄λ³΄μλ©΄ λΉνκΈΈμ μν΄ μνλ κ³³μΌλ‘ λͺ»κ° νλ₯ μ΄ 20%λΌκ³ νμ λ,
λ‘λ΄μ΄ μΌμͺ½μΌλ‘ κ°λ νλμ μ νν΄ μνλ μνλ‘ μ΄λν μνλ³ννλ₯ μ 0.8μΈ κ²μ΄λ€.
보μ(R, Reward) => sparse , delayed
Agentκ° νμ΅ν μ μλ μ 보, λλ¬Έμ Rλ‘ νμ.
Agnetκ° ν Actionμ λν Environmentμ νΌλλ°±μ λ§νλ€.
μκ° tμμ λ°μ 보μμ Rt μ΄λΌκ³ νννλ©°, μμ νΉμ κ°μ΄ μ ν΄μ§μ§ μμκΈ° λλ¬Έμ νλ₯ λ³μμ΄λ€.
μ£Όμν΄μΌν μ μ 보μμ λ€μ μμ μμ λ°λλ€.
μκ° tμμ μ΄λ ν νλμ μ ννλ€λ©΄ μνλ St+1κ° λκ³ St+1μνμμ 보μ Rt+1μ΄ μ£Όμ΄μ§λ€.
*보μν¨μ
νμ¬μν sμμ νλ aλ₯Ό ν΅ν΄ μ»μ μ μλ 보μ Rt+1μ κΈ°λκ°μ λ§νλ€.
(μ¬κΈ°μ μνμ νλμ “νΉμ ”μνμ “νΉμ ”νλμ λ§νλ κ²μ΄λ―λ‘, μλ¬Έμ s, aλΌκ³ νκΈ°νμμ μ£Όμν΄μΌνλ€.)
보μν¨μλ Rμ μλ첨μ s, μ첨μ aλ₯Ό μ°κ±°λ r(s,a) λΌκ³ νννλ€.
보μν¨μλ 보μμ λν κΈ°λκ°μ΄λΌκ³ νλλ°,κΈ°λκ°μ΄λ μ΄λ€ νλ₯ μ μ¬κ±΄μ λν νκ· μ μλ―Έλ‘ μκ°νλ©΄ λλ€.
μμμΌλ‘ νννλ©΄ μλμ κ°μ΄ ννν μ μλ€.
μμλ‘ μ£Όμ¬μ λμ μμ λν κΈ°λκ°μ ꡬν΄λ³΄μλ©΄ (1/6) + (2/6) + (3/6) + (4/6) + (5/6) + (6/6) = 3.5μ΄λ€.
μ΄ κΈ°λκ°μ μλ―Έλ₯Ό μκ°ν΄λ³΄λ©΄ μ£Όμ¬μλ₯Ό λμ‘μ λ λμ€λ λμ κ°μ νκ· μ μΌλ‘ 3.5 λΌλ λ»μ΄λ€.
μ¦, κΈ°λκ°μ ‘λμ€κ² λ μ«μμ λν μμ’μ΄λΌκ³ ν μ μλ€.
λ°νκ° (G) with κ°κ°μ¨(?)
κ° μνμμμ κ°μΉλ₯Ό νλ¨νκΈ° μν΄μ κ°μΉν¨μλ΄μ λ°νκ°μ μ¬μ©νλ€.
λ°νκ°μ (λ¨μν κ° μνμμ 보μλ€μ ν©μ΄ μλ) [μκ° t μ΄ν μνλ€]μμ κ°κ°μ¨μ μ μ©ν [보μ]λ€μ ν©μ λ§νλ€.
λ―Έλμ λ°μ Rμ νμ¬μ μμ μμ κ³ λ €ν λ κ°κ°νλ λΉμ¨.
κ°κ°μ¨μ 0μμ 1μ¬μ΄μ κ°μ΄λ©°, λ°μμ λΉμ€μ μ‘°μ νκΈ° μν΄ κ°κ°μ¨μ μ‘°μ ν μ μκ³ ,
μ΄κΈ° μνμμ ν¨μ¨μ μΈ νλμ μ ννκΈ° μν΄μ, λ―Έλμ μ 보λ₯Ό λ°μνλ κ²μ΄λ€.
λ°νκ°μ ꡬν λ, κ°κ°μ¨μ μ μ©νλ μ΄μ
- νμ¬ λ°λ 보μκ³Ό λ―Έλμ λ°λ 보μμ ꡬλΆνμ§ λͺ»νλ€.
t μμ μμ 100μ 보μμ λ°λ κ²μ΄λ, νμ 100μ 보μμ λ°λ κ²μ΄λ λ¨μ 보μμ ν©μΌλ‘λ λκ°μ΄ 100μ΄κΈ° λλ¬Έμ μμ μ ꡬλΆν μ μκ² λλ€. κ·Έλ κ² λλ©΄ νμ¬ μ΄μ΅μ΄ ν° μνλ‘ κ°λ νλμ μ·¨ν μ μκ² λλ€. - ν λ²μ λ°λ 보μκ³Ό μ¬λ¬ λ² λλ μ λ°λ 보μμ ꡬλΆνμ§ λͺ»νλ€.
20μ 보μμ 5λ² λλμ΄ λ°λ κ²κ³Ό νλ²μ 100μ λ°λ κ²μ ꡬλΆνμ§ λͺ»ν κ²μ΄λ€. - μκ°μ΄ 무νλμΌ κ²½μ° λ³΄μμ ν©μ μμΉμ μΌλ‘ ꡬλΆν μ μλ€.
0.1μ 보μμ© λ°λ κ²½μ°μ 10μ© λ³΄μμ λ°λ κ²½μ°λ μκ°μ΄ 무νλκ° λλ©΄ ꡬλΆν μ μλ€.
λ°νκ°μ μ΄μ©ν΄μ, μνμ κ°μΉλ₯Ό νλ¨νλμ§ λ°©λ²μ κ°μΉν¨μ λΆλΆμ 곡λΆνλ©΄ μκ² λ κ²μ΄λ€.
λ°νκ°μ Gt λΌκ³ νκΈ°νλ©°, νλ₯ λ³μμ 보μλ€μ ν©μ΄ λ°νκ°μ΄λ―λ‘ λ°νκ°λ νλ₯ λ³μμ΄λ€.
μ¦, Episodeλ§λ€ νλκ³Ό μνλ νλ₯ μ μΌλ‘ λ¬λΌμ§κ³ λ°λΌμ 보μλ λ¬λΌμ§κΈ° λλ¬Έμ λ°νκ° μμ λ³ν μ μλ€.
보μν
μ΄λΈμ κΈ°λ°μΌλ‘, κ°κ°μ¨μ μ μ©νμ¬ λ°νκ°μ κ° μνμμ ꡬν κ²μ΄λ€.
보μμ μ¬κ³Όμ λμ°©νμ λλ§ 1μ΄ μ£Όμ΄μ§κ³ λλ¨Έμ§ μνμμ 0μ΄λ€.
μμ λ°νκ°μ ꡬνλ κ³Όμ μ λΉ¨κ°μ κ²½λ‘μ λν΄μλ§ λνλΈ κ²μ΄λ€.
[{0, 1.0}, {0.9, 1}, {0.81, 2}, {0.729, 3}, {0.656, 4}, {0.59, 5}, {0.531, 6}]
κ²°λ‘ μ μΌλ‘ μ μΌ λ§μ§λ§ [κ°κ°μ¨μ μ μ©ν 보μμ ν©]μ 보면,
λΉ¨κ°μ κ²½λ‘μ νλμ κ²½λ‘μ λν΄μ μ§λκ° λͺ¨λ μνμμ λ°νκ°μ κ°κ°μ¨μ μ μ©ν΄ ꡬν κ²μ΄ νμλμ΄ μλλ°,
λ¨μ 보μμ ν©μ νμ λΉκ΅νμ λ λΉμ₯ λ‘λ΄μ μμΉμμ μλ‘(νλμ κ²½λ‘) κ°λ νλμ μ·¨νλ κ²μ΄ λμ± ν¨μ¨μ μΈ κ²½λ‘λ₯Ό μ νν κ²μμ νμΈν μ μλ€.
μμ (λ°©λ²μ κ°μΉν¨μκ° μλ) λ¨μν λ°νκ°μΌλ‘λ§ κ²½λ‘λ₯Ό μ νν κ²μ΄λ€. (κ°κ°μ¨μ ν¨λ₯μ 보μ΄κΈ° μν¨)
Policy μ μ±
Agentλ κ° Stateλ§λ€ (λ¨ νλμ) Actionμ μ ννκ² λλλ°… μ΄κ²μ νλ₯ λ‘ λνλΈκ²
κ° Stateμμ μ΄λ€Actionμ ν μ§μ λν μ 보 => Policy
κ·Έ μ€ “μ΅μ Policy”λ Agentκ° κ°ννμ΅μ ν΅ν΄ νμ΅ν΄μΌ ν λͺ©ν, Stochatic Policy -> Deterministic Policy
(μν) κ°μΉν¨μ : value of state function
RLμμ Rewardλ νμ΅μ κΈ°μ€μ΄ λκ³ , Rewardμ ν©μ΄ ν°μͺ½μΌλ‘ Actionμ μ ννκ² λλ€.
νμ§λ§ νΉμ μμ μμ μμ§ λ°μ§ μμ Reward(보μμ νλμ μ·¨ν λ€ λ€μ μνμμ λ°μ) λ€μ μ΄λ»κ² κ³ λ €ν΄μΌ ν κΉ?
μ΄μ λν κ°λ
μ΄ κ°μΉν¨μμ΄λ€. MDP => Value Function => Actionμ ν
μ¦, κ°μΉν¨μκ° νΉμ μνμ λν ‘κ°μΉ’λ₯Ό κ³μ°ν΄μ£Όμ΄, Agentκ° Actionμ μ νν μ μλλ‘ λμμ£Όλ κ²μ΄λ€.
κ°μΉν¨μλ?
νΉμ Stateμμ Returnλ°νκ°λ€, μνμ κ°μΉλ₯Ό νλ¨νλ€κ³ ν΄μ ‘μν κ°μΉν¨μ’λΌ νλ€.
[μκ° t μ΄ν μνλ€]μμ (κ°κ°μ¨μ ν΅ν΄ ν μΈμ μ μ©ν) λ°νκ° Gμ “κΈ°λκ°“
νμ¬ μνμ κ°μΉλ [νμ¬ νΉμ μν]μμ, ν μνΌμλκ° λλ λκΉμ§(νλμ μ νλ€μ΄ λλ λ§μ§λ§ μ§μ μ μ΄λ₯Ό λκΉμ§) λ°μ 보μλ€μ ν©μ ν΅ν΄ νλ¨ν μ μλ€.
μ) grid worldμμ νμ¬ μνμμ μ€λ₯Έμͺ½μΌλ‘ κ°λ κ²½λ‘(ex. βββ)μ μΌμͺ½μΌλ‘ κ°λ κ²½λ‘(ex. βββββ) μ€μ κ³ λ―Όμ νκ³ μλ€κ³ κ°μ νμ.
λ κ²½λ‘λ‘ κ°λ νλλ€μ λλ΄κ³ (μνΌμλκ° λλκ³ ) λ°μ 보μλ€μ κ°μ΄ λμ± ν° μͺ½μΌλ‘ κ°λκ² ν¨μ¨μ μΈ μ νμ΄λΌκ³ νλ¨ν μ μλ€. κ·Έλμ κ°μΉν¨μμ κ°λ
μ 보μμ ν©μ μ΄μ©νλ κ²μ΄λ€. νμ§λ§ 보μλ€μ λ¨μ ν©μΌλ‘ μνμ κ°μΉλ₯Ό νλ¨νκΈ°μ μκ° κ°λ
μ μ μ©ν μ μλ€. λ°λΌμ 보μμ λ¨μ ν©μ κ°κ°μ¨μ μ μ©ν λ°νκ°μ μ΄μ©νλ€!
λν, λ°νκ°μ 보μ μμ²΄κ° νλ₯ λ³μμ΄κΈ° λλ¬Έμ (μνμ νλμ λ°λΌ λ³νλ―λ‘) λ°νκ° λν νλ₯ λ³μμ΄λ€.
λ°λΌμ νκ· μ μλ―ΈμΈ κΈ°λκ°μ λ°νκ°μ μ μ©νλ κ²μ΄λ€.
Agentκ° κ°μ μλ Stateλ€μ κ°μΉλ₯Ό μλ€λ©΄, κ·Έ μ€ κ°μΉκ° κ°μ₯ λμ Stateλ₯Ό μ νν μ μμ.
μ¦ κΈ°λκ°μ κ³μ°νκΈ° μν΄μλ νκ²½μ λͺ¨λΈμ μμμΌν¨.
– Dynamic ProgrammingμΌλ‘ κ°μΉν¨μ κ³μ°
– κ°μΉν¨μλ₯Ό κ³μ°νμ§ μκ³ , RLμ samplingμ ν΅ν΄ μΆμ
νλ κ°μΉν¨μ : Qν¨μ : Quality of action function
μν κ°μΉν¨μλ₯Ό ν΅ν΄ λ€μ μνλ€μ κ°μΉλ₯Ό νλ¨ν μ μκ³ ,
μ΄λ₯Ό λ°νμΌλ‘, λ λμ κ°μΉλ₯Ό κ°μ§κ³ μλ λ€μ μνλ‘ κ°κΈ° μν Actionμ μ ννμ¬ μνλ₯Ό μ΄λμν¬ κ²μ΄λ€.
νμ§λ§ κ·Έλ¬κΈ° μν΄μ [λ€μ μν]λ€μ λν μ 보λ₯Ό λͺ¨λ μμμΌ νκ³ , κ·Έ μνλ‘ κ°κΈ° μν νλμ μ ννλλΌλ “μν λ³ννλ₯ ”λ κ³ λ €ν΄μΌ νλ€. (Agentλ κ°μΉκ° λ λμ νΉμ λ€μ μνλ‘ μ΄λνλ € νλλ°, μ΄λ ν νλ₯ λ‘ κ·Έ μνλ‘ μ΄λνμ§ λͺ»ν μλ μμΌλ)
λ°λΌμ (μν)κ°μΉν¨μλ§κ³ , νλμ λν κ°μΉν¨μλ₯Ό ꡬν μ μμ΄μΌ νλλ°, μ΄λ¬ν κ°λ
μ΄ Qν¨μμ΄λ€.
Qν¨μλ₯Ό μ΄μ©νλ©΄ νλμ λν κ°μΉν¨μ κ°μ λ³΄κ³ μ΄λ€ νλμ ν μ§ νλ¨νλ©΄ λκΈ° λλ¬Έμ, μνλ€μ κ°μΉλ₯Ό νλ¨νκ³ μ΄λ€ νλμ νμ λ νΉμ λ€μ μνλ‘ κ°κ² λ νλ₯ λ κ³ λ €ν΄μΌ νλ λ²κ±°λ‘μμ΄ μμ΄μ§λ€. μ¦, Qν¨μλ νΉμ μν sμμ νΉμ νλ aλ₯Ό μ·¨νμ λ λ°μ λ°νκ°μ λν κΈ°λκ°μΌλ‘ νΉμ νλ aλ₯Ό νμ λ μΌλ§λ μ’μ κ²μΈμ§μ λν κ°μ΄λ€.
μμ κ·Έλ¦ΌμΌλ‘ μν κ°μΉν¨μμ νλ κ°μΉν¨μλ₯Ό λΉκ΅ν΄λ³΄μ.
μν sμμ ν μ μλ νλμ΄ a1κ³Ό a2λ‘ λ κ°μ§ μλ€κ³ κ°μ νλ€. λν μν sμμ νλμ μ·¨νμ λ κ° μ μλ λ€μ μν s’μ΄ s’1κ³Ό s’2κ° μλ€.
μνsμ μν κ°μΉν¨μλ νλ a1μ μ·¨ν μ΄νμ λ°λ λ°νκ°λ€κ³Ό νλ a2λ₯Ό μ·¨ν μ΄νμ λ°λ λ°νκ°λ€μ λͺ¨λ κ³ λ €ν΄μ κΈ°λκ°μ ꡬν κ²μ΄λ€.
νλ κ°μΉν¨μλ μν sμμμ νλ κ°μΉν¨μλ 2κ°μ§κ° λμ¬ κ²μ΄λ€. (μ·¨ν μ μλ νλμ΄ 2κ°μ΄κΈ° λλ¬Έμ) ν κ°μ§ Qν¨μλ νλ a1μ μ·¨ν μ΄νμ λ°λ λ°νκ°λ€μ λν΄μλ§ κΈ°λκ°μ ꡬν κ²μ΄κ³ , λλ¨Έμ§ Qν¨μλ νλ a2λ₯Ό μ·¨ν μ΄νμ λ°λ λ°νκ°λ€μ λν΄μλ§ κΈ°λκ°μ ꡬν κ²μ΄λ€.
μ¬κΈ°μ λ¨μΌ μνΌμλλ§ κ³ λ €νλ€κ³ νμ λ, νΉμ μνμμ νΉμ νλμ μ ννμ¬ μνΌμλλ₯Ό μ§ννλλ° λ°νκ°λ€μ΄λΌκ³ 볡μλ‘ ννν μ΄μ λ λ κ°μ§κ° μλ€.
– 첫 λ²μ§Έλ κ·Έλ¦Όμμλ ννλμ΄μλ―μ΄ νλ a1μ μ ννλ©΄ μν s’1μΌλ‘ κ° κ²μ΄λΌκ³ μμνμ¬λ
μν λ³ν νλ₯ λ‘ μΈν΄ μν s’2λ‘ κ° νλ₯ μ΄ μκΈ° λλ¬Έμ, λ κ²½μ°μ λ°νκ°μ κΈ°λκ°μ ꡬν΄μΌ νλ€.
– λ λ²μ§Έλ μν λ³ν νλ₯ μ΄ 1μ΄μ΄μ νλ a1μ μ·¨νλ©΄ 무쑰건 μν s’1μΌλ‘ μ΄λνλ€κ³ κ°μ ν΄λ,
μν sμμμ λ°νκ°μ μν s’1μμ μ¦μ λ°λ 보μκ³Ό s’1μμμ κ°μΉν¨μμ κ°κ°μ¨μ μ μ©ν κ²μ ν©μ΄κΈ° λλ¬Έμ κΈ°λκ° κ°λ
μ΄ ν¬ν¨λλ€. (s’1μμμ κ°μΉν¨μμ κΈ°λκ° κ°λ
ν¬ν¨) <== λ²¨λ§ κΈ°λ λ°©μ μμ μ°Έκ³
μν κ°μΉν¨μμ νλ κ°μΉν¨μμ κ΄κ³
κ° νλμ νμ λμ κ°μΉμΈ “Qν¨μ”μ κ·Έ νλμ΄ μΌμ΄λ νλ₯ μ κ³±ν΄μ
λͺ¨λ νλμ λν΄ κ·Έ κ°μ λν΄μ£Όλ©΄ “μν κ°μΉν¨μ”κ° λλ€.
μμ μμμ, μ€λ₯Έμͺ½μ κ° νλμ λν Qν¨μ(νλκ°μΉν¨μ)λ₯Ό νννλλ°, μν sμμ ν μ μλ νλμ a1~a4λ‘ μμ°νμ’λ‘ μ΄λνλ €λ νλμ΄λ€. κ·Έλ¦Όμμ μ§ν νμμ μν sμμ κ° νλμ νμ λ μ λλ‘ μ΄λν λ€μ μνμ΄κ³ μ°ν νμμ μν λ³ν νλ₯ λ‘ μΈν΄ μ μ νλ₯ λ‘ λ€λ₯Έ μνλ‘ μ΄λν κ°λ₯μ±μ λνλΈ κ²μ΄λ€.
μμ νκ²½μμ λ§μ½ μνμ’μ°λ‘ μ΄λνλ νλμ νλ₯ μ΄ λμΌνλ€λ©΄ κ° νλμ΄ μΌμ΄λ νλ₯ μ 1/4μ΄λ€. 4κ°μ§ κ²½μ°μ νλ λͺ¨λμ λν΄ 1/4 νλ₯ κ³Ό κ° νλμ λν Qν¨μλ₯Ό κ³±ν ν μ΄ κ°μ λͺ¨λ λν΄μ§λ©΄ μν sμμμ μν κ°μΉν¨μμ κ°μ κ°μ΄ λμ¨λ€.