logistic regression :: Odds Ratio 해석

Published by onesixx on

https://cafe707.wordpress.com/2012/10/20/odds-ratio/
http://www.theanalysisfactor.com/the-difference-between-relative-risk-and-odds-ratios/
http://www.theanalysisfactor.com/why-use-odds-ratios/
http://tip.daum.net/openknow/65887671

 

Logistic regression은 Categorical Y를 logit으로 변환하여 Linear regression와 같은 방법으로 모델을 fitting한다.
Y는 확률로 간주하고 진행하는데, 다만 확률을 사용할 경우 분모의 Group size가 유동적이므로
단순 확률이 아닌 Odd을 사용하여 해석하는 것이 Constant하게 X의 effect를 표현할수 있다 .
따라서, logit변환된 모델을 exp()을 적용하여 odd ratio로 모델을 해석한다. 

 

Odds  

  • 어떤 event가 일어나지 않을 확률 (1-P) 대비 Event가 일어날 확률(P)의 확률비 (ratio of probability)
  • event / non-event , 즉 전체 가능한 event 중 event발생의 확률이 아니다.
  • “성공확률이 실패확률에 비해 몇 배 더 높은가”를 나타냄

       =     

ex) 제품검사를 진행했는데,  A기계를 사용했때 3번, B장비를 사용했을때 1번 불량이 발생했다.
           A기계에서 불량이 발생할 Odds는      

     cf. A기계에서 불량이 발생할 확률(Probability, risk)은

Odds vs. Probability

Probability는 모든 가능한 event에 대비 , 관심있는 event의 likelihood이다.

logistic regression에서 Odds ratio는 categorical Y가 일어날 가능성(likelihood)에 대해,  X의 constant effect를 나타낸다.
즉, Y에 대한 각 X의 unique effect의 측도로써 Probability는 X의 값에 따라 다른 값을 갖기 때문에 effect를 constant하게 나타내지 못한다.

ex> A장비에서 100번, B장비에서 각각 100씩 품질검사

  X  \   Y  불량(1) 양품(0) SUM
A장비 (문제장비, treatment) 50 50 100
B장비 (기존장비,    control   )   3 97 100

OR (odd ratio)

  • Odds 비율로써, categorical Y와 X 간의 연관성의 측도
  • control 그룹 대비 treatment 그룹에서 발생한 event의 odds비율
  • Odd ratio는 sum을 알지 못해도, 사용할수 있다. 이는 모수를 알지못하는 상황에서 샘플수 n만 통제가능한 상황에 알맞다.

odds(A장비에서 불량발생 odds , A장비에서 양품)  =   (50/100) / (50/100) =  50/ 50 = 1            => 1:  1     불량인데 A장비의 제품일 odds
odds(B장비에서 불량발생 odds , B장비에서 양품)  =   (  3/100) / (97/100) =  3/  97 = 0.031     => 3:97     불량인데 B장비의 제품일 odds
=> B장비 대비 A장비의 불량발생 odds ratio =   50*97/ 50*3 =  1 / 0.031 = 32.333
A장비를 사용한 경우 불량날 확률비는 B장비를 사용한 경우의 불량날 확률비 대비 32배가 높다고 할 수 있다.

RR (risk ratio,  relative risk)

  • Probabilities 비율로써, categorical Y와 X 간의 연관강도의 측도
  • “불량”에 대한 treatment의 상대적 risk의 측도로 OR보다는 더 직관적이다.
  • 만약 1 이면, 효과가 없다고 할수 있다. 

A장비에서 불량발생 Probability  =   (50/100)  = (50 / 50+50) = 0.5                   A장비에서 만든 제품중에서 불량일 확률
B장비에서 불량발생 Probability  =   (  3/100)  = (   3/ 3 +97 ) = 0.03                  B장비에서 만든 제품중에서 불량일 확률
=> B장비 대비 A장비의 불량발생 relative risk = 0.5 / 0.03 = 16.666
A장비를 사용한 경우에 불량날 확률이 16배가 높다고 할 수 있다.

odd ratio는  주어진 변수(A장비)가 다른 변수(B장비)대비하여 관심있는 Outcome(불량)에 얼마나 강하게 관련되어 있는가?
아래 event의 확률을 비교하는 relative risk와 다리, Odd의 비교하여  연관성을 표현하는 하나의 다른 방법이다.
Outcome의 비율이 드문경우에는 값이 비슷하다.  A장비는 B장비 대비 불량발생과 더 강하게 연관되어 있다. 
C장비에서 100번 검사했을때 25번의 불량발생했다면 odds = (25/100)/(75/100) = 0.3333 , OR = 0.3333/ 0.031 = 10.7516

사실, 이 실험은  무작위 대조연구(RCT)를 가정한것이어서,  B장비대비 A장비에서 불량발생 odd가 50배이다라고 할수 있다. 
또는 B장비대비 A장비의 불량발생 확률(risk)가 25배 증가했다라고 한다. 

사례대조군연구(case-control study)에서는 RR대신 OR을 사용하는 이유는 뭘까?

RR을 계산하기 위해서는 그룹간의 outcome risk를 비교한다.
대조연구에서는 outcome을 통제하에두고, outcome 과 controls로 그룹을 나눈다
이런 “실험”의 목적은 그룹 간의 차이를 만들어내는 risk요인을 발견해 내는데 있다. 
그러므로 risk와 그에 따른 RR은 이런 연구에서는 계산할수 없다. 
따라서 RR대신 risk 요인이 outcome과 얼마나 강하게 연관되었는지 측정하기 위해 OR을 사용한다. 

RCT연구가 아니라면, 실제 처리(treatment)그룹과 대조(control)그룹의 모집단수를 알 수  없다. 연구자가 할 수 있는 것은 샘플수를 조정할 수 있을 뿐이다. 

위 의 예를 조금 바꿔서 아래 표로 정리해보면,  불량이 난 100건을 조사해 보니, A장비를 사용한 경우가 40건이었다.
양품이 생산된 100건을 조사해보니 A장비를 사용한 경우는 20건이었다.
즉 불량난 총 모집전체 물고기를 잡은 사람수를 구할 수 있는 방법은 없다.  즉, 연구자는 각각의 모집단의 수를 알 수 없다.

   A장비 (문제장비, treatment) B장비 (기존장비,    control   ) sample # of SUM
불량(1) 40 60 100
양품(0) 20 80 100

  X  \   Y  불량(1) 양품(0) SUM
A장비 (문제장비, treatment) 40 20
B장비 (기존장비,    control   ) 60 80

 이때 모집단의 #를 알수 없기 때문에, RR 을 사용할수 없고  대신 OR을 사용한다. 

odds(A장비를 사용하고  불량일 확률 /  양품일 확률 = =  40/60 = 0.67
odds(B장비에서 불량일 확룰 / 양품일 확률 = 20/80 = 0.25

불량의 경우에 A장비를 사용하는 비율과   양품인 경우의 Odds ratio는 0.67/ 0.25 = 2.7  
OR =  0.67/0.25 = 2.7

이는 불량은 양품에 대비 A장비를 2.7배 더 사용하는 경향이 있다라고 해석을 해야한다.
A장비를 사용하면 불량일 확률이 2.7배 높다 (X) 라는 해석은 잘못된 것이다. (X)

 

 

Categories: book:ISLR

onesixx

Blog Owner

Leave a Reply

Your email address will not be published.