가볍게 배우고 깊게 즐기고 오래 남기기

Statistics || 3. 확률과 확률변수, 이산형 확률분포 & 연속형 확률분포, 결합확률 & 주변확률, 심슨의 역설, 베이즈 정리 본문

분석인사이트/이론공부_통계

Statistics || 3. 확률과 확률변수, 이산형 확률분포 & 연속형 확률분포, 결합확률 & 주변확률, 심슨의 역설, 베이즈 정리

Awesomist 2023. 5. 10. 13:58
728x90
 

확률 (Probability)


    :  (1) Classical  approach  (전통적 접근)
             -  똑같은 가능성의 사건을 똑같은 확률값으로 정의하는 것
       (2) Relative frequency approach  (상대적 접근)  ♡ Frequentest
             - 무수한 실험이 현실적으로 가능하지 않다는 문제,  발생이력이 없는 미확인 가상의 문 적용 불가

       (3) Subjective approach (주관적 접근) ♡ Bayesian
             - 발생 사건에 대해 사람마다 다른 확률값과 해석이 가능


 용어설명 
   →   Sample space (=A set of  the simple events)
                   : [조건] (1)  전부를 포함( exhaustive)    (2) 상호배반적 (exclusive)
   →   "Randomly extracted=   표본들이 모두 같은 확률로 추출됨



 

확률변수 (Random Variable)

* 확률변수 (Random Variable) : Random-experiment output에 대한 숫자적 표현
       
→  for 자료처리의 편의성, 단위가 있는 숫자를 단위가 없는 숫자로 바꾸는 것 (순수한 숫자로)


   a. 
이산형 확률변수 (Discrete Random Variable)   Finite Num. & Countable infinite Num.
        - 
Discrete Prob. Var. X ~ Prob mass Func (확률질량함수)   +  F(X) (누적질량함수)           

 

Expected value/Expectation
 : E(X)), 
기댓값
Weighted average of
 elements in sample space
Variation
Measure of Variability / spread
Standard Deviation

  b. 연속형 확률변수 (Continuous Random Variable) : Different to Count (온/습도,무게,시간 등)

             * 확률분포 (Prob. Distribution) : 모집단 추정위해, 확률 지정 방식에 따라 Discrete/Continuous 구분

 


 


a. 이산형 확률분포  (Discrete Prob. Distribution)

   -  Finite & 주사위/동전처럼 제한된 경우에 각각 0~1 내 확률값 지정 가능하다면 !

Bernoulli : X~Ber(p)
 
베르누이 확률변수에서 표본 1일 때
Binomal  : X~Bin(p)
베르누이 확률변수에서 표본 여럿
Poisson : X~Poi(λ)  
관심 사건,고정된 영역 집중
 (n이 충분히 크고 p는 아주 작을 때)

 포아송분포 POINT 
 * B has Additivity (독립이고 각각  X,Y가 포아송 분포를 따르면 : X,Y~B(p), X+Y ~ B(n+m,p)
           * 포아송분포(Poi) is Approximate distribution + Expect & Var 모두 λ
           * 포아송분포(Poi)  has additivity & 확산성(단위 기간 t당 관심사건 발생 수) …  (t*Poi(λ) = Poi(tλ)


b. 연속형 확률분포 (Continuous Prob. Distribution)
   
-  Infinite/Uncountable  &  구간으로 해야 확률값 지정 가능하다면
   -  특정 상황에 대한 경우가 무한대까지 뻗어나갈 수 있다면 연속형 
!

 

 


 

 POINT 

Mutually Exclusive의 경우  -  교집합이 공집합)  A+ B = 합집합
 조건부확률을 모두 더하면  1 (Marginal이라고 하는 이유가 일면 이해된다)
독립사건일 경우 :  P(교집합)은 P(A) * P(B)
                               → 애초에 사건 간  확률적 관계성이 없는 것 ! (상호배반은 MECE의 개념)

 

 

 


 

 

 결합확률 & 주변확률

* 결합확률(Joint, 교집합 확률) & 주변확률 (Marginal, 한 쪽 사건에 집중)
    
- 아래 그림 기준으로 연한 부분 Joint, 진한 부분 Marginal … Conditional = Joint / Marginal


 

* Bayes’ theorem (베이즈 정리, w/ Inverse Prob) 

    - 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리로,

        조건상황이 역으로 되어있는 역확률로 원인에 대한 확률을 계산 가능

  
    → 일반적으로 원인별로 결과가 발생할 확률이 명확하지만
         실제 세상에서는 자동차 고장의 증상 또는 합격현황 같은 결과를 확인 후 원인을 알아내야 하는 경우 더 많다!

        " Transfer the focus  …  Prior prob.  → Posterior prob. (w/Conditional Prob) "

 

 

 

* Simpson’s Paradox    (심슨의 역설)
         ( = Yule-Simpson effect, reversal paradox, amalgamation paradox)


    :  통계 또는 확률적인 결과를 인과관계로 연결시켜 설명하려는 과정에서  발생하는 현상으로,
        데이터 계층이나 핵심 변수의 유무 등에 따라 분석 결과가 상이해지는 문제가 발생 

       →  즉, 통계분석 시 분석 대상과 관련된 중요 변수를 상세하게 분석 필요
             (→ 다시 한 번 강조되는  필드지식, 비즈니스 이해도의 중요성!!!)

        (함께 참고하면 좋을 개념!)
         ※  Confounding variable (혼선변수 / 중첩변수)  또는 Lurking variable ( 잠복변수)

 

 

반응형
Comments