일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- AWS
- 서평
- Adobe
- Ga
- datastudio
- tableau
- Q
- ChatGPT
- 데이터시각화
- 구글애널리틱스
- 필사
- daily
- 파이썬
- diary
- 챗GPT
- review
- 태블로
- 빅쿼리
- SQL
- GPT
- 데일리
- 책리뷰
- openAI
- 데이터분석
- bigquery
- AZURE
- Python
- 북리뷰
- r
- 생성AI
- Today
- Total
가볍게 배우고 깊게 즐기고 오래 남기기
Statistics || 3. 확률과 확률변수, 이산형 확률분포 & 연속형 확률분포, 결합확률 & 주변확률, 심슨의 역설, 베이즈 정리 본문
Statistics || 3. 확률과 확률변수, 이산형 확률분포 & 연속형 확률분포, 결합확률 & 주변확률, 심슨의 역설, 베이즈 정리
Awesomist 2023. 5. 10. 13:58확률 (Probability)
: (1) Classical approach (전통적 접근)
- 똑같은 가능성의 사건을 똑같은 확률값으로 정의하는 것
(2) Relative frequency approach (상대적 접근) ♡ Frequentest
- 무수한 실험이 현실적으로 가능하지 않다는 문제, 발생이력이 없는 미확인 가상의 문 적용 불가
(3) Subjective approach (주관적 접근) ♡ Bayesian
- 발생 사건에 대해 사람마다 다른 확률값과 해석이 가능
용어설명
→ Sample space (=A set of the simple events)
: [조건] (1) 전부를 포함( exhaustive) (2) 상호배반적 (exclusive)
→ "Randomly extracted" = 표본들이 모두 같은 확률로 추출됨
확률변수 (Random Variable)
* 확률변수 (Random Variable) : Random-experiment output에 대한 숫자적 표현
→ for 자료처리의 편의성, 단위가 있는 숫자를 단위가 없는 숫자로 바꾸는 것 (순수한 숫자로)
a. 이산형 확률변수 (Discrete Random Variable) : Finite Num. & Countable infinite Num.
- Discrete Prob. Var. X ~ Prob mass Func (확률질량함수) + F(X) (누적질량함수)
Expected value/Expectation : E(X)), 기댓값 |
![]() |
Weighted average of elements in sample space |
Variation | ![]() |
Measure of Variability / spread |
Standard Deviation | ![]() |
b. 연속형 확률변수 (Continuous Random Variable) : Different to Count (온/습도,무게,시간 등)
* 확률분포 (Prob. Distribution) : 모집단 추정위해, 확률 지정 방식에 따라 Discrete/Continuous 구분
a. 이산형 확률분포 (Discrete Prob. Distribution)
- Finite & 주사위/동전처럼 제한된 경우에 각각 0~1 내 확률값 지정 가능하다면 !
Bernoulli : X~Ber(p) | ![]() |
베르누이 확률변수에서 표본 1일 때 |
Binomal : X~Bin(p) | ![]() |
베르누이 확률변수에서 표본 여럿 |
Poisson : X~Poi(λ) | ![]() |
관심 사건,고정된 영역 집중 (n이 충분히 크고 p는 아주 작을 때) |
포아송분포 POINT
* B has Additivity (독립이고 각각 X,Y가 포아송 분포를 따르면 : X,Y~B(p), X+Y ~ B(n+m,p)
* 포아송분포(Poi) is Approximate distribution + Expect & Var 모두 λ
* 포아송분포(Poi) has additivity & 확산성(단위 기간 t당 관심사건 발생 수) … (t*Poi(λ) = Poi(tλ)
b. 연속형 확률분포 (Continuous Prob. Distribution)
- Infinite/Uncountable & 구간으로 해야 확률값 지정 가능하다면
- 특정 상황에 대한 경우가 무한대까지 뻗어나갈 수 있다면 연속형 !

POINT
※ Mutually Exclusive의 경우 - 교집합이 공집합) A+ B = 합집합
※ 조건부확률을 모두 더하면 1 (Marginal이라고 하는 이유가 일면 이해된다)
※ 독립사건일 경우 : P(교집합)은 P(A) * P(B)
→ 애초에 사건 간 확률적 관계성이 없는 것 ! (상호배반은 MECE의 개념)
결합확률 & 주변확률
* 결합확률(Joint, 교집합 확률) & 주변확률 (Marginal, 한 쪽 사건에 집중)
- 아래 그림 기준으로 연한 부분 Joint, 진한 부분 Marginal … Conditional = Joint / Marginal
* Bayes’ theorem (베이즈 정리, w/ Inverse Prob)
- 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리로,
조건상황이 역으로 되어있는 역확률로 원인에 대한 확률을 계산 가능
→ 일반적으로 원인별로 결과가 발생할 확률이 명확하지만
실제 세상에서는 자동차 고장의 증상 또는 합격현황 같은 결과를 확인 후 원인을 알아내야 하는 경우 더 많다!
" Transfer the focus … Prior prob. → Posterior prob. (w/Conditional Prob) "
* Simpson’s Paradox (심슨의 역설)
( = Yule-Simpson effect, reversal paradox, amalgamation paradox)
: 통계 또는 확률적인 결과를 인과관계로 연결시켜 설명하려는 과정에서 발생하는 현상으로,
데이터 계층이나 핵심 변수의 유무 등에 따라 분석 결과가 상이해지는 문제가 발생
→ 즉, 통계분석 시 분석 대상과 관련된 중요 변수를 상세하게 분석 필요
(→ 다시 한 번 강조되는 필드지식, 비즈니스 이해도의 중요성!!!)
(함께 참고하면 좋을 개념!)
※ Confounding variable (혼선변수 / 중첩변수) 또는 Lurking variable ( 잠복변수)
'분석인사이트 > 이론공부_통계' 카테고리의 다른 글
Statistics || 2. 경영통계 : 변동성 척도 (표준편차, 변동계수(CV), IQR) & 연관성척도 (공분산(Cov), 피어슨상관계수) , 가설검정 개요 (0) | 2023.04.26 |
---|---|
Statistics || 1. 경영통계의 시작 : Data의 정의 , 기술통계량 , 추정통계량 (0) | 2023.04.19 |