목록분석인사이트/이론공부_통계 (3)
가볍게 배우고 깊게 즐기고 오래 남기기

확률 (Probability) : (1) Classical approach (전통적 접근) - 똑같은 가능성의 사건을 똑같은 확률값으로 정의하는 것 (2) Relative frequency approach (상대적 접근) ♡ Frequentest - 무수한 실험이 현실적으로 가능하지 않다는 문제, 발생이력이 없는 미확인 가상의 문 적용 불가 (3) Subjective approach (주관적 접근) ♡ Bayesian - 발생 사건에 대해 사람마다 다른 확률값과 해석이 가능 용어설명 → Sample space (=A set of the simple events) : [조건] (1) 전부를 포함( exhaustive) (2) 상호배반적 (exclusive) → "Randomly extracted" = 표본..

[변동성 척도] – Measure of Variability * Standard deviation(표준편차) → Variance의 제곱근, 평균에서이 얼마나 분산되어 있는지 검토 가능 * Coefficieat of variation (변동계수): (=표준편차/평균*100), 표준편차를 상대적인 값으로 표준화 시킨 값 → 상대값으로 변환해 규모의 효과 상쇄할 수 있음 * IQR (Interquartile range): (=Q3-O1) → Python / R 등의 통계 시각화에서 많이 활용하는 Boxplot [연관성 척도] – Measure of Association ※ 특잇값 발견(정규화 활용) → Z-score = (x-m)/s ※ 그룹 평균/분산 – 계급의 Median을 대표값으로 활용한다 * 통계적 ..

* 통계(Statistics) : 어떤 상황에서 보여주는 자료(Data)로부터 문제나 다양한 의미(Information)를 정량적으로 도출해내는 방법 (to extract information from data) → 자료 수집/정리/요약 외에 일부 데이터로 전체를 추정할 수 있는 가공의 영역도 포함됨 1. 데이터 (Data)의 정의 (통계적 관점에서) : 변인(Variable)으로부터 관찰된 값 (the observed values of a variable) ※ Variable(변수, 변인) : 모집단 또는 표본이 가진 특성 → X, Y, Z로 각각 표현 The values of the variable (변수값) : 변수가 가질 수 있는 값의 범위 → (ex) student marks (0,100) * ..