가볍게 배우고 깊게 즐기고 오래 남기기
Statistics || 1. 경영통계의 시작 : Data의 정의 , 기술통계량 , 추정통계량 본문
* 통계(Statistics)
1. 데이터 (Data)의 정의 (통계적 관점에서)
: 변인(Variable)으로부터 관찰된 값 (the observed values of a variable)
※ Variable(변수, 변인) : 모집단 또는 표본이 가진 특성 → X, Y, Z로 각각 표현
The values of the variable (변수값) : 변수가 가질 수 있는 값의 범위 → (ex) student marks (0,100)
* 데이터 유형 및 데이터의 계층 구조(Hierarchy of Data)
2. 기술통계량 (Descriptive Statistics)
* 정의 : 어떠한 데이터의 값과 형태를 시각적 또는 수치적으로 함축할 수 있는 공통의 요약 방식
→ 표현 가능한 정보 : 데이터의 산포도, 유사성, 특정한 흐름(경향성)이나 변동성 등
* 세부 유형
1) Graphical Techniques - 히스토그램, 파이차트, 박스플롯, 바이올린 차트 등
2) Numerical Techniques - 평균, 분산, 중앙값, 최빈값, 범위, 최소/최대값 등
3. 추론통계량 (Inferential Statistics)
* 정의 : 전체에서 추출한 표본의 특성으로부터 전체의 특징을 역으로 설명하는 방식(Estimation),
표본을 통해 설명하는 것에 대한 타당성을 함께 검증(Testing)해야 하는 작업이 필요함
→ 데이터 전체를 파악하고 관리하기 어려워 해당 문제(또는 현상) 정확한 판단하기 어려운 상황일 때,
비용적 관점에서 의사결정 효율화 추구
* 통계적 추론(Statistical Inference)
: 최대한 bias를 최소화할 수 있는 방식으로 모집단(Population)을 대표할 수 있는 표본(Sample)을
추출하여 그 표본의 특징(통계량, statistic)을 분석해 전체의 값(모수, Parameter)을 도출하는 것
* [Parameter]모평균μ, 모표준편차 σ, 모비율 p, /N [Statistic] 표본의 평균 x̄, 표본표준편차 s , /(N-1)
* Sampling distribution of mean : 동일 모집단에서 크기 n의 표본을 반복 추출해 얻은 표본평균값 분포
* Standard error(표준오차) : 표본평균이 모평균과 얼마나 퍼져 있는지를 나타내는 표준편차 추정치
몇 년 전에 통계공부하면서 정리해 둔 내용을 발견했다.
그냥 흘리기엔 정리가 잘 되있어서 아껴둔 노트를 하나씩 업데이트 예정이다.
'분석인사이트 > 이론공부_통계' 카테고리의 다른 글
Statistics || 3. 확률과 확률변수, 이산형 확률분포 & 연속형 확률분포, 결합확률 & 주변확률, 심슨의 역설, 베이즈 정리 (0) | 2023.05.10 |
---|---|
Statistics || 2. 경영통계 : 변동성 척도 (표준편차, 변동계수(CV), IQR) & 연관성척도 (공분산(Cov), 피어슨상관계수) , 가설검정 개요 (0) | 2023.04.26 |