Statistics || 1. 경영통계의 시작 : Data의 정의 , 기술통계량 , 추정통계량
* 통계(Statistics)
1. 데이터 (Data)의 정의 (통계적 관점에서)
: 변인(Variable)으로부터 관찰된 값 (the observed values of a variable)
※ Variable(변수, 변인) : 모집단 또는 표본이 가진 특성 → X, Y, Z로 각각 표현
The values of the variable (변수값) : 변수가 가질 수 있는 값의 범위 → (ex) student marks (0,100)
* 데이터 유형 및 데이터의 계층 구조(Hierarchy of Data)
2. 기술통계량 (Descriptive Statistics)
* 정의 : 어떠한 데이터의 값과 형태를 시각적 또는 수치적으로 함축할 수 있는 공통의 요약 방식
→ 표현 가능한 정보 : 데이터의 산포도, 유사성, 특정한 흐름(경향성)이나 변동성 등
* 세부 유형
1) Graphical Techniques - 히스토그램, 파이차트, 박스플롯, 바이올린 차트 등
2) Numerical Techniques - 평균, 분산, 중앙값, 최빈값, 범위, 최소/최대값 등
3. 추론통계량 (Inferential Statistics)
* 정의 : 전체에서 추출한 표본의 특성으로부터 전체의 특징을 역으로 설명하는 방식(Estimation),
표본을 통해 설명하는 것에 대한 타당성을 함께 검증(Testing)해야 하는 작업이 필요함
→ 데이터 전체를 파악하고 관리하기 어려워 해당 문제(또는 현상) 정확한 판단하기 어려운 상황일 때,
비용적 관점에서 의사결정 효율화 추구
* 통계적 추론(Statistical Inference)
: 최대한 bias를 최소화할 수 있는 방식으로 모집단(Population)을 대표할 수 있는 표본(Sample)을
추출하여 그 표본의 특징(통계량, statistic)을 분석해 전체의 값(모수, Parameter)을 도출하는 것
* [Parameter]모평균μ, 모표준편차 σ, 모비율 p, /N [Statistic] 표본의 평균 x̄, 표본표준편차 s , /(N-1)
* Sampling distribution of mean : 동일 모집단에서 크기 n의 표본을 반복 추출해 얻은 표본평균값 분포
* Standard error(표준오차) : 표본평균이 모평균과 얼마나 퍼져 있는지를 나타내는 표준편차 추정치
몇 년 전에 통계공부하면서 정리해 둔 내용을 발견했다.
그냥 흘리기엔 정리가 잘 되있어서 아껴둔 노트를 하나씩 업데이트 예정이다.