가볍게 배우고 깊게 즐기고 오래 남기기

Statistics || 1. 경영통계의 시작 : Data의 정의 , 기술통계량 , 추정통계량 본문

분석인사이트/이론공부_통계

Statistics || 1. 경영통계의 시작 : Data의 정의 , 기술통계량 , 추정통계량

Awesomist 2023. 4. 19. 01:16
728x90


* 통계(Statistics)

   : 어떤 상황에서 보여주는 자료(Data)로부터 문제나 다양한 의미(Information)를 정량적으로
     도출해내는 방법 (to extract information from data)
       → 자료 수집/정리/요약 외에 일부 데이터로 전체를 추정할 수 있는 가공의 영역도 포함됨


 

1.  데이터 (Data)의 정의 (통계적 관점에서)

     : 변인(Variable)으로부터 관찰된 값 (the observed values of a variable)

※ Variable(변수, 변인) : 모집단 또는 표본이 가진 특성 →  X, Y, Z로 각각 표현
    The values of the variable (변수값) : 변수가 가질 수 있는 값의 범위 → (ex) student marks (0,100)


* 데이터 유형 및 데이터의 계층 구조(Hierarchy of Data)
 




2.  기술통계량 (Descriptive Statistics)

* 정의 : 어떠한 데이터의 값과 형태를 시각적 또는 수치적으로 함축할 수 있는 공통의 요약 방식
→ 표현 가능한 정보 : 데이터의 산포도, 유사성, 특정한 흐름(경향성)이나 변동성 등

* 세부 유형
1) Graphical Techniques - 히스토그램, 파이차트, 박스플롯, 바이올린 차트 등
2) Numerical Techniques - 평균, 분산, 중앙값, 최빈값, 범위, 최소/최대값 등




3. 추론통계량 (Inferential Statistics)

* 정의 : 전체에서 추출한 표본의 특성으로부터 전체의 특징을 역으로 설명하는 방식(Estimation),
표본을 통해 설명하는 것에 대한 타당성을 함께 검증(Testing)해야 하는 작업이 필요함

→ 데이터 전체를 파악하고 관리하기 어려워 해당 문제(또는 현상) 정확한 판단하기 어려운 상황일 때,
        비용적 관점에서 의사결정 효율화 추구

 

* 통계적 추론(Statistical Inference)
 : 최대한 bias를 최소화할 수 있는 방식으로 모집단(Population)을 대표할 수 있는 표본(Sample)을
   추출하여 그 표본의 특징(통계량, statistic)을 분석해 전체의 값(모수, Parameter)을 도출하는 것

 

* [Parameter]모평균μ, 모표준편차 σ, 모비율 p, /N [Statistic] 표본의 평균 x̄, 표본표준편차 s , /(N-1)

* Sampling distribution of mean : 동일 모집단에서 크기 n의 표본을 반복 추출해 얻은 표본평균값 분포

* Standard error(표준오차) : 표본평균이 모평균과 얼마나 퍼져 있는지를 나타내는 표준편차 추정치

 


 

몇 년 전에 통계공부하면서 정리해 둔 내용을 발견했다.

그냥 흘리기엔 정리가 잘 되있어서 아껴둔 노트를 하나씩 업데이트 예정이다.

반응형
Comments