가볍게 배우고 깊게 즐기고 오래 남기기

Python || Pandas DataFrame의 describe() 사용 시 유의점 본문

Programming & Tip/Python

Python || Pandas DataFrame의 describe() 사용 시 유의점

Awesomist 2021. 1. 13. 08:31
728x90

여러 개의 Series 유형을 하나로 묶은 DataFrame의 정보요약을 보고 싶을 때,
사용하는 Pandas의 DataFrame.describe()

 

 

(1) 데이터프레임(일반적으로 CSV 데이터) 전체의 요약정보 (주로 요약통계량)를 확인할 경우 , 

   → Count : 컬럼별 총 데이터수
       mean / std :  컬럼별 데이터의 평균 / 표준편차
       min / max  :  컬럼별 데이터 최소값 / 최대값
       25% / 50% / 75% : 백분위수의 각 지점으로, 분포를 반영해 평균을 보완하는 목적으로 사용

 

 

 

(2)  특정 컬럼/ 특정 시리즈의 요약정보를 확인할 경우 , 

   → Count : 총 데이터수
       Unique :  중복없이 나오는 고유한 데이터값
       Top : 가장 값이 많은 데이터 (최빈값인 항목)
       Freq : 최빈 데이터의 실제 수 (Top의 개수, 최빈값)
         

 

 

 

은근히 빅데이터 현황 파악에는 (2)가 유용한데 많은 사람들이 (1)처럼 전체의 평균값 확인하는 용으로
거의 대부분 사용하는 듯 싶다.
(2)번의 코드 대신 아래 코드로 개별적으로 사용하는 경우가 생각보다 많아 아쉬운 마음에.

df['컬럼명'].unique()
   #  Distinct 값 확인, 즉 중복 제외한 값의 종류 확인용 (Unique와 동일)

df['컬럼명'].value_counts()
    # 중복 포함해 전체 데이터 수 Count와 동일
       
df.dtypes 	# 데이터프레임 각 컬럼의 데이터 유형

 

 

+ 한 가지 팁 추가

    →여러 개의 컬럼(Series)의 요약정보를 확인하려면,
      반드시 컬럼 전체를 리스트로 묶어 처리할 것

 

 

 

 

 

 

 

 

 

PANWEST PM-989 인체공학 버티컬마우스로지텍 리프트 버티칼 인체공학 무선마우스 LIFT, 펄 화이트 [Microsoft 코리아] 마이크로소프트 Sculpt Ergonomic 무선마우스 스컬프트 에고노믹 인체공학 무선마우스 + 마우스패드증정, Sculpt Ergonomic mouse엘레컴 인체공학적 왼손 트랙볼 무선마우스, 레드(볼)Microsoft 코리아 블루투스 데스크탑 키보드 + 마우스, 일반형, QHG-00028, 혼합색상아이리버 Wrist Egonomics 듀얼 멀티페어링 인체공학 버티컬 무선키보드마우스세트, 버티컬 세트

※  파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있습니다.

반응형
Comments