데이터분석 study/ML_ 심화

TIL_24.08.16_EDA

justdata 2024. 8. 16. 20:41

탐색적 데이터 분석(EDA)

    - 데이터의 시각화, 기술통계 등의 방법을 통해

      데이터를 이해하고 탐구하는 과정

 

  ● 기술 통계를 통한 EDA 예시 

       - describe() 메소드를 하여 기초통계량 확인

          (* include = 'all' 옵션을 사용하면 범주형 데이터도 확인가능)

 

    시각화를 이용한 EDA 예시 

       1) countplot : 범주형 자료의 빈도 수 시각화

           - 범주형 데이터의 각 카테고리별 빈도수 나타날 때

           -  x축 : 범주형 자료

           -  y축 : 자료의 빈도수

 

       2) barplot : 범주형 자료의 시각화

           - 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 비교

               *기본값은 수치데이터의 평균을 나타내는 것으로 되어 있는데,

                 estimator 옵션으로 집계함수 종류를 변경할 수 있다.

                  ex) estimator = 'sum'

           -  x축 : 범주형 자료

           -  y축 : 연속형 자료

 

        3) boxplot : 수치형 & 범주형 자료의 시각화

           - 범주형 데이터의 분포, 중앙값, 사분위수, 이상치 등을 한눈에 표현

           -  x축 : 수치형 or 범주형

           -  y축 : 수치형 자료

 

       

        4) histogram : 수치형 자료 빈도 시각화

           - 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 

              파악하기 쉬움

           -  x축 : 수치형 자료

           -  y축 : 자료의 빈도수

 

       

        5) scatterplot : 수치형자료끼리 시각화

           - 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때 

           -  x축 : 수치형 자료

           -  y축 : 수치형 자료

 

       

        6) pairplot : 전체 변수에 대한 시각화

           - 한 번에 여러 개의 변수를 동시에 시각화 하고 싶을 때

           -  x축 : 범주형 or 수치형 자료

           -  y축 : 범주형 or 수치형 자료

           - 대각선 : 히스토그램(분포)