▶탐색적 데이터 분석(EDA)
- 데이터의 시각화, 기술통계 등의 방법을 통해
데이터를 이해하고 탐구하는 과정
● 기술 통계를 통한 EDA 예시
- describe() 메소드를 하여 기초통계량 확인
(* include = 'all' 옵션을 사용하면 범주형 데이터도 확인가능)
● 시각화를 이용한 EDA 예시
1) countplot : 범주형 자료의 빈도 수 시각화
- 범주형 데이터의 각 카테고리별 빈도수 나타날 때
- x축 : 범주형 자료
- y축 : 자료의 빈도수
2) barplot : 범주형 자료의 시각화
- 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 비교
*기본값은 수치데이터의 평균을 나타내는 것으로 되어 있는데,
estimator 옵션으로 집계함수 종류를 변경할 수 있다.
ex) estimator = 'sum'
- x축 : 범주형 자료
- y축 : 연속형 자료
3) boxplot : 수치형 & 범주형 자료의 시각화
- 범주형 데이터의 분포, 중앙값, 사분위수, 이상치 등을 한눈에 표현
- x축 : 수치형 or 범주형
- y축 : 수치형 자료
4) histogram : 수치형 자료 빈도 시각화
- 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을
파악하기 쉬움
- x축 : 수치형 자료
- y축 : 자료의 빈도수
5) scatterplot : 수치형자료끼리 시각화
- 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때
- x축 : 수치형 자료
- y축 : 수치형 자료
6) pairplot : 전체 변수에 대한 시각화
- 한 번에 여러 개의 변수를 동시에 시각화 하고 싶을 때
- x축 : 범주형 or 수치형 자료
- y축 : 범주형 or 수치형 자료
- 대각선 : 히스토그램(분포)
'데이터분석 study > ML_ 심화' 카테고리의 다른 글
TIL_24.08.27_데이터 분리, 교차검증 (0) | 2024.08.27 |
---|---|
TIL_24.08.26_데이터 전처리(encoding, scaling) (0) | 2024.08.26 |
TIL_24.08.22_데이터 전처리(이상치, 결측치) (0) | 2024.08.22 |
TIL_24.08.20_ 회귀 알고리즘 복습 (0) | 2024.08.20 |
TIL_24.08.14_데이터분석 프로세스(수집) (0) | 2024.08.14 |