● Box plot
- 연속형 데이터의 분포와 이상치를 시각화하는 데 주로 사용
- 데이터의 중앙값, 사분위수(25%, 50%, 75% 위치의 값), 최소값,
최대값, 이상치를 한눈에 파악할 수 있다.
예시코드)
import matplotlib.pyplot as plt
import numpy as np
# 데이터 생성
np.random.seed(10)
data = [np.random.normal(0, std, 100) for std in range(1, 4)]
# 박스 플롯 그리기
plt.boxplot(data)
plt.xlabel('Data')
plt.ylabel('Value')
plt.title('Box Plot')
plt.show()
■ Box plot의 구성요소
□ 상자(box) : 데이터의 중앙값과 사분위수 (25%와 75%)를 나타낸다,
상자의 아래 쪽 끝은 25%의 값(1사분위수),
상자의 윗쪽 끝은 75%의 값(3사분위수)
상자의 중앙에 위치한 선은 중앙값을 나타냄.
□ 수염(whisker) : 상자의 위 아래로 연장되는 선,
일반적으로 1.5배의 사분위 범위로 계산 됨
이 범위를 넘어가는 값은 이상치(outlier)로 간주
수염의 끝은 최솟값과 최댓값을 나타냄.
□ 이상치(outliers) : 수염 부분을 벗어나는 개별 데이터 포인트로 ,
일반적인 범위를 벗어나는 값들을 의미,
데이터의 정확성을 해치거나 모델의 성능을
왜곡시킬 수 있기 때문에 이상치를 식별하고
처리하는 것이 중요.
● Scatter plot(산점도)
- 두 변수 간의 관계 및 상관관계를 보여줄 때 사용
- 변수간의 관계, 군집, 이상치를 확인하고자 할 때 유용
예시코드)
import matplotlib.pyplot as plt
# 데이터 생성
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
# 산점도 그리기
plt.scatter(x, y)
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Scatter Plot')
plt.show()
◈ 상관관계 확인하기
- 양의 상관관계 : 산점도에서 점들이 오른쪽 위 방향으로 일직선으로 분포되어
있을 때를 말함, 하나의 변수가 증가할 때 다른 변수도 증가
- 음의 상관관계 : 산점도에서 점들이 왼쪽 위 방향으로 일직선으로 분포되어
있을 때를 말함, 하나의 변수가 증가할 때 다른 변수는 감소
- 무상관 관계 : 산점도에서 점들이 어떤 방향으로도 일직선으로 분포하지 않고
무작위로 퍼져 있음, 두 변수 간에는 상관관계가 거의 없는것.
◈ 상관관계의 강도 확인하기
- 점들의 모임 : 점들이 더 밀집된 곳은 상관관계가 높다는 것을 나타낸다.
- 점들의 방향성 : 일직선에 가까운 분포일수록 상관관계가 강할 가능성 높음
- 상관계수 계산 : 피어슨 상관계수와 같은 통계적 방법을 사용하여 상관관계
의 정도를 수치적으로 계산할 수 있음
※ 피어슨 상관계수?
- 두 변수 간의 선형적인 관계를 측정하기 위한 통계적인 방법 중 하나
- 주로 연속형 변수들 간의 상관관계를 평가는데 사용
- 공분산을 각 변수의 표준편차로 나누어 정규화한 값
○ 피어슨 상관계수의 특징:
- -1에서 1사이의 값을 가짐.
- r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
◎ 표준 편차(standard deviation)
- 데이터의 분산 정도를 나타내는 측정 지표 중 하나
- 데이터 포인트가 평균에서 얼마나 멀리 떨어져 있는지를
평균적으로 측정하는 값
- 표준편차가 작을수록 데이터 포인트들이 평균 주변에 모여있는것
표준편차가 클수록 데이터 포인트들이 평균에서 멀리 퍼져 있다.
◎ 공분산(covariance)
- 두 변수간의 관계를 나타내는 통계적 측정 지표
- 두 변수의 변화 패턴이 함께 일어나는 정도를 측정하는데 사용
- 공분산이 양수인 경우, 변수x 와 y 는 함께 증가 또는 감소하는 경향
이 있음.
- 공분산이 음수인 경우에는 하나의 변수가 증가할 때,
다른 변수는 감소하는 경향이 있음.
- 공분산의 값 자체 만으로는 두 변수 간의 관계의 강도나 방향을
명확하게 알려주지 않아서,
표준화된 지표인 상관계수를 사용하여 두 변수 간의 관계를
더 명확하게 파악.
◎ 정규화(normalization)
- 데이터 스케일 조정: 정규화를 통해 데이터를 특정 범위로 조정함으로써,
알고리즘이 데이터를 더 잘 처리할 수 있도록 돕는다.
- 이상치 영향 완화 : 이상치가 있는 데이터는 전체적인 분포를 왜곡 시키기
때문에 이를 완화하기 위해 데이터를 정규화하여 이상치의
영향을 줄일 수 있다.
- 알고리즘의 수렴성 향상 : 몇몇 머신 러닝 알고리즘은 데이터가 정규화되어 있을 때,
수렴하는 속도가 빨라질 수 있고,
특히 경사 하강법 등의 최적화 기법에서 이점을 볼 수 있음.
'데이터분석 study > 데이터 전처리&시각화' 카테고리의 다른 글
TIL_24.07.22_데이터 시각화 1 (0) | 2024.07.22 |
---|---|
TIL_24.07.19_데이터 전처리3 (0) | 2024.07.19 |
TIL_24.07.18_데이터 전처리 2 (0) | 2024.07.18 |
TIL_24.07.17_데이터 전처리 1 (0) | 2024.07.17 |