데이터분석 study/데이터 전처리&시각화

TIL_24.07.23_데이터 시각화 2

justdata 2024. 7. 23. 21:19

● Box plot

    - 연속형 데이터의 분포와 이상치를 시각화하는 데 주로 사용

    - 데이터의 중앙값, 사분위수(25%, 50%, 75% 위치의 값), 최소값,

      최대값, 이상치를 한눈에 파악할 수 있다.

 

예시코드)

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
np.random.seed(10)
data = [np.random.normal(0, std, 100) for std in range(1, 4)]

# 박스 플롯 그리기
plt.boxplot(data)
plt.xlabel('Data')
plt.ylabel('Value')
plt.title('Box Plot')
plt.show()

 

 

■ Box plot의 구성요소 

    □ 상자(box) : 데이터의 중앙값과 사분위수 (25%와 75%)를 나타낸다, 

                           상자의 아래 쪽 끝은 25%의 값(1사분위수), 

                           상자의 윗쪽 끝은 75%의 값(3사분위수) 

                           상자의 중앙에 위치한 선은 중앙값을 나타냄.

 

    □ 수염(whisker) : 상자의 위 아래로 연장되는 선, 

                                 일반적으로 1.5배의 사분위 범위로 계산 됨

                                  이 범위를 넘어가는 값은 이상치(outlier)로 간주 

                                  수염의 끝은 최솟값과 최댓값을 나타냄.

 

   □ 이상치(outliers) : 수염 부분을 벗어나는 개별 데이터 포인트로 ,

                                    일반적인 범위를 벗어나는 값들을 의미,

                                    데이터의 정확성을 해치거나 모델의 성능을

                                    왜곡시킬 수 있기 때문에 이상치를 식별하고

                                    처리하는 것이 중요.

 

● Scatter plot(산점도)

    - 두 변수 간의 관계 및 상관관계를 보여줄 때 사용

    - 변수간의 관계, 군집, 이상치를 확인하고자 할 때 유용

 

 예시코드)

import matplotlib.pyplot as plt

# 데이터 생성
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# 산점도 그리기
plt.scatter(x, y)
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Scatter Plot')
plt.show()

 

 

 

◈ 상관관계 확인하기

    - 양의 상관관계 : 산점도에서 점들이 오른쪽 위 방향으로 일직선으로 분포되어 

                              있을 때를 말함, 하나의 변수가 증가할 때 다른 변수도 증가

 

    - 음의 상관관계 : 산점도에서 점들이 왼쪽 위 방향으로 일직선으로 분포되어

                               있을 때를 말함, 하나의 변수가 증가할 때 다른 변수는 감소

 

    - 무상관 관계 : 산점도에서 점들이 어떤 방향으로도 일직선으로 분포하지 않고

                           무작위로 퍼져 있음, 두 변수 간에는 상관관계가 거의 없는것.

 

◈ 상관관계의 강도 확인하기

    - 점들의 모임 : 점들이 더 밀집된 곳은 상관관계가 높다는 것을 나타낸다.

    - 점들의 방향성 : 일직선에 가까운 분포일수록 상관관계가 강할 가능성 높음

    - 상관계수 계산 : 피어슨 상관계수와 같은 통계적 방법을 사용하여 상관관계

                               의 정도를 수치적으로 계산할 수 있음

 

      ※ 피어슨 상관계수?

          - 두 변수 간의 선형적인 관계를 측정하기 위한 통계적인 방법 중 하나

          - 주로 연속형 변수들 간의 상관관계를 평가는데 사용

          - 공분산을 각 변수의 표준편차로 나누어 정규화한 값

 

            ○ 피어슨 상관계수의 특징:

                 - -1에서 1사이의 값을 가짐.

                 - r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,

                   r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,

                    r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,

                   r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,

                   r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,

                   r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,

                   r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

 

 

               ◎ 표준 편차(standard deviation)

                     - 데이터의 분산 정도를 나타내는 측정 지표 중 하나

                     - 데이터 포인트가 평균에서 얼마나 멀리 떨어져 있는지를

                       평균적으로 측정하는 값

                     - 표준편차가 작을수록 데이터 포인트들이 평균 주변에 모여있는것

                       표준편차가 클수록 데이터 포인트들이 평균에서 멀리 퍼져 있다.

 

              ◎ 공분산(covariance)

                   -  두 변수간의 관계를 나타내는 통계적 측정 지표

                   -  두 변수의 변화 패턴이 함께 일어나는 정도를 측정하는데 사용

                   -  공분산이 양수인 경우, 변수x 와 y 는 함께 증가 또는 감소하는 경향

                       이 있음.

                   -  공분산이 음수인 경우에는 하나의 변수가 증가할 때,

                       다른 변수는 감소하는 경향이 있음.

                   -  공분산의 값 자체 만으로는 두 변수 간의 관계의 강도나 방향을 

                      명확하게 알려주지 않아서, 

                       표준화된 지표인 상관계수를 사용하여 두 변수 간의 관계를 

                       더 명확하게 파악.

 

                ◎ 정규화(normalization)

                     - 데이터 스케일 조정: 정규화를 통해 데이터를 특정 범위로 조정함으로써,

                                                       알고리즘이 데이터를 더 잘 처리할 수 있도록 돕는다.

 

                     - 이상치 영향 완화 : 이상치가 있는 데이터는 전체적인 분포를 왜곡 시키기 

                                                    때문에 이를 완화하기 위해 데이터를 정규화하여 이상치의

                                                     영향을 줄일 수 있다.

 

                     - 알고리즘의 수렴성 향상 : 몇몇 머신 러닝 알고리즘은 데이터가 정규화되어 있을 때,

                                                              수렴하는 속도가 빨라질 수 있고, 

                                                              특히 경사 하강법 등의 최적화 기법에서 이점을 볼 수 있음.