데이터분석 study/통계학 기초

TIL_24.08.05_데이터 분석과 통계

justdata 2024. 8. 5. 16:35

 

데이터 분석과 통계

데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.

  • 데이터를 요약하고 패턴을 발견할 수 있다.
  • 추론을 통해 결론을 도출하는 과정을 돕는다.
  • 데이터 기반의 의사결정을 내릴 수 있다.
  • 결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요

 

기술통계와 추론통계

1) 기술통계

데이터를 요약하고 설명하는 통계 방법

  • 주로, 평균, 중앙값, 분산, 표준편차 등을 사용
  • 즉, 데이터를 특정 대표값으로 요약
  • 단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님

중앙값(median)

  • 중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
  • 이는 이상치(예외적인 값들)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
  • 만약 데이터가 짝수 개수라며느 중앙에 있는 두 값의 평균을 중앙값으로 한다.

분산(variance)

  • 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정
  • 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 보여 있음
  • 분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한후, 이를 모두 더하고 데이터의 개수로 나누는 것

 

표준편차(standard deviation)

  • 표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도로, 분산의 제곱근을 취하여 계산
  • 데이터의 변동성을 측정, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미

표준편차와 분산의 관계

  • 분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 주요 척도이다.
  • 두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근
  • 분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환된다.

 

추론통계

표본데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법

  • 주로 신뢰구간, 가설 검정 등을 사용
  • 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심

 

다양한 분석 방법

1) 위치추정

데이터의 중심을 확인하는 방법!

  • 평균, 중앙값이 대표적인 위치 추정 방법

2) 변이추정

데이터들이 서로 얼마나 다른지 확인하는 방법!

  • 분산, 표준편차, 범위(range)등을 사용

범위 - 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도 - 범위를 통해 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악

- 범위(R) = 최대값 - 최소값

 

3) 데이터 분포 탐색

데이터의 값들이 어떻게 이루어져 있는지 확인하기

  • 히스토그램과 box plot은 데이터의 분포를 시각적으로 표현하는 대표적인 방법
 

 

4) 이진 데이터와 범주 데이터 탐색

데이터들이 서로 얼마나 다른지 확인하는 방법

  • 최빈값(개수가 제일 많은 값)을 주로 사용
  • 파이그림과 막대 그래프는 이진 데이터와 범주 데이터의 분포를 표현하는 대표적 방법(범주형 데이터는 이진 데이터)
 

 

5) 상관관계

데이터들끼리 서로 관련이 있는지 확인하는 방법

  • 상관계수는 두 변수 간의 관계를 측정하는 방법
  • 상관계수를 계산해서 -1이나 1에 가까워지면 강력한 상관관계를 가진다.
  • -0.5나 0.5를 가지면 중간정도의 상관관계를 가진다.
  • 0에 가까울 수록 상관관계가 없다.

 

6) 인과관계와 상관관계의 차이

인과관계는 상관관계와는 다르게 원인, 결과가 분명해야 함

  • 상관관계는 두 변수간의 관계를 나타내고, 인과관계는 한 변수가 다른 변수에 미치는 영향을 나타낸다.

 

7) 두 개 이상의 변수 탐색

여러 데이터들끼리 서로 관련이 있는지 확인

  • 다변량 분석은 여러 변수 간의 관계를 분석하는 방법
  • ex) 여러 마케팅 채널의 광고비와 매출 간의 관계 분석