데이터 분석과 통계
데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.
- 데이터를 요약하고 패턴을 발견할 수 있다.
- 추론을 통해 결론을 도출하는 과정을 돕는다.
- 데이터 기반의 의사결정을 내릴 수 있다.
- 결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요
기술통계와 추론통계
1) 기술통계
데이터를 요약하고 설명하는 통계 방법
- 주로, 평균, 중앙값, 분산, 표준편차 등을 사용
- 즉, 데이터를 특정 대표값으로 요약
- 단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님
중앙값(median)
- 중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
- 이는 이상치(예외적인 값들)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
- 만약 데이터가 짝수 개수라며느 중앙에 있는 두 값의 평균을 중앙값으로 한다.
분산(variance)
- 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정
- 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 보여 있음
- 분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한후, 이를 모두 더하고 데이터의 개수로 나누는 것
표준편차(standard deviation)
- 표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도로, 분산의 제곱근을 취하여 계산
- 데이터의 변동성을 측정, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미
표준편차와 분산의 관계
- 분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 주요 척도이다.
- 두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근
- 분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환된다.
추론통계
표본데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법
- 주로 신뢰구간, 가설 검정 등을 사용
- 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심
다양한 분석 방법
1) 위치추정
데이터의 중심을 확인하는 방법!
- 평균, 중앙값이 대표적인 위치 추정 방법
2) 변이추정
데이터들이 서로 얼마나 다른지 확인하는 방법!
- 분산, 표준편차, 범위(range)등을 사용
범위 - 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도 - 범위를 통해 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악
- 범위(R) = 최대값 - 최소값
3) 데이터 분포 탐색
데이터의 값들이 어떻게 이루어져 있는지 확인하기
- 히스토그램과 box plot은 데이터의 분포를 시각적으로 표현하는 대표적인 방법
4) 이진 데이터와 범주 데이터 탐색
데이터들이 서로 얼마나 다른지 확인하는 방법
- 최빈값(개수가 제일 많은 값)을 주로 사용
- 파이그림과 막대 그래프는 이진 데이터와 범주 데이터의 분포를 표현하는 대표적 방법(범주형 데이터는 이진 데이터)
5) 상관관계
데이터들끼리 서로 관련이 있는지 확인하는 방법
- 상관계수는 두 변수 간의 관계를 측정하는 방법
- 상관계수를 계산해서 -1이나 1에 가까워지면 강력한 상관관계를 가진다.
- -0.5나 0.5를 가지면 중간정도의 상관관계를 가진다.
- 0에 가까울 수록 상관관계가 없다.
6) 인과관계와 상관관계의 차이
인과관계는 상관관계와는 다르게 원인, 결과가 분명해야 함
- 상관관계는 두 변수간의 관계를 나타내고, 인과관계는 한 변수가 다른 변수에 미치는 영향을 나타낸다.
7) 두 개 이상의 변수 탐색
여러 데이터들끼리 서로 관련이 있는지 확인
- 다변량 분석은 여러 변수 간의 관계를 분석하는 방법
- ex) 여러 마케팅 채널의 광고비와 매출 간의 관계 분석
'데이터분석 study > 통계학 기초' 카테고리의 다른 글
TIL_24.08.07_ 가설검정의 주의점 (0) | 2024.08.07 |
---|---|
TIL_24.08.07_상관계수 (0) | 2024.08.07 |
TIL_24.08.06_회귀 (0) | 2024.08.06 |
TIL_24.08.06_ 유의성 검정 (0) | 2024.08.06 |
TIL_24.08.05_ 모집단과 표본, 분포 정리 (0) | 2024.08.05 |