데이터분석 study/ML_ 심화 8

TIL_24.08.29_비지도학습

▶ 지도학습과 비지도학습     1) 지도학습 : 문제(X)와 정답(Y)가 주어지고 문제(X)가 주어졌을 때                          정답(Y)을 맞추는 학습      2) 비지도학습 : 답(Y)을 알려주지 않고, 데이터 간 유사성을 이용해서                              답(Y)을 맞추는 학습           ● 비지도 학습은 데이터를 기반으로 레이블링을 하는 작업          ● 정답이 없는 문제이기 때문에 지도 학습보다 조금 어렵고              주관적인 판단이 개입하게 된다.           ●  비지도학습 예시              ○ 고객 특성에 따른 그룹화                  ex) 헤비유저, 일반유저            ..

TIL_24.08.28_회귀, 분류 모델링 심화

▶ 의사결정나무와 랜덤 포레스트   ● 의사결정나무(Decision Tree, DT)      - 의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로        분류하거나 예측을 수행하는 분석 방법       - 루트노드(Root Node) : 의사결정나무의 시작점. 최초의 분할 조건      - 리프노드(Leaf Node) : 루트 노드로부터 파생된 중간 혹은 최종 노드      - 분류기준(criteria) : sex는 여성인 경우 0, 남성인 경우 1로 인코딩                                      여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류.       - 불순도(impurity)          ○ 불순도 측정 방법 중 하나인 지니 계수는..

TIL_24.08.27_데이터 분리, 교차검증

▶ 과적합은 머신러닝의 적   - 과대적합(Overfitting)      : 데이터를 너무 과도하게 학습한 나버지 해당 문제만 잘 맞추고        새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상   - 과적합의 원인    ○ 모델의 복잡도     ○ 데이터 양이 충분하지 않음    ○ 학습 반복이 많음(딥러닝의 경우)    ○ 데이터 불균형(정산환자 - 암환자의 비율이 95:5)   - 과적합 해결(train(학습) 데이터, test(평가) 데이터 분리)     ○ 학습데이터(Train Data) : 모델을 학습(fit)하기 위한 데이터    ○ 테스트 데이터(Train Data) : 모델을 평가하기 위한 데이터     ● 함수 및 파라미터 설명        ○ sklearn.model_se..

TIL_24.08.26_데이터 전처리(encoding, scaling)

▶ 범주형 데이터 전처리 - 인코딩(encoding)    ● 인코딩 : 어떤 정보를 정해진 규칙에 따라 변환하는 것       * 머신러닝 모델은 숫자를 기반으로 학습하기 때문에 인코딩 과정          반드시 필요.     ● 레이블 인코딩(Label Encoding)        - 문자열 범주형 값을 고유한 숫자로 할당            ○ 1등급 → 0            ○ 2등급 → 1            ○ 3등급 → 2        - 특징          ○ 장점 : 모델이 처리하기 쉬운 수치형으로 데이터 변환          ○ 단점 : 순서 간 크기에 의미가 부여되어 모델이 잘못 해석할 수 있다.        - 사용함수        ○ sklearn.preprocessing...

TIL_24.08.22_데이터 전처리(이상치, 결측치)

▶이상치(outlier)   - 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말한다.   - 크게 2가지 기준이 있다.   1. ESD(Extreme Student Deviation)를 이용한 이상치 발견      - 데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값      - 모든 데이터가 정규 분포를 따르지 않을 수 있기 때문에 다음 상황에서는 제한된다.        ● 데이터가 크게 비대칭일 때 (log 변환 등을 노려볼 수 있다.)        ● 샘플 크기가 작을 경우    2. IQR(Inter Quantile Range)를 이용한 이상치 발견            ● Boxplot : 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그..

TIL_24.08.20_ 회귀 알고리즘 복습

●  단순선형회귀   - 하나의 독립변수와 하나의 종속변수 사이의 관계를 모델링   ●  다중선형회귀   - 여러 개의 독립 변수와 하나의 종속 변수 사이의 관계를 모델링 * 위에 이미지 결과 해석공부  1. 회귀 방정식 : y= 2.94x + 2.56       - 기울기(coeficient)가 2.94로, x가 1단위 증가할 때 y는 평균적으로         2.94 단위 증가       - y 절편(intercept)은 2.56으로 x가 0일 때 y의 예측값  2. R-squared 값 :  0.87      - 이 모델이 데이터의 변동성을 87% 설명한다는 뜻      - 상당히 좋은 적합도를 보여줌.  3. 평균 제곱 오차(Mean Squared Error) : 0.07      - 예측값과 실..

TIL_24.08.16_EDA

▶탐색적 데이터 분석(EDA)    - 데이터의 시각화, 기술통계 등의 방법을 통해      데이터를 이해하고 탐구하는 과정   ● 기술 통계를 통한 EDA 예시        - describe() 메소드를 하여 기초통계량 확인          (* include = 'all' 옵션을 사용하면 범주형 데이터도 확인가능)    ● 시각화를 이용한 EDA 예시        1) countplot : 범주형 자료의 빈도 수 시각화           - 범주형 데이터의 각 카테고리별 빈도수 나타날 때           -  x축 : 범주형 자료           -  y축 : 자료의 빈도수        2) barplot : 범주형 자료의 시각화           - 범주형 데이터의 각 카테고리에 따른 수치 데..

TIL_24.08.14_데이터분석 프로세스(수집)

▶데이터 수집     - 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고,        수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가        직접 설계하고 저장하게 된다.        - 데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python을 통해       추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당  1. Data Source     - OLTP Database : OnLine Transaction Processing 은 온라인 뱅킹, 쇼핑, 주문        입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위)처리 유형      - Enterprise Applications : 회사 내 데이터(ex 고객 관계 데이터, 제품 마케팅 세일즈..