데이터분석 15

TIL_24.08.27_데이터 분리, 교차검증

▶ 과적합은 머신러닝의 적   - 과대적합(Overfitting)      : 데이터를 너무 과도하게 학습한 나버지 해당 문제만 잘 맞추고        새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상   - 과적합의 원인    ○ 모델의 복잡도     ○ 데이터 양이 충분하지 않음    ○ 학습 반복이 많음(딥러닝의 경우)    ○ 데이터 불균형(정산환자 - 암환자의 비율이 95:5)   - 과적합 해결(train(학습) 데이터, test(평가) 데이터 분리)     ○ 학습데이터(Train Data) : 모델을 학습(fit)하기 위한 데이터    ○ 테스트 데이터(Train Data) : 모델을 평가하기 위한 데이터     ● 함수 및 파라미터 설명        ○ sklearn.model_se..

TIL_24.08.16_EDA

▶탐색적 데이터 분석(EDA)    - 데이터의 시각화, 기술통계 등의 방법을 통해      데이터를 이해하고 탐구하는 과정   ● 기술 통계를 통한 EDA 예시        - describe() 메소드를 하여 기초통계량 확인          (* include = 'all' 옵션을 사용하면 범주형 데이터도 확인가능)    ● 시각화를 이용한 EDA 예시        1) countplot : 범주형 자료의 빈도 수 시각화           - 범주형 데이터의 각 카테고리별 빈도수 나타날 때           -  x축 : 범주형 자료           -  y축 : 자료의 빈도수        2) barplot : 범주형 자료의 시각화           - 범주형 데이터의 각 카테고리에 따른 수치 데..

TIL_24.08.14_데이터분석 프로세스(수집)

▶데이터 수집     - 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고,        수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가        직접 설계하고 저장하게 된다.        - 데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python을 통해       추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당  1. Data Source     - OLTP Database : OnLine Transaction Processing 은 온라인 뱅킹, 쇼핑, 주문        입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위)처리 유형      - Enterprise Applications : 회사 내 데이터(ex 고객 관계 데이터, 제품 마케팅 세일즈..

TIL_24.08.05_데이터 분석과 통계

데이터 분석과 통계데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.데이터를 요약하고 패턴을 발견할 수 있다.추론을 통해 결론을 도출하는 과정을 돕는다.데이터 기반의 의사결정을 내릴 수 있다.결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요 기술통계와 추론통계1) 기술통계데이터를 요약하고 설명하는 통계 방법주로, 평균, 중앙값, 분산, 표준편차 등을 사용즉, 데이터를 특정 대표값으로 요약단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님중앙값(median)중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값이는 이상치(예외적인 값들)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법만약 데이터가 짝수..

TIL_24.07.18_데이터 전처리 2

▶데이터 선택     ● .iloc[로우,컬럼] : 인덱스 번호로 선택하기         - 행번호(로우)와 열번호(컬럼)를 통해 특정 행과 열 데이터를 선택할 수 있다.import pandas as pd# 샘플 데이터프레임 생성data = { 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': [100, 200, 300, 400, 500]}df = pd.DataFrame(data)selected_data = df.iloc[1:4, 0:2]#인덱스 1부터 3까지의 행과, 인덱스 0부터 1까지의 열을 가져온다.print(selected_data) ● .loc[로우, 컬럼] : 이름으로 선택하기      - 인덱스가 번호가 아니고 특정 문자일 경우..

WIL_(24.07.08~24.07.12)

또 한 주차가 흘렀다.저번주에 이어서 파이썬 기초 문법 강의를 듣고 계속 복습을 하고 있는데이제서야 조금 응용이 되기 시작했다. 근데 문제를 조금만 더 꼬아도 손대기가 어려워진다.근데 이게 더 꼬았다는 사실을 알고 그것을 의식해서 처음부터 어렵다고 생각해서 내가 못푸는 건지, 아니면 내가 아직도 부족한건지 잘 모르겠다. 데이터 전처리 & 시각화로 넘어가기 전까지 파이썬 기초 문법 복습과파이썬 알고리즘 코딩테스트 연습 문제를 풀면서 응용력을 더 늘리도록 해야겠다. 평일에 하루에 점심시간, 저녁시간 빼면 10시간씩 공부를 해서주말에는 머리를 비우고 싶은데, 실력이 좀 부족하다는 생각이 드니까이상하게 쉬면서도 머릿속이 비워지지가 않는 것 같고 불안한 마음이 든다. 그래서 주말에 하루는 할애해서 파이썬 공부를 ..

TIL(Today I Learned) 24.07.08_함수

반복문 만큼 중요하고 알고리즘 코딩테스트 문제에서도 기본으로 많이 나오는 문법이어서 확실하게 이해하고 넘어갈 것이다.● function이란? - input이 들어와서 output이 정해진 규칙에 따라 나온다는 개념 - 프로그램에서의 하나의 함수는 하나의 기능을 나타낸다.    (하나의 기능이란 예를 들어 입력받은 2개의 숫자를 더한다, 들어온 텍스트를 정제한다, 받은 이미지를 greyscale로 변경한다.) - 정확하게 함수는 특정 기능을 구현한 코드 묶음이다.  - def 함수이름 (param1, param2, .....) : return - 함수를 쓰는 이유는 재사용성 때문이다.  ●python function definition 구조def add(a,b): c= a+b return cadd(1..

TIL(Today I Learned) 24.07.03_결론 도출

▶결론 도출 ● 결과데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음ex) “고객 설문 조사 데이터를 분석한 결과, 고객 만족도와 구매 빈도 사이에 강한 상관관계가 있음을 보여줄 수 있습니다.”계산과 분석을 해서 나온 결과물● 결론분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰데이터에 기반한 해석, 추론 또는 권고 사항을 포함ex) “고객 만족도와 구매 빈도 사이의 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있습니다.”목적에 대해 어떤 의미가 있는지 설명하는 것 ● 결론 도출시 주의 사항    - 결과 ~ 결론 도출 시에는 스토리 텔링이 필요함    - 그러나..

TIL(Today I Learned) 24.07.03_데이터의 유형/지표 설정

▶데이터의 유형정성적 데이터 - 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소  - 정형되지 않고, 구조화 되어 있지 않다.  - 새로운 현상이나 개념에 대한 이해를 심화하는 데 사용 정량적 데이터 - 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음- 객관성을 가지고 있음- 지표로 만들기에 용이- 설문조사, 실험, 인구통계, 지표분석 등에 활용 정량적 데이터의 활용 - 정량적 데이터는 객관적이고 측정가능한 지표를 만들기에 적합 - 일일 활성 사용자수 (DAU, Daily Active User), 재방문 비율(Retention)등 서비스의 건강 상태를 나타내는     나타내는 중요한 지표들을 확인 가능 수치형 설문조사 데이터를 정량 기준으로 나눈 사례)추천지수(NPS..

TIL(Today I Learned) 24.07.03_데이터 리터러시/문제정의

데이터 리터러시데이터 리터러시 란?데이터를 이해하는 능력데이터를 비판적으로 분석하는 능력결과를 의사소통에 활용할 수 있는 능력데이터 분석에 대한 착각데이터 분석 스킬능력보다 우선시 해야 되는 것은 데이터 리터러시 역량을 키우는 것이다.데이터 해석 오류 사례심슨의 역설 (simson's paradox)- 심슨의 패러독스란 '부분'에서 성립한 대소 관계 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말한다. 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아니다. 시각화를 활용한 왜곡- 자료의 표현 방법에 따라서 해석의 오류 여지가 존재 샘플링 편향- 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류 발생 상관관계와 인과관계  - 상관관계 :         - 두 변..