데이터분석 study 72

TIL_24.08.09_divmod()

프로그래머스 다른 분들의 문제풀이를 보다가몰랐던 함수가 있어서 작성해본다. ▶나누기 연산자    - 파이썬은 특이하게 2가지 나누기 연산자를 제공    - 첫 번째는 실수 나누기 연산자인 ' / ', 두 번째는 정수 나누기        연산자인 ' // ' 이다.    예를 들어,8 / 2# -- 4.0 출력8 // 2# -- 4 출력 그럼 나눗셈 결과에 나머지가 있는 경우는? 8 / 3# -- 2.6666666...6665 출력8 // 2# -- 2 출력 자료형에 차이뿐만 아니라 반환값에도 차이가 난다.' / ' 연산자는 실수로 나누기를 하여 소수부를 보존하는 반면에,'//' 연산자는 정수로 나누기를 하여 소수부를 날리고, 정수부만 반환한다. ▶ divmod() 함수    - 몫과 나머지를 동시에 구할..

TIL_24.08.08_머신러닝은 무엇인가

▶Machine Learning  - 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘 - 전체 데이터에서 패턴을 파악하기 위한 방법 ▶왜 머신러닝은 발전했을까?    - 통계 : 모집단(전체 집단)의 성질을 표본 집단으로부터 알기 위한 추론 방법    - 데이터 처리 기술의 발전 : 데이터 처리 관련된 툴들이 많아졌다.    ▶ 머신러닝 종류    - Supervised Learning(지도학습) : 문제와 정답을 모두 알려주고 공부시키는 방법    - Unsupervised Learning(비지도학습) : 답을 가르쳐주지 않고 공부시키는 방법    - Reinforcement Learning(강화학습): 보상을 통해 상은 최대화 벌은 최소화하는       방향으로 행위를 강화하는 학습      ..

TIL_24.08.07_ 가설검정의 주의점

주차를 나누어서 작성하는 것이 좋을 것 같아TIL을 나누어서 작성했다.https://justdata.tistory.com/49 TIL_24.08.07_상관계수상관계수5.1 피어슨 상관계수두 연속형 변수 간의 선형관계를 측정하는 지표-1에서 1사이의 값을 가지며1은 완전한 양의 선형 관계-1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미 피어justdata.tistory.com  6.1 재현가능성우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인해야 한다.1) 재현 가능성이란 무엇인가동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부. 연구의 신뢰성을 높이는 중요한 요소.가설 검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생최근 논문을 다..

TIL_24.08.07_상관계수

상관계수5.1 피어슨 상관계수두 연속형 변수 간의 선형관계를 측정하는 지표-1에서 1사이의 값을 가지며1은 완전한 양의 선형 관계-1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미 피어슨 상관계수는 언제 사용할까?선형적인 관계가 예상 될 때공부시간과 시험 점수 간의 상관관계 분석비선형 관계에선 사용할 수 없음 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10exam_scores = 3* study_hours + np..

TIL_24.08.06_회귀

주차를 나눠서 TIL작성을 하는 것이 좋을 것 같아서나눠서 작성한다. https://justdata.tistory.com/47 TIL_24.08.06_ 유의성 검정A/B 검정(A/B 테스트)두 버전 (A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법마케팅, 웹사이트 디자인 등에서 많이 사용됨.사용자들을 두 그룹으로 나누고, 각 그룹에 다른justdata.tistory.com   4.1 단순선형회귀하나의 독립변수(x)와 하나의 종속 변수(y) 간의 관계를 직선으로 모델링하는 방법특징 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측데이터가 직선적 경향을 따를 때 사용간단하고 해석이 용이데이터가 선형적이지 않을 경우 적합하지 않는다.어떨 때 사용할까?광고비(x)와 ..

TIL_24.08.06_ 유의성 검정

A/B 검정(A/B 테스트)두 버전 (A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법마케팅, 웹사이트 디자인 등에서 많이 사용됨.사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교목적두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미 한지를 확인  stats.ttest.ind독립표본 t-검정을 수행하여 두 개의 독립된 집단 간 평균의 차이가 유의미한지 평가두 집단의 데이터 배열을 입력 받아서 t-통계량과 p-값을 반환t-통계량(statistic) : t-검정 통계량이고, 두 집단 간 평균 차이의 크기와 방향을 나타낸다 가설검정표본데이터..

TIL_24.08.05_ 모집단과 표본, 분포 정리

내용이 길어져서 https://justdata.tistory.com/45 TIL_24.08.05_데이터 분석과 통계데이터 분석과 통계데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.데이터를 요약하고 패턴을 발견할 수 있다.추론을 통해 결론을 도출하는 과정을 돕는다.데이터 기반의 의사결정을 내justdata.tistory.com 위에 글에 이어서 나눠서 글을 작성했다.  2.1 모집단과 표본모집단관심의 대상이 되는 전체 집단표본모집단에서 추출한 일부왜 표본을 사용하는 걸까?비용과 시간을 절약전체 모집단을 조사하는 것은 불가능하거나 비효율적이다, 표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법접근성모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많다.표본의 대표성잘 ..

TIL_24.08.05_데이터 분석과 통계

데이터 분석과 통계데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.데이터를 요약하고 패턴을 발견할 수 있다.추론을 통해 결론을 도출하는 과정을 돕는다.데이터 기반의 의사결정을 내릴 수 있다.결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요 기술통계와 추론통계1) 기술통계데이터를 요약하고 설명하는 통계 방법주로, 평균, 중앙값, 분산, 표준편차 등을 사용즉, 데이터를 특정 대표값으로 요약단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님중앙값(median)중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값이는 이상치(예외적인 값들)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법만약 데이터가 짝수..

WIL_(24.07.29 ~ 24.08.02)

우여곡절이 많았던 기초프로젝트도 끝이 났다. 뭔가 시원하면서도 아쉬움도 많이 남아서 찝찝하다 ㅎㅎ강의는 기초적인 것을 들었는데 강의내용을 베이스로 더 많은 output을 내야 하는 것에 기초프로젝트지만 부담감이 많이 느껴졌다. 그러면서도 동시에 부담감을 느끼면서 책임의 중요성도크게 깨달았다.점점 프로젝트에 담아야하는 내용들이 많아지면서공부량이 더 많아져야 하고, 그만큼 더 노력해야 한다는 것이몸소 느껴진다. 이번주부터 통계학 기초를 공부하기 시작했는데ADsP 공부를 미리한 것이 그래도 이해하는데 도움이 많이 되었다. 다음주는 수요일까지 통계학 기초 강의를반복해서 듣고 내용정리에 집중하면서 ADsP강의를 병행하며 들어야겠다.

TIL_24.08.02_MySQL 자료형

1. 자료형 선언2. 논리 구조화(with Pesudo 코드)3. 코드 구현 ▶숫자 자료형    - 컴퓨터는 이진(1,2)으로 데이터를 저장        - Boolean 자료형 (True, False)가 존재하는 이유          ○ 비트(binary digit, bit)              - 0과 1, 두 가지 값만 가질 수 있는 측정 단위           ○ 바이트 (Byte)               - 여덟개의 비트로 구성된 데이터의 양을 나타내는 단위     ● 정수형         - 정수형 자료형은 기본적으로 SIGNED(기본)과 UNSIGNED            옵션을 가질 수 있음.         - 전자는 양수/음수를 후자는 양수를 저장함         - 또한 정수형 자..