TIL_24.09.02_데이터 분석과 지표 1
▶ Ad-hoc 분석
- 단순 쿼리 추출, 구글 스프레드 시트 레포트, 시각화 등 일회성 분석을 말함
● Ad-hoc 분석 종류
- 엑셀 시트 레포트
- 시각화
- 단순한 지표 추출 쿼리
- 기술 통계량(평균값, 중앙값, 최소, 최대값 등)
▶ 지표 확인 및 지표 증감 원인 파악
- overview 대시보드 : 현재 서비스 상황 및 주요 지표 확인
- By Dimension(시간별, 유저별, 세그먼트 별 등) 대시보드 : 지표 증감 원인 파악
- 대시보드에서 원인 파악이 어렵거나 데이터를 더 딥하게 봐야할 경우:
SQL, Python 으로 deep dive
▶ 주요 데이터 분석 방법론
- 실험 : A/B테스트, 인과추론
- 모델링 : 수요 예측, 이탈 예측 모델링 등
- 고객 세그먼트 : RFM, 클러스터링 등
- 시계열 분석
▶ 데이터 모델링
● 데이터 레이크
- 모든 Raw data(정형 데이터, 로그 데이터, 테이블 등) 저장할 수 있는 스토리지
● 데이터 웨어하우스 (DW)
- 데이터를 장기적인 보존용으로 통합, 정제, 분석하여 정리한 저장소
ex) AWS Redshift, Snowflake, Google Bigquery
● 데이터 마트(DM)
- 부서별, 목적별 분석용으로 만든 데이터 웨어하우스의 데이터 일부분,
대시보드와 시각화 레포트가 생성되기 전에 수집 및 정리되어 있는 공간
▶ 차원(Dimension)과 측정값(Metric)
이름 | 설명 | 예시 |
차원(dimension) | 측정 기준 또는 분석의 기준 | 유저 아이디, 지역, 상품명 등 |
측정값(Metric) | 측정하는 값 또는 항목 | 매출, 리텐션, 전환율 등 |
▶ Fact Table
● 태블로 : 측정값(metric)
● 특징
- star 스키마와 Snowflake 스키마의 중심에 있는 집계가 가능한 테이블
- 수치를 가지고 있는 측정값(매출 등)
▶ Dimension Table
● 태블로 : 차원(Dimension)
● 특징
- star 스키마와 Snowflake 스키마의 가장자리에 있는 테이블
- Fact Table에 대한 상세 정보를 제공하는 테이블(고객, 제품, 주문 테이블 등)
▶ star 스키마
● 구조 : 별모양
● 특징
- 가장 간단하고 일반적으로 사용되는 유형의 데이터 웨어하우스 스키마
- Fact Table이 중앙에 있고, Dimension Table들이 둘러싸고 있는 형태
- 주제별로 정리 되어있는 형태 (Date, Product 등)
- Dimension Table들은 Fact Table의 차원을 설명하며,
차원은 Fact Table과의 참조키(Foreign Key)로 연결된다.
▶ snowflake 스키마
● 구조 : 눈송이 모양
● 특징
- star 스키마보다 복잡한 계층적 구조
- 스타 스키마에서 일부 Dimension Table이 정규화된 형태
- Dimension Table에 다른 Dimension Table이 연결되는 구조
▶ star 스키마와 snowflake 스키마 차이점
- star 스키마는 비즈니스 요구사항에 더 적합하며 간단하고 빠르게 쿼리를 수행할 수 있음
- star 스키마는 정규화된 데이터 모델보다는 덜 정규화된 형태를 가진다.
- snowflake스키마는 차원 테이블의 정규화를 강조하며, 데이터의 중복을 줄여
저장 공간을 절약
- star 스키마는 일대다 관계를 허용하지 않지만 snowflake 스키마는 허용
▶ 플랫폼에 대한 이해
- 데이터 분석을 하기 전에 가장 먼저 초첨을 맞추고 이해해야 할 것은 우리 비즈니스가
어떤 산업에 속했는지, 어떤 시장의 형태를 띄는지이다.
- 우리 프로덕트의 문제를 정의하고 목적에 맞는 문제 해결을 위한 데이터를 찾아야한다.
- 실무에서 정량 데이터 100%가 아닌 정량과 정성 분석이 함께 해야 더 큰
시너지를 낼 수 있다.
▶ 플랫폼 비즈니스
- 공급자가 네트워크를 구축하고 소비자가 시간과 공간의 제약을 받지 않고,
참여할 수 있도록 하는 사업 형태 플랫폼(platform) 비즈니스 모델
▶ 양면 시장의 종류
● 마켓플레이스(Marketplace)
- 마켓 플레이스 소유자가 제공하는 선별된 경험에 따라 공급업체를
고객과 연결
- 마켓플레이스 소유자는 벤더사를 소유하지 않고, 대신 플랫폼을 중심으로
양쪽 업체가 가능한 최고의 경험을 할 수 있도록 하는데 중점을 둔다.
▶ 웹, 앱 로그 분석하기
● 사용자 행동 로그 데이터
- 사용자도 모르게 서비스를 이용할 때 , 발자국처럼 남긴 데이터를 말함
- 웹과 앱에서 유저의 행동 기록을 의미
- 웹과 앱에서 클릭, 화면 노출, 스크롤 등 웹과 앱을 시작해서 이탈할때까지
사용자의 행동을 트래킹
● 앱 로그 분석
○ 앱 로그 분석 툴로 많이 활용되는 Amplitude(앰플리튜드)
○ 이벤트 프로퍼티(Event property)
- 특정 이벤트에 대한 정보
- ex) 음악검색(Search), 음악 재생(play song)
○ 유저 프로퍼티(user property)
- 유저의 특성 정보
- 유저의 사용자 ID, 디바이스 장치 유형 연령대, 지역, 유료 고객 유무 등
● 웹 로그 분석
○ 웹 로그 분석 툴로 많이 활용되는 GA4(앱도 가능)
○ 웹 로그에서 가장 중요한 개념은 유저, 이벤트, 세션
- Event : 웹 사이트에서 발생하는 유저의 모든 행동
ex) page_view, 쇼핑몰 사이트의 스크롤 내릴때(scroll),
상품 클릭하기 버튼을 누를 때(view_item)
- 세션(session)
: 웹사이트의 유저가 웹사이트에 들어온 시점부터 웹사이트를 나간
시점까지의 기간
* GA4에서 세션은 사용자가 세션에 들어와 30분동안 아무런 활동이
없을 때 30분 뒤에 종료 됨