데이터분석 study/데이터 지표

TIL_24.09.02_데이터 분석과 지표 1

justdata 2024. 9. 2. 20:50

▶ Ad-hoc 분석

    - 단순 쿼리 추출, 구글 스프레드 시트 레포트, 시각화 등 일회성 분석을 말함

 

    ● Ad-hoc 분석 종류

       - 엑셀 시트 레포트

       - 시각화

       - 단순한 지표 추출 쿼리

       - 기술 통계량(평균값, 중앙값, 최소, 최대값 등)

 

 

▶ 지표 확인 및 지표 증감 원인 파악 

     - overview 대시보드 : 현재 서비스 상황 및 주요 지표 확인

     - By Dimension(시간별, 유저별, 세그먼트 별 등) 대시보드 : 지표 증감 원인 파악

     - 대시보드에서 원인 파악이 어렵거나 데이터를 더 딥하게 봐야할 경우:

       SQL, Python 으로 deep dive

 

 

▶ 주요 데이터 분석 방법론

    - 실험 : A/B테스트, 인과추론

    - 모델링 : 수요 예측, 이탈 예측 모델링 등

    - 고객 세그먼트 : RFM, 클러스터링 등

    - 시계열 분석

 

 

▶ 데이터 모델링

    ● 데이터 레이크

       - 모든 Raw data(정형 데이터, 로그 데이터, 테이블 등) 저장할 수 있는 스토리지

 

   ● 데이터 웨어하우스 (DW)

       - 데이터를 장기적인 보존용으로 통합, 정제, 분석하여 정리한 저장소

          ex) AWS Redshift, Snowflake, Google Bigquery

 

   ● 데이터 마트(DM)

       - 부서별, 목적별 분석용으로 만든 데이터 웨어하우스의 데이터 일부분,

          대시보드와 시각화 레포트가 생성되기 전에 수집 및 정리되어 있는 공간

     

 

▶ 차원(Dimension)과 측정값(Metric)

이름 설명 예시
차원(dimension) 측정 기준 또는 분석의 기준 유저 아이디, 지역, 상품명 등
측정값(Metric) 측정하는 값 또는 항목 매출, 리텐션, 전환율 등

 

 

▶ Fact Table 

    ● 태블로 : 측정값(metric)

      특징

        - star 스키마와 Snowflake 스키마의 중심에 있는 집계가 가능한 테이블

        - 수치를 가지고 있는 측정값(매출 등)

 

▶ Dimension Table

    ● 태블로 : 차원(Dimension)

      특징

        - star 스키마와 Snowflake 스키마의 가장자리에 있는 테이블

        - Fact Table에 대한 상세 정보를 제공하는 테이블(고객, 제품, 주문 테이블 등)

 

 

▶ star 스키마 

 

      ● 구조 : 별모양

      ● 특징

         - 가장 간단하고 일반적으로 사용되는 유형의 데이터 웨어하우스 스키마

         - Fact Table이 중앙에 있고, Dimension Table들이 둘러싸고 있는 형태

         - 주제별로 정리 되어있는 형태 (Date, Product 등)

         - Dimension Table들은 Fact Table의 차원을 설명하며, 

           차원은 Fact Table과의 참조키(Foreign Key)로 연결된다.

 

 

▶ snowflake 스키마

 

 

     ● 구조 : 눈송이 모양

     ● 특징

         - star 스키마보다 복잡한 계층적 구조

         - 스타 스키마에서 일부 Dimension Table이 정규화된 형태

         - Dimension Table에 다른 Dimension Table이 연결되는 구조

 

 

▶ star 스키마와 snowflake 스키마 차이점 

    - star 스키마는 비즈니스 요구사항에 더 적합하며 간단하고 빠르게 쿼리를 수행할 수 있음

    - star 스키마는 정규화된 데이터 모델보다는 덜 정규화된 형태를 가진다.

    - snowflake스키마는 차원 테이블의 정규화를 강조하며, 데이터의 중복을 줄여 

      저장 공간을 절약

    - star 스키마는 일대다 관계를 허용하지 않지만 snowflake 스키마는 허용

 

 

▶ 플랫폼에 대한 이해

 

    - 데이터 분석을 하기 전에 가장 먼저 초첨을 맞추고 이해해야 할 것은 우리 비즈니스가

      어떤 산업에 속했는지, 어떤 시장의 형태를 띄는지이다.

 

    - 우리 프로덕트의 문제를 정의하고 목적에 맞는 문제 해결을 위한 데이터를 찾아야한다.

 

    - 실무에서 정량 데이터 100%가 아닌 정량과 정성 분석이 함께 해야 더 큰 

      시너지를 낼 수 있다.

 

 

▶ 플랫폼 비즈니스 

    - 공급자가 네트워크를 구축하고 소비자가 시간과 공간의 제약을 받지 않고, 

      참여할 수 있도록 하는 사업 형태 플랫폼(platform) 비즈니스 모델

 

 

▶ 양면 시장의 종류 

  ● 마켓플레이스(Marketplace)

     - 마켓 플레이스 소유자가 제공하는 선별된 경험에 따라 공급업체를 

       고객과 연결

     - 마켓플레이스 소유자는 벤더사를 소유하지 않고, 대신 플랫폼을 중심으로

        양쪽 업체가 가능한 최고의 경험을 할 수 있도록 하는데 중점을 둔다.

 

 

▶ 웹, 앱 로그 분석하기

    ● 사용자 행동 로그 데이터

       - 사용자도 모르게 서비스를 이용할 때 , 발자국처럼 남긴 데이터를 말함 

       - 웹과 앱에서 유저의 행동 기록을 의미

       - 웹과 앱에서 클릭, 화면 노출, 스크롤 등 웹과 앱을 시작해서 이탈할때까지

          사용자의 행동을 트래킹

 

    ● 앱 로그 분석

      ○ 앱 로그 분석 툴로 많이 활용되는 Amplitude(앰플리튜드)

      ○ 이벤트 프로퍼티(Event property)

         - 특정 이벤트에 대한 정보

         - ex) 음악검색(Search), 음악 재생(play song)

 

      ○ 유저 프로퍼티(user property)

         - 유저의 특성 정보

         - 유저의 사용자 ID, 디바이스 장치 유형 연령대, 지역, 유료 고객 유무 등

 

    ● 웹 로그 분석

      ○ 웹 로그 분석 툴로 많이 활용되는 GA4(앱도 가능)

      ○ 웹 로그에서 가장 중요한 개념은 유저, 이벤트, 세션

         - Event : 웹 사이트에서 발생하는 유저의 모든 행동

           ex) page_view, 쇼핑몰 사이트의 스크롤 내릴때(scroll),

                 상품 클릭하기 버튼을 누를 때(view_item)

 

         - 세션(session)

            : 웹사이트의 유저가 웹사이트에 들어온 시점부터 웹사이트를 나간 

              시점까지의 기간

 

            * GA4에서 세션은 사용자가 세션에 들어와 30분동안 아무런 활동이 

               없을 때 30분 뒤에 종료 됨