데이터분석 study/Python

TIL_24.07.25_category type

justdata 2024. 7. 25. 17:03

캐글에서 코드들을 공부하다가 못보던 type을

보아서 궁금해져서 알아보았다.

 

 

▶category type

    - pandas에만 있고, python, numpy에는 없다.

    - hybrid data type이다.

    - 보기에는 string 처럼 보이나 내부적으로는 integer의 배열로 표현이 되어 있다.

    

 

그렇다면 왜 category 데이터를 써야 할 까?

    1. 만약에 사이즈 데이터를 str로 저장한다고 가정하면,

        사이즈간의 순서는 'x-small' < 'small'<'medium'<'large'< 'x-large'

        가 되어야 한다. 

        그러나, str 저장시 알파벳 순서대로 정렬하게 되면 위와 같은 순서대로

        정렬 불가능

 

   2. categorical data type을 적절한 통계모델/plot types로 해석할 수 있는 

       파이썬 시각화 라이브러리들이 존재

 

  3. categorical data는 더 적은 메모리를 사용하고 이는 성능 향상으로

      이어진다.

 

출처:

https://think-tech.tistory.com/10

 

[Pandas] categorical data type(범주형 데이터 타입)이란? (category datatype 사용 예제, pandas.Series.cat 사용법)

pandas에서 사용하는 데이엍 타입은 아래와 같다. 이 중에서 Pandas에만 있고, python, numpy에는 없는 category 타입에 대해서 간단하게 알아보자. category 타입이란 text 값의 유한한 리스트를 표현할 때 사

think-tech.tistory.com