캐글에서 코드들을 공부하다가 못보던 type을
보아서 궁금해져서 알아보았다.
▶category type
- pandas에만 있고, python, numpy에는 없다.
- hybrid data type이다.
- 보기에는 string 처럼 보이나 내부적으로는 integer의 배열로 표현이 되어 있다.
▶그렇다면 왜 category 데이터를 써야 할 까?
1. 만약에 사이즈 데이터를 str로 저장한다고 가정하면,
사이즈간의 순서는 'x-small' < 'small'<'medium'<'large'< 'x-large'
가 되어야 한다.
그러나, str 저장시 알파벳 순서대로 정렬하게 되면 위와 같은 순서대로
정렬 불가능
2. categorical data type을 적절한 통계모델/plot types로 해석할 수 있는
파이썬 시각화 라이브러리들이 존재
3. categorical data는 더 적은 메모리를 사용하고 이는 성능 향상으로
이어진다.
출처:
https://think-tech.tistory.com/10
[Pandas] categorical data type(범주형 데이터 타입)이란? (category datatype 사용 예제, pandas.Series.cat 사용법)
pandas에서 사용하는 데이엍 타입은 아래와 같다. 이 중에서 Pandas에만 있고, python, numpy에는 없는 category 타입에 대해서 간단하게 알아보자. category 타입이란 text 값의 유한한 리스트를 표현할 때 사
think-tech.tistory.com
'데이터분석 study > Python' 카테고리의 다른 글
TIL_24.07.31_ ord(),chr(),isalpha(),isdigit(),isupper() (0) | 2024.07.31 |
---|---|
TIL_24.07.26_itertools/combinations (0) | 2024.07.26 |
TIL_24.07.15_데코레이션 사용하기 (0) | 2024.07.15 |
TIL_24.07.12_알면 유용한 파이썬 문법들(불리언 인덱싱) (0) | 2024.07.12 |
TIL_24.07.11_알면 유용한 파이썬 문법3(class) (0) | 2024.07.11 |