binning
-
파이썬 수치 데이터 구간화(Binning) 하기 - pd.cut, pd.qcutData Science/Pandas & Numpy&Scikit-learn 2022. 9. 27. 19:34
1. 구간화(Binning) 구간화는 수치데이터를 특정 구간별로 묶어 범주형 데이터로 변경하는 데이터 처리 기법이다. 우리가 흔히 쓰는 10대, 20대와같은 말이 대표적인 구간화이다. 2. Pd.cut 대표적 데이터 처리 라이브러리인 Pandas에서 cut이라는 함수를 통해 구간화를 지원한다. pd.cut은 인자로 수치형 데이터를 담은 리스트와 해당 데이터의 구간 개수를 입력받는다. (리스트 대신 데이터프레임의 특정 컬럼도 입력 가능하다.) 이때 구간은 리스트에서의 최소값과 최대값을 구간 개수만큼 분리하여 생성된다. import pandas as pd lst = [1,2,3,4,5,6,7,8,9,10,20,30,40,100,200,1000,5000] # pd.cut(수치데이터, 구간개수) re = pd...