Data Science/Pandas & Numpy&Scikit-learn
-
[인코딩,sklearn] Ordinal EncodingData Science/Pandas & Numpy&Scikit-learn 2021. 9. 14. 10:19
인코딩 방법에는 여러가지가 존재한다. 본 포스팅에서는 Ordinal 인코딩을 사용한다. One-Hot 인코딩은 단어 집합의 크기를 벡터 차원으로 하여 0과 1로 표현하는 반면, Ordinal 인코딩은 단어를 0~n의 값으로 치환한다. 따라서 데이터프레임의 컬럼 개수는 그대로이다. 샘플 데이터 생성 import pandas as pd df=pd.DataFrame({ 'ID':[1,2,3,4,5], 'name':['아메리카노','바닐라라떼','아메리카노','민트초코','아메리카노'], 'tumbler':['N','Y','Y','N','N'] }) print(df) 컬럼별 데이터 타입 살펴보기 print(df.dtypes) 범주형 데이터 타입만 살펴보기 (categorical, object) categoric..
-
[인코딩,sklearn] One-Hot EncodingData Science/Pandas & Numpy&Scikit-learn 2021. 9. 14. 10:07
인코딩 방법에는 여러가지가 존재한다. 본 포스팅에서는 가장 널리 쓰이는 One-Hot 인코딩을 사용한다. 샘플 데이터 생성 import pandas as pd df=pd.DataFrame({ 'ID':[1,2,3,4,5], 'name':['아메리카노','바닐라라떼','아메리카노','민트초코','아메리카노'], 'tumbler':['N','Y','Y','N','N'] }) print(df) 컬럼별 데이터 타입 살펴보기 print(df.dtypes) 범주형 데이터 타입만 살펴보기 (categorical, object) categorical_list = df.dtypes[df.dtypes == "object"].index.tolist() print("Categorical features: ", categori..