인코딩
-
Python 파일 읽어오기 인코딩 정리프로그래밍/파이썬 기초 2021. 10. 6. 14:13
인코딩이란? 파이썬(코딩)에서 인코딩이란 문자를 컴퓨터가 이해할 수 있는 기계어로 변환하는 작업을 뜻한다. 인코딩 종류 인코딩의 종류는 다양하게 존재하지만, 현실적으로 우리가 주로 마주하게 되는 인코딩은 다음과 같다. 1. UTF-8 : 유니코드 문자 인코딩 방식 중 하나. 가장 널리 사용되는 인코딩. 2. UTF-16 : 유니코드 문자 인코딩 방식 중 하나. 기본 문자는 16비트, 그 이상의 문자는 32비트로 인코딩 됨. 3. EUC-KR : 한글 완성형 인코딩. 8비트 문자 인코딩. 4. CP949(MSWIN949) : EUC-KR의 확장 버전으로 하위 호환성을 가진다. 인코딩이 필요할 때 파일(txt, csv 등등)을 읽어올 때 아래와 같은 에러 메시지를 받을 때가 있다. UnicodeDecodeE..
-
[인코딩,sklearn] Ordinal EncodingData Science/Pandas & Numpy&Scikit-learn 2021. 9. 14. 10:19
인코딩 방법에는 여러가지가 존재한다. 본 포스팅에서는 Ordinal 인코딩을 사용한다. One-Hot 인코딩은 단어 집합의 크기를 벡터 차원으로 하여 0과 1로 표현하는 반면, Ordinal 인코딩은 단어를 0~n의 값으로 치환한다. 따라서 데이터프레임의 컬럼 개수는 그대로이다. 샘플 데이터 생성 import pandas as pd df=pd.DataFrame({ 'ID':[1,2,3,4,5], 'name':['아메리카노','바닐라라떼','아메리카노','민트초코','아메리카노'], 'tumbler':['N','Y','Y','N','N'] }) print(df) 컬럼별 데이터 타입 살펴보기 print(df.dtypes) 범주형 데이터 타입만 살펴보기 (categorical, object) categoric..
-
[인코딩,sklearn] One-Hot EncodingData Science/Pandas & Numpy&Scikit-learn 2021. 9. 14. 10:07
인코딩 방법에는 여러가지가 존재한다. 본 포스팅에서는 가장 널리 쓰이는 One-Hot 인코딩을 사용한다. 샘플 데이터 생성 import pandas as pd df=pd.DataFrame({ 'ID':[1,2,3,4,5], 'name':['아메리카노','바닐라라떼','아메리카노','민트초코','아메리카노'], 'tumbler':['N','Y','Y','N','N'] }) print(df) 컬럼별 데이터 타입 살펴보기 print(df.dtypes) 범주형 데이터 타입만 살펴보기 (categorical, object) categorical_list = df.dtypes[df.dtypes == "object"].index.tolist() print("Categorical features: ", categori..