pandas
-
[Pandas] 데이터프레임 필터링, 특정 조건에 맞는 행/열 추출하기 (DataFrame.loc[])Data Science/Pandas & Numpy&Scikit-learn 2022. 10. 2. 18:24
이번 글에서는 데이터프레임에서 원하는 조건들을 적용해서 원하는 행 또는 열을 추출하는 방법을 작성한다. Pandas에서 데이터프레임 필터링 방법은 여러가지가 있지만 해당글에서는 loc만을 다룬다. 1. 데이터 준비 seaborn 라이브러리에서 제공하는 taxis 데이터셋을 사용한다. (참고 : sns.load_dataset, 파이썬 데이터샘플 불러오기) import seaborn as sns df = sns.load_dataset('taxis') print(df) print(df.info()) 2. Pandas DataFrame.loc[] 사용법 가장 기본이 되는 문법은 DataFrame.loc[ 행조건 , 열조건 ] 이다. 행조건에는 index 또는 bool 타입의 리스트가 사용된다. 열조건에는 컬럼 ..
-
파이썬 수치 데이터 구간화(Binning) 하기 - pd.cut, pd.qcutData Science/Pandas & Numpy&Scikit-learn 2022. 9. 27. 19:34
1. 구간화(Binning) 구간화는 수치데이터를 특정 구간별로 묶어 범주형 데이터로 변경하는 데이터 처리 기법이다. 우리가 흔히 쓰는 10대, 20대와같은 말이 대표적인 구간화이다. 2. Pd.cut 대표적 데이터 처리 라이브러리인 Pandas에서 cut이라는 함수를 통해 구간화를 지원한다. pd.cut은 인자로 수치형 데이터를 담은 리스트와 해당 데이터의 구간 개수를 입력받는다. (리스트 대신 데이터프레임의 특정 컬럼도 입력 가능하다.) 이때 구간은 리스트에서의 최소값과 최대값을 구간 개수만큼 분리하여 생성된다. import pandas as pd lst = [1,2,3,4,5,6,7,8,9,10,20,30,40,100,200,1000,5000] # pd.cut(수치데이터, 구간개수) re = pd...
-
파이썬 데이터 병합(데이터프레임 핸들링, Join/Pandas.merge/Pandas.concat)카테고리 없음 2022. 9. 27. 15:22
1. 데이터 병합(Join) 종류 Inner join(교집합) : 두 데이터에서 기준값이 일치하는 데이터만 병합 Outer join(합집합) : 두 데이터의 모든값 병합 Left join(차집합 좌 - 우) : 좌측 데이터의 기준값과 일치하는 데이터만 병합 right join(차집합 우 - 좌) : 우측 데이터의 기준값과 일치하는 데이터만 병합 2. Join 기존 데이터 프레임과 주어진 데이터프레임을 Index 기준으로 병합한다. 병합된 데이터 프레임은 결과로 반환된다. 기본 병합 키 : Index 기본 병합방식 : left join (left,right,inner,outer 변경 가능) ※ suffix 미지정시 두 데이터간에 중복되는 컬럼명을 가지면 안된다. import pandas as pd df1 ..
-
[Pandas] Pandas를 통한 데이터 전처리Data Science/Pandas & Numpy&Scikit-learn 2022. 9. 13. 23:15
1. Pandas 인스톨 및 import pip install pandas import pandas as pd # as pd의 의미는 앞으로 pandas를 pd라는 약자로 부르겠다 2. 데이터프레임 생성 2.1 파일로부터 데이터프레임 생성 df = pd.read_csv("파일위치/파일이름.csv") 인자이름 기본값 변경가능값 의미 sep ',' 구분자로 사용할 문자열 컬럼간 구분자 csv의 구분자인 ','가 기본값이다 header 'infer' None 파일에 항목이름(column)이 없을경우 None으로 설정 names 없음 항목이름 리스트 읽어오는 데이터의 항목이름 설정 usecols None 항목이름 리스트 지정된 항목만 읽어옴 df = pd.read_csv('myfile.txt', header=N..