Data Science
-
회귀모델에서 타겟(y)값의 정규화 방법 비교 실험Data Science/Pandas & Numpy&Scikit-learn 2022. 5. 27. 23:26
선형회귀에서는 타겟(y)값이 정규분포라는 가정을 한다. 문득, 실제로 모델에서 어떠한 성능적 영향을 미치는지 궁금증이 나타났다. 또한 트리기반의 모델에서는 타겟값의 정규분포가 영향을 미치는지 같이 실험을 진행한다. ※ 본 실험은 수학적 분석 기반이 아닌, 라이브러리를 활용한 단순 실험임을 밝힙니다. 여러 지적사항 및 의견이 있으신분은 편하게 댓글로 말씀해주시기 바랍니다. 0. 적용 정규화 방법 1. Raw data 2. MinMaxScaler 3. StandardScaler 4. RobustScaler 5. Log Transfer 6. Log Transfer + StandardScaler 7. Boxcox Transfer 8. Boxcox Transfer + StandardScaler 1. 사용 데이터 ..
-
[Python]다중 조건으로 데이터 프레임 특정 행 추출하기(데이터 프레임 필터링)Data Science/Pandas & Numpy&Scikit-learn 2022. 5. 10. 22:46
0. 서론 데이터 전처리, 분석 등에서 가장 많이 사용되는 기능 중 하나로는 데이터프레임에서 특정 행을 추출하는 필터링이 있다. 많은 수업 및 블로그들에서 loc 등을 통한 필터링을 알려주고 있지만 다중 조건에 대한 내용은 잘 나오지 않는다. 실제 분석 업무에서는 여러가지 조건을 중첩하여 사용하게 되는데, 이에대한 간단한 실험과 효율적 방법에 대해서 포스팅해본다. 1. 데이터 준비 실험 및 예시에서 사용될 데이터는 seaborn에서 제공하는 "taxis" 샘플을 사용한다. 14개의 컬럼으로 구성되어 있으며 여러 타입의 데이터가 존재한다. import seaborn as sns df = sns.load_dataset('taxis') df.info() seaborn에서 제공하는 데이터 셈플에 대한 자세한 내..
-
파이썬 시각화 그래프 여러개 그리기 plt.subplotsData Science/시각화 2021. 11. 5. 02:49
시각화 그래프를 나타 낼 때, 여러개의 그래프를 그리는 법. 1. 필요 라이브러리 import seaborn as sns import matplotlib.pyplot as plt 2. 데이터 준비 df = sns.load_dataset("iris") 데이터 샘플 불러오기에 대해서 자세히 알고싶다면 아래의 포스팅을 참고하세요. https://csshark.tistory.com/54 3. 그래프 여러개 그리기 오늘 사용할 그래프는 seaborn의 distplot입니다. seaborn의 distplot는 다음 포스팅에서 자세히 확인 가능합니다.(https://csshark.tistory.com/53) sns.distplot(df['sepal_length']) 3.1 가로로 그래프 여러개 그리기 fig, ax ..
-
파이썬 데이터 샘플 불러오기 seaborn.load_dataset (titanic 외 18)Data Science/데이터셋 2021. 11. 3. 02:36
데이터 분석 또는 시각화를 연습하거나 예시를 들때 그 재료가될 데이터가 필요하다. seaborn 라이브러리에서는 이럴 때 사용할 수 있는 데이터를 간편하게 제공하고 있다. 기본적으로 19개의 csv파일이 제공되며 그외에 이미지 등도 제공된다. 본 포스팅에서는 기본적으로 제공되는 19개의 csv 파일을 다룬다. 1. seaborn.load_dataset 데이터를 호출하는 함수 이름은 load_dataset이다. 인자로는 단순히 데이터의 이름을 입력한다. import seaborn as sns sns.load_dataset('데이터셋 이름') 2. 데이터 호출하기 2.1 아이리스 꽃 데이터(Iris) import seaborn as sns df = sns.load_dataset('iris') 2.2 타이타닉..
-
파이썬 시각화 히스토그램 그리기 Seaborn.distplotData Science/시각화 2021. 11. 2. 20:05
Seaborn 라이브러리를 이용하여 히스토그램(histogram)을 그려보겠습니다. 1. 데이터 준비 seaborn에서 기본적으로 제공해주는 tips 데이터셋을 불러와서 예시로 사용합니다. tips 데이터셋은 아래 그림과 같이 dataframe 형태로 구성되어 있는 것을 확인 할 수 있습니다. import seaborn as sns df = sns.load_dataset("tips") print(df) 2. 히스토그램 그리기 seaborn.distplot에서는 데이터프레임(df)의 특정 컬럼을 지정해주면 해당하는 히스토그램을 나타냅니다. import seaborn as sns df = sns.load_dataset("tips") ax = sns.distplot(df['total_bill']) 위의 그래프..
-
파이썬 시각화 막대그래프 그리기 Seaborn.barplotData Science/시각화 2021. 10. 13. 13:38
Seaborn 라이브러리를 이용하여 막대그래프(bar chart)를 그려보겠습니다. 1. 데이터 준비 seaborn에서 기본적으로 제공해주는 tips 데이터셋을 불러와서 예시로 사용합니다. tips 데이터셋은 아래 그림과 같이 dataframe 형태로 구성되어 있는 것을 확인 할 수 있습니다. import seaborn as sns df = sns.load_dataset("tips") print(df) 2. 막대그래프 그리기 seaborn에서는 x,y축의 값들을 리스트로 지정하는 것이 아닌 데이터프레임의 컬럼 이름으로 지정합니다. import seaborn as sns df = sns.load_dataset("tips") ax = sns.barplot(x="day", y="total_bill", data..
-
파이썬 시각화 막대그래프 그리기 Matplotlib.pyplot - barData Science/시각화 2021. 10. 13. 10:18
Matplotlib의 pyplot은 다양한 시각화 기법(그래프)를 지원합니다. 그중에서 plot을 통해서 막대그래프(bar chart)를 그려보겠습니다. import matplotlib.pyplot as plt x_lst = [1,2,3,4,5] y_lst = [3,4,5,2,1] plt.bar(x_lst, y_lst, width=0.8) plt.show() 1. x_lst, y_lst 그래프의 X축/Y축 좌표, 두 리스트의 길이는 동일해야합니다. 2. width width는 막대그래프의 두께를 나타냅니다. 해당 파라미터를 지정하지 않아도 0.8로 기본 설정됩니다. 1로 지정시 막대간의 여백이 없어집니다. 3. 그외의 속성, 누적 막대그래프 그리기 기준값(bottom), 막대정렬기준(align), 막대 ..
-
파이썬 시각화 꺽은선그래프 그리기 Matplotlib.pyplot - plotData Science/시각화 2021. 10. 12. 14:50
Matplotlib의 pyplot은 다양한 시각화 기법(그래프)를 지원합니다. 그중에서 plot을 통해서 꺽은선그래프(line chart)를 그려보겠습니다. import matplotlib.pyplot as plt x_lst = [1,2,3,4,5] # x축좌표 y_lst = [1,4,9,16,25] # y축좌표 fmt = 'o-g' # [마커모양]+[선종류]+[색] plt.plot(x_lst, y_lst, fmt) plt.show() 1. x_lst, y_lst 그래프의 X축/Y축 좌표, 두 리스트의 길이는 동일해야합니다. 2. fmt(format) 꺽은선 그래프의 format을 나타내며 [마커모양], [선종류], [색]으로 구성되어있습니다. ㄴ세부 파라미터의 순서를 변경해도 되지만 mabplotlib..