컴퓨터하는 상어
-
파이썬 시각화 막대그래프 그리기 Matplotlib.pyplot - barData Science/시각화 2021. 10. 13. 10:18
Matplotlib의 pyplot은 다양한 시각화 기법(그래프)를 지원합니다. 그중에서 plot을 통해서 막대그래프(bar chart)를 그려보겠습니다. import matplotlib.pyplot as plt x_lst = [1,2,3,4,5] y_lst = [3,4,5,2,1] plt.bar(x_lst, y_lst, width=0.8) plt.show() 1. x_lst, y_lst 그래프의 X축/Y축 좌표, 두 리스트의 길이는 동일해야합니다. 2. width width는 막대그래프의 두께를 나타냅니다. 해당 파라미터를 지정하지 않아도 0.8로 기본 설정됩니다. 1로 지정시 막대간의 여백이 없어집니다. 3. 그외의 속성, 누적 막대그래프 그리기 기준값(bottom), 막대정렬기준(align), 막대 ..
-
파이썬 시각화 꺽은선그래프 그리기 Matplotlib.pyplot - plotData Science/시각화 2021. 10. 12. 14:50
Matplotlib의 pyplot은 다양한 시각화 기법(그래프)를 지원합니다. 그중에서 plot을 통해서 꺽은선그래프(line chart)를 그려보겠습니다. import matplotlib.pyplot as plt x_lst = [1,2,3,4,5] # x축좌표 y_lst = [1,4,9,16,25] # y축좌표 fmt = 'o-g' # [마커모양]+[선종류]+[색] plt.plot(x_lst, y_lst, fmt) plt.show() 1. x_lst, y_lst 그래프의 X축/Y축 좌표, 두 리스트의 길이는 동일해야합니다. 2. fmt(format) 꺽은선 그래프의 format을 나타내며 [마커모양], [선종류], [색]으로 구성되어있습니다. ㄴ세부 파라미터의 순서를 변경해도 되지만 mabplotlib..
-
Python 파일 읽어오기 인코딩 정리프로그래밍/파이썬 기초 2021. 10. 6. 14:13
인코딩이란? 파이썬(코딩)에서 인코딩이란 문자를 컴퓨터가 이해할 수 있는 기계어로 변환하는 작업을 뜻한다. 인코딩 종류 인코딩의 종류는 다양하게 존재하지만, 현실적으로 우리가 주로 마주하게 되는 인코딩은 다음과 같다. 1. UTF-8 : 유니코드 문자 인코딩 방식 중 하나. 가장 널리 사용되는 인코딩. 2. UTF-16 : 유니코드 문자 인코딩 방식 중 하나. 기본 문자는 16비트, 그 이상의 문자는 32비트로 인코딩 됨. 3. EUC-KR : 한글 완성형 인코딩. 8비트 문자 인코딩. 4. CP949(MSWIN949) : EUC-KR의 확장 버전으로 하위 호환성을 가진다. 인코딩이 필요할 때 파일(txt, csv 등등)을 읽어올 때 아래와 같은 에러 메시지를 받을 때가 있다. UnicodeDecodeE..
-
[정규화,sklearn] MinMaxScaler, StandardScaler, RobustScalerData Science/Pandas & Numpy&Scikit-learn 2021. 9. 14. 15:47
예측 모델을 위한 입력 피처를 구성하기 위해서는 수치형 값을 정규화 해야한다. 컬럼별로 수치형 값의 범위가 다를 경우 모델이 정확하게 학습되지 않을 수 있다. 본 포스팅에서는 각 컬럼들이 비슷한 범위를 가지게 하는 세가지 방법을 소개한다. 데이터 준비 import pandas as pd df=pd.DataFrame({ 'ID':[1,2,3,4,5], 'name':['아메리카노','바닐라라떼','아메리카노','민트초코','아메리카노'], 'tumbler':['N','Y','Y','N','N'], 'Age':[25,31,18,22,35], 'weight':[88.5,65.3,61.6,77.4,89.9] }) print(df) 데이터 타입 확인 print(df.dtypes) 수치형 컬럼 지정 해당 데이터에서 ..
-
[인코딩,sklearn] Ordinal EncodingData Science/Pandas & Numpy&Scikit-learn 2021. 9. 14. 10:19
인코딩 방법에는 여러가지가 존재한다. 본 포스팅에서는 Ordinal 인코딩을 사용한다. One-Hot 인코딩은 단어 집합의 크기를 벡터 차원으로 하여 0과 1로 표현하는 반면, Ordinal 인코딩은 단어를 0~n의 값으로 치환한다. 따라서 데이터프레임의 컬럼 개수는 그대로이다. 샘플 데이터 생성 import pandas as pd df=pd.DataFrame({ 'ID':[1,2,3,4,5], 'name':['아메리카노','바닐라라떼','아메리카노','민트초코','아메리카노'], 'tumbler':['N','Y','Y','N','N'] }) print(df) 컬럼별 데이터 타입 살펴보기 print(df.dtypes) 범주형 데이터 타입만 살펴보기 (categorical, object) categoric..
-
[인코딩,sklearn] One-Hot EncodingData Science/Pandas & Numpy&Scikit-learn 2021. 9. 14. 10:07
인코딩 방법에는 여러가지가 존재한다. 본 포스팅에서는 가장 널리 쓰이는 One-Hot 인코딩을 사용한다. 샘플 데이터 생성 import pandas as pd df=pd.DataFrame({ 'ID':[1,2,3,4,5], 'name':['아메리카노','바닐라라떼','아메리카노','민트초코','아메리카노'], 'tumbler':['N','Y','Y','N','N'] }) print(df) 컬럼별 데이터 타입 살펴보기 print(df.dtypes) 범주형 데이터 타입만 살펴보기 (categorical, object) categorical_list = df.dtypes[df.dtypes == "object"].index.tolist() print("Categorical features: ", categori..
-
Linux 계정 생성 및 관리자 권한(sudo) 부여기타 2021. 9. 13. 14:34
리눅스 계정 리스트 확인 cut -f1 -d: /etc/passwd 계정 생성 및 권한 설정 (root 계정으로 진행) # root 계정 접속 su # 계정 생성 및 비밀번호 설정 useradd {계정명} passwd {계정명} # 계정 권한 부여 nano /etc/sudoers nano는 파일 에디터이다. vi 등의 다른 에디터를 사용해도 무방하다. 아래 그림와 같이 "root ALL=(ALL) ALL" 이 명시되어 있는 부분 하단에 생성된 계정을 추가한다. 생성된 계정 접속 su {계정명}
-
[파이썬] 주가(finance) 데이터 불러오기 - FinanceDataReaderData Science/데이터셋 2021. 9. 2. 16:28
주가 데이터 불러오기 필요 라이브러리 설치 pip install finance-datareader pip install BeautifulSoup4 라이브러리 선언 import pandas as pd import FinanceDataReader as fdr 데이터 불러오기 key_lst = ['USD/KRW','KS11','KQ11','KS200'] name_lst = ['환율','코스피','코스닥','코스피200'] df_lst = [] for x,name in zip(key_lst,name_lst): df_lst.append(fdr.DataReader(x, s_time, e_time)[['Close']]) korea_df = pd.concat(df_lst, axis=1) korea_df.columns ..