Data Science/데이터마이닝
-
최대우도법(Maximum Likelihood Estimation, MLE)Data Science/데이터마이닝 2022. 11. 3. 23:42
어떠한 예측 모델을 만들때 생성된 모델이 얼마나 Train data set을 잘 설명하는지를 측정할 필요가 있으며, 이를 좋은 방향으로 개선해나아감으로 모델을 학습할 수 있다. Train data set에 대한 설명력을 측정하는 가장 대표적인 방법으로는 손실함수(Loss function)가 있다. 다른 방법으로는 이번 포스팅에서 설명할 Likelihood가 있다. 1. Likelihood란? X라는 데이터는 자연에서의 True Distribution에서 발생하였다. 이때, 우리는 모집단을 알수 없기 때문에 샘플링 된 데이터를 통해서 True Distribution을 추정해야한다. 따라서 True Distribution일 가능성(Probability)을 Likelihood라고 할 때 가장 높은 가능성을 가..
-
파이썬에서 시간값 다루기 - Datetime, TimedeltaData Science/데이터마이닝 2022. 10. 7. 13:14
파이썬에서 datetime 라이브러리를 사용하여 시간값을 다룰수 있다. 1.현재 시간 출력하기 및 과거/미래 시간 계산하기 datetime 라이브러리로 현재시간을 받아올 수 있으며, timedelta 라이브러리로 datetime 객체의 더하기, 빼기를 수행할 수 있다. from datetime import datetime, timedelta # 현재 시간 print('현재시간 : ',datetime.now()) # 하루 전 시간 delta = datetime.now() - timedelta(1) print('하루전 시간 : ',delta) # 이주일 전 시간 delta = datetime.now() - timedelta(14) print('이주전 시간 : ',delta) # 1년 전 시간 delta = ..
-
클러스터링 기법 - 개념, 타당성평가, 종류Data Science/데이터마이닝 2022. 10. 5. 10:33
1. 클러스터링이란 클러스터링(clustering) = 군집화 = 군집분석 비지도학습의 일종으로 class정보(label)없이 속성정보(feature,독립변수)만으로 유사한 속성을 가진 객체들을 군집으로 묶어주는 데이터마이닝 기법 군집 간 분산 최대화 : 서로 다른 군집간에는 멀리 떨어져있어야한다. 군집 내 분산 최소화 : 같은 군집 내에서는 잘 뭉쳐있어야한다. 유사성 척도 거리(distance) 척도 : 값이 작을수록 두객체가 유사함 상관계수(correlation) 척도 : 값이 클수록 두 객체가 서로 유사함 거리척도 유클리디안 거리 : 가장 일반적인 거리척도 민코프스키 거리 : 유클리디안 거리의 일반화 방법 마할라노비스 거리 : 정규분포에서 특정 객체의 값이 얼마나 평균에서 멀어져있는가를 나타내는 거..
-
연관규칙(Association rules) 파이썬 구현하기 mlxtend.frequent_patterns.aprioriData Science/데이터마이닝 2022. 10. 4. 17:06
from mlxtend.frequent_patterns import apriori from mlxtend.frequent_patterns import fpmax from mlxtend.frequent_patterns import association_rules itemsets = apriori(fp_df, min_support=0.2, use_colnames=True) itemsets.sort_values("support", ascending=False) #fpmax(fp_df, min_support=0.2, use_colnames=True) rules = association_rules(itemsets, min_threshold=0.5) antecedents : X consequent : Y antec..
-
데이터 형(data type) 종류Data Science/데이터마이닝 2022. 9. 29. 13:00
1. Categoric(범주형) 1.1 Nominal Data(명목 데이터) categories하게 분류 가능한 데이터. 각각이 고유하며 순서가 없다. 사용가능 연산자 : ==(같다), !=(다르다) ex 동물 : 강아지, 고양이, 토끼 ex 성별 : 남자, 여자 강아지와 고양이는 다르다. => 강아지 != 고양이 (O) 강아지와 강아지는 같다. => 강아지 == 강아지 (O) 강아지 < 고양이 (X) 강아지 + 강아지 (X) 1.2 Ordinal Data(순서 데이터) categories간의 순서가 있는 데이터. 각자 고유하나 순서가 있다. 사용가능 연산자 : ==(같다), !=(다르다), (크다) ex 등수 : 1등, 2등, 3등 ex 설문문답지 : 매우그렇다, 그렇다, 보통이다, 그렇지않다, 매우그..
-
[XAI/Python] SHAP 파이썬 라이브러리 사용 코드 예시(SHapley Additive exPlanations)Data Science/데이터마이닝 2022. 7. 15. 21:18
0. SHAP란 SHAP는 ML 모델의 예측 결과를 설명하기 위한 게임이론적 접근방식이다. XAI가 주목받는 요즘, 쉽게 접근 할 수 있으며 결과를 그래프로 볼 수 있는 SHAP에 대해서 포스팅한다. 1. SHAP 설치 # 주피터 노트북 안에서 !pip install shap # 터미널에서 pip install shap 2. 사용 데이터 및 모델 해당 포스팅에서는 회귀예측을 하기 위한 보스턴 주택 가격 데이터를 사용한다. 예측모델로는 XGBoost 회귀모델을 사용한다. 해당 데이터의 구성은 아래와 같다. 컬럼 설명 CRIM 타운 별 1인당 범죄율 ZN 25,000 피트 이상 주거용 토지 비율 INDUS 비소매 상업지역 점유 토지 비율 CHAS 강 인접 유무(1 = 강과 인접, 0 = 강과 인접하지 않음)..
-
회귀분석 평가지표 종류(특징, 장단점, 파이썬 코드)Data Science/데이터마이닝 2022. 6. 23. 22:07
대학원생일때까지만 해도 평가지표는 단순히 모델의 성능을 나타내는 것이라고 생각했었는데. 회사에서 평가지표란 프로젝트의 성공 및 적용 여부를 표현할 수 있어야 하며, 관리자(팀장,임원 등)들을 설득시킬 수 있어야 했다. 본 글에서는 회귀분석에서는 평가지표들을 간단히 짚어보며 수식, 특징, 파이썬 코드와 더불어서 간단한 사족을 붙이려 한다. 각 평가지표의 수식의 경우 다양한 블로그 및 사이트에서 다루므로 생략한다. 0. 목록 R Squared(R2, 결정계수) Adjusted R Squared(Adjusted R2, 조정된 결정계수) MAE(Mean Absolute Error, 평균절대오차) MSE(Mean Squared Error, 평균제곱오차) RMSE(Root Mean Squared Error, 평균제..