기타

데이터마이닝 수업 정리

상어군 2022. 9. 29. 12:55
반응형

1. 데이터마이닝이란

p9

 

p?  지도학습 비지도학습

 

p21, 30 train/validation/test & overfitting

 

p ?? skew, median, mean, mode

mean : 평균

median : 중위값

mode : 최빈값

skewness : 비대칭도, 왜도

평균 중위 최빈값으로 좌우 왜도를 구분할 수 있나

p 85 중심극한정리(Confidence interval)

동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리

 

6.confidence interval
p85

 

p109 정규분포(z-score) & t분포(t-score)

  • 샘플의 크기가 30보다 큰지?
  • 모집단의 표준편차를 아는지?

 

P 161 데이터의 종류

https://csshark.tistory.com/100

 

p? 데이터 정규화(Data Normalization, Scaling) & 데이터 변환(Data Transformation)

정규화 : 모든 변수의 단위를 동일한 기준(스케일)로 통일

변환 : 데이터의 분포를 정규분포에 근사하게 변환

 

P? 상관계수Covariance and correlation

공분산(Covariance)

각 확률변수들이 어떻게 퍼져있는지를 나타내는 것.

두 변수가 독립적이면 공분산이 0이 되지만, 공분산이 0이라고 두 변수가 독립적이라고 확정지을수는 없다.

공분산은 데이터의 스케일에 영향을 받는다.

상관계수(Correlation)

-1 ~ 1 사이의 값을 가지며, 데이터의 스케일에 영향을 받지 않는다.

음수는 음의 상관관계, 양수는 양의 상관관계를 가진다고 볼 수 있다.

두 변수가 독립적이면 상관계수가 0이 되지만, 상관계수가 0이라고 두 변수가 독립적이라고 확정지을수는 없다.

p332 EDA

내용읽기

 

박스플롯

 

p371,386 Dimension Reduction, PCA

https://darkpgmr.tistory.com/110

차원감소 = 계산량 감소

p? 귀무/대립 가설, 유의수준

귀무가설 : 틀리길 바라는 조건

대립가설 : 내가 맞기를 바라는 조건

귀무가설에 대해서 검증을 한다!

유의확률 : 높을수록 해당 의견이 맞다!!

그런데 우리는 귀무가설이 틀려야한다! => 즉, 유의확률이 낮게 나와야한다!!!

통상적으로 0.05이상일 경우 의견을 채택하므로,

귀무가설의 유의 확률이 0.05미만일경우 기각하여 대립가설을 채택한다.

 

p?? 혼동행렬 (confusion matrix)

p453 : roc, lift curve

roc curve

x축 : true positive(예측yes, 실제 false)

y축 : false positive(예측yes, 실제 yes)

 

cumulative gains

lisft chart : https://carrot-woo.tistory.com/55

https://todayisbetterthanyesterday.tistory.com/5

p ? 클러스터링

https://csshark.tistory.com/109

 

p ? 거리계산 Distance

유클리디안 거리(L2)

https://hleecaster.com/ml-distance-formula/

멘하탄 거리(L1)

https://hleecaster.com/ml-distance-formula/

민코우스키 거리(Minkowski Distance)

앞선 거리들을 일반화 하여 사용하는 기법

p = 1 : 멘하탄 거리

p = 2 : 유클리디안 거리

p = 무한대 : 아래 식

마할라노비스 거리(Mahalanobis Distance)

마할라노비스 거리는 데이터 밀도를 고려한 거리

검은색 점와 타원 경계의 점들 사이의 마할라노비스 거리는 같다

p ? Regression with regularization

회귀계수가 가질 수 있는 값에 제약조건을 부여하는 방법

variance를 감소시켜 일반화 성능을 높임 (이 때, bias가 증가)

 

릿지회귀 => L2

라쏘회귀 => L1

https://ratsgo.github.io/machine%20learning/2017/05/22/RLR/

p ? ANN 

 

p ? Naive Bayes Classifier

exact bayes로 계산할 수 있으나

차원이 높아질 수록 해당 조건에 대한 데이터가 없을 확률이 높고 편향된 데이터가 발생 할 수 있음

따라서, naive bayes로 계산하여  이를 해결

 

p ? Association rules

https://csshark.tistory.com/108

 

반응형