-
인공지능 기초 이론시험 요점기타 2022. 10. 20. 17:38반응형
이론부문
상 : PCA 잘못한거, 분류문제, ?
1. Model learning
learning rate가 크면 수렴하는데 빠르다.
비선형 데이터에서 선형 분류를 사용하기 위해서 데이터의 차원을 증가시키는 방법은? => 커널
최적화에 반드시 필요한 3가지 objective function, decision variable or unknown, constraints
모델이 과하게 학습되어 train 성능은 높지만, test 성능이 낮은 경우는? => 과적합(over fitting)
2. regression
2.1 logistic regression
지도학습?, 이진분류
0,1을 선형으로 구분하는 선형분류
멀티분류문제는 어떻게 하는가? => 여러개의 선(여러 모델을 만들어서)을 통해서 해결 가능하다.
시그모이드 사용하는 이유는? : 바운더리에서 멀리 떨어져있더라도 영향을 안주기 위해서이다. (아웃라이어에 강건함)
리니어 회귀에서 L1을 사용하면 L2보다 이상치 영향을 적게 받는다 (L1은 사각형이라 0에서 부딪힌다.)
knn은 타겟값이 필요하다
3. classification3.1 SVM :
boundary 주위 일종의 band를 최대로 한다
slack variable을 통해서 이상치에 대해 강건성을 확보한다.
3. knnk개의 가장 가까운 값들의 y값의 최빈값(또는 평균값으로 결정된다)
-지도학습이란점
4. decision tree
트리에서 노드 분할을 위해서 크로스 엔트로피(Cross Entropy), 지니계수(Gini coefficient) 등을 사용한다.
5. ensemble베깅을 사용하면 높은 바이어스와 낮은 베리언스를 얻을 수 있다. ( 정답과는 멀수 있지만, 군집해있다.)
부스팅을 사용하면 낮은 바이어스와 높은 베리언스를 얻을 수 있다. (정답과는 가깝지만 넓은 분포를 가진다.)
부스팅방식은 베깅보다 학습속도가 느리다. (부스팅은 직렬, 베깅은 병렬)
앙상블 모델 두가지를 서술하시오.
6. 클러스터링군집간에는 멀리 떨어지고, 군집내부는 밀집해있어야한다.
군집 내부는 유성이 높고 군집간에는 유사성이 낮다.
high within cluster similarity and
low inter cluster similarity(p305)
6.1 kmeans
-비지도학습,
-군집개수를 임의 설정해주어야한다.
-최적의 군집개수 찾기 : Elbow Method,
실루엣 인덱스-군집 초기값이 랜덤이라서, 매번 결과가 다르기도하고, 그결과가 최적이라는 보장이 없다.
7. pca
PCA는 선형하게 데이터를 분석하는 방법이다. ( 비선형한 방식은 오토인코더이다.)
정규화 유무에 따라서 성능의 차이가 많이 난다.
중앙값을 0으로 맞춰줘야한다.
PCA는 y값들과 추세선이 직교가 되며 선형회귀는 y값과 예측값이 최소가 되는 추세선을 구한다.
train 데이터에 fitting 하였으면 test 데이터에서는 transform만 사용하여야 한다.
실습 코드에서 PCA 설명력에 대해서 인지할것
반응형'기타' 카테고리의 다른 글
[여행] 보조배터리 비행기 반입 제한, Wh 계산(mAh, V) (0) 2023.05.31 머신러닝 수업 참고자료 리스트 (0) 2022.11.08 데이터마이닝 수업 정리 (0) 2022.09.29 [파이썬/자료형]딕셔너리(Dictionary) (0) 2022.09.07 수업 요점정리 2주차(1) (0) 2022.09.06