엘보우 기법
-
K-means Clustering 파이썬 구현하기Data Science/ML&DL 모델 2022. 10. 5. 15:38
해당 글에서는 clustering(클러스터링,군집화)의 대표적 기법인 K-Means를 파이썬으로 구현해본다. Clustering에 대한 이론적인 부분은 "클러스터링 기법(개념,타당성,평가)" 글을 참고. 1. 데이터 준비 sklearn에서 제공해주는 iris 데이터를 사용한다. clustering이기에 종속변수를 제외하고 독립변수만으로 데이터프레임을 구성한다. import pandas as pd from sklearn import datasets iris = datasets.load_iris() X = iris.data y = iris.target df = pd.DataFrame(X, columns = iris.feature_names) print(df) clustering에서는 각 독립변수(컬럼)별로 ..
-
클러스터링 기법 - 개념, 타당성평가, 종류Data Science/데이터마이닝 2022. 10. 5. 10:33
1. 클러스터링이란 클러스터링(clustering) = 군집화 = 군집분석 비지도학습의 일종으로 class정보(label)없이 속성정보(feature,독립변수)만으로 유사한 속성을 가진 객체들을 군집으로 묶어주는 데이터마이닝 기법 군집 간 분산 최대화 : 서로 다른 군집간에는 멀리 떨어져있어야한다. 군집 내 분산 최소화 : 같은 군집 내에서는 잘 뭉쳐있어야한다. 유사성 척도 거리(distance) 척도 : 값이 작을수록 두객체가 유사함 상관계수(correlation) 척도 : 값이 클수록 두 객체가 서로 유사함 거리척도 유클리디안 거리 : 가장 일반적인 거리척도 민코프스키 거리 : 유클리디안 거리의 일반화 방법 마할라노비스 거리 : 정규분포에서 특정 객체의 값이 얼마나 평균에서 멀어져있는가를 나타내는 거..