군집화
-
DBSCAN(Density-based spatial clustering of applications with noise, 밀도기반 군집화) 파이썬구현하기Data Science/ML&DL 모델 2022. 10. 5. 15:56
해당 글에서는 density based clustering(밀도기반 클러스터링,군집화)을 파이썬으로 구현해본다. 사용되는 라이브러리는 아래와 같다. 모델 : sklearn.cluster.DBSCAN 평가 : sklearn.metrics.silhouette_score , silhouette_samples, yellowbrick.cluster.KElbowVisualizer Clustering에 대한 이론적인 부분은 "클러스터링 기법(개념,타당성,평가)" 글을 참고. 1. 데이터 준비 sklearn에서 제공해주는 iris 데이터를 사용한다. clustering이기에 종속변수를 제외하고 독립변수만으로 데이터프레임을 구성한다. import pandas as pd from sklearn import datasets..
-
K-means Clustering 파이썬 구현하기Data Science/ML&DL 모델 2022. 10. 5. 15:38
해당 글에서는 clustering(클러스터링,군집화)의 대표적 기법인 K-Means를 파이썬으로 구현해본다. Clustering에 대한 이론적인 부분은 "클러스터링 기법(개념,타당성,평가)" 글을 참고. 1. 데이터 준비 sklearn에서 제공해주는 iris 데이터를 사용한다. clustering이기에 종속변수를 제외하고 독립변수만으로 데이터프레임을 구성한다. import pandas as pd from sklearn import datasets iris = datasets.load_iris() X = iris.data y = iris.target df = pd.DataFrame(X, columns = iris.feature_names) print(df) clustering에서는 각 독립변수(컬럼)별로 ..
-
클러스터링 기법 - 개념, 타당성평가, 종류Data Science/데이터마이닝 2022. 10. 5. 10:33
1. 클러스터링이란 클러스터링(clustering) = 군집화 = 군집분석 비지도학습의 일종으로 class정보(label)없이 속성정보(feature,독립변수)만으로 유사한 속성을 가진 객체들을 군집으로 묶어주는 데이터마이닝 기법 군집 간 분산 최대화 : 서로 다른 군집간에는 멀리 떨어져있어야한다. 군집 내 분산 최소화 : 같은 군집 내에서는 잘 뭉쳐있어야한다. 유사성 척도 거리(distance) 척도 : 값이 작을수록 두객체가 유사함 상관계수(correlation) 척도 : 값이 클수록 두 객체가 서로 유사함 거리척도 유클리디안 거리 : 가장 일반적인 거리척도 민코프스키 거리 : 유클리디안 거리의 일반화 방법 마할라노비스 거리 : 정규분포에서 특정 객체의 값이 얼마나 평균에서 멀어져있는가를 나타내는 거..
-
SOM Clustering(Self-Organizing Map, 자기조직화지도)Data Science 2022. 8. 21. 20:16
1. SOM Clustering SOM Clustering(이하 SOM)은 map의 topology 구조를 유지하면서 고차원의 데이터를 저차원으로 변경하는 비지도 학습 방법이다. 구조는 입력 레이어와 출력 레이어 두개의 층으로 구성되어 있다. 입력된 패턴에 가장 유사한 출력 레이어의 neuron이 winner neuron이 되고, 이를 중심으로 유사한 입력패턴의 집합이 이루어진다. 이를 통해서 유사한 패턴은 동일한 출력(같은 군집)을 가지게 된다. SOM의 가장 큰 특징이자 대표적인 군집화 기법 K-Means와의 차이점으로는 군집화의 개수를 설정하지 않아도 된다는 점이다. 그 외에도, 시각적 표현이 뛰어나며 입력변수의 위치 관계를 보존한다는 특징이 있다. SOM에 대해서 고려하게 된 계기는 아래와 같다...