본문 바로가기

Machine Learning

[Machine Learning]머신러닝Unsupervised의Hierarchical Clustering

Hierachical Clustering 계층적 군집화

 -계층적 트리 모형을 이용해 개별 개체들을 순차적,

  계층적으로 유사한 개체 내지 그룹과 통합하여 군집화를 수행하는 알고리즘

 - K-means Clustering과 달리 군집 수를 사전에 정하지 않아도 학습을 수행할 수 있다.

 - Dendrogram 이용

 

Dendrogram 덴드로그램

 - 개체들이 결합되는 순서를 나타내는 트리형태의 구조

 - 적절한 수준에서 트리를 자르면 전체 데이터를 몇개 군집으로 나눌 수 있게 된다.

1.na가 있는지 확인

df.isna().sum() 했을때 모두 0이 나와 na 없음

 

2.X데이터 분리

Unsupervised이므로 X데이터만 분리한다.

X = df.iloc[ : , 1: ]

3.Label Encoding

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

X['Genre']  = encoder.fit_transform(X['Genre'])