본문 바로가기

Machine Learning

[Machine Learing]머신러닝의 데이터 전처리과정(1)(Label Encoding,One Hot Encoding)

데이터 전처리(Data Preprocessing)는 머신러닝 및 데이터 분석 작업에서 매우 중요한 단계 중 하나이다. 데이터 전처리는 데이터를 분석이나 모델링에 적합한 형태로 변환하고 준비하는 과정을 말한다. 이는 데이터의 품질을 향상시키고 모델의 성능을 향상시키는 데 도움이 된다.

 

데이터 정제(Cleaning): 이상치나 결측치와 같은 비정상적인 값들을 처리한다. 이는 데이터의 무결성을 보장하고 모델의 안정성을 높이는 데 도움이 된다.

 

그다음

X, Y 데이터 분리 : 즉 학습할 변수와 레이블링 변수로 분리

  • y = df['Purchased'] # 1차원은 변수를 소문자로 쓴다
  • X = df.loc[ : , 'Country':'Salary' ] #2차원은 변수를 대문자로 쓴다

 

 

 

먼저 from sklearn.preprocessing import LabelEncoder, OneHotEncoder 과

from sklearn.compose import ColumnTransformer 함으로써 원핫 인코딩,레이블 인코딩 및 컬럼 변환기 함수를 사용 할 수 있도록 임포트 해준다.

X의 데이터프레임 및 문자열 컬럼의 유니크 개수

 

레이블 인코딩 하는 방법으로 fit_transform 메서드는 주어진 데이터에 대해 변환을 학습하고 적용하는 두 단계를 한 번에 수행해준다.

X['Country'] 의 유니크 개수가 3개이므로 사용하면 안되지만 레이블 인코딩 예시를 보여주기 위한 것이다.

 

X['Country']를 원핫 인코딩 하는 과정이다.

y 또한 유니크 개수를 세어준다

개수가 2개밖에 없으므로 레이블 인코딩을 해주면 된다

 fit_trmsform을 통해 학습및 변환 시켜주고

새로운 변수 y에 저장 시켜준다.