[Machine Learing]머신러닝의 데이터 전처리과정(1)(Label Encoding,One Hot Encoding)

데이터 전처리(Data Preprocessing)는 머신러닝 및 데이터 분석 작업에서 매우 중요한 단계 중 하나이다. 데이터 전처리는 데이터를 분석이나 모델링에 적합한 형태로 변환하고 준비하는 과정을 말한다. 이는 데이터의 품질을 향상시키고 모델의 성능을 향상시키는 데 도움이 된다.

데이터 정제(Cleaning): 이상치나 결측치와 같은 비정상적인 값들을 처리한다. 이는 데이터의 무결성을 보장하고 모델의 안정성을 높이는 데 도움이 된다.

그다음

X, Y 데이터 분리 : 즉 학습할 변수와 레이블링 변수로 분리

y = df['Purchased'] # 1차원은 변수를 소문자로 쓴다
X = df.loc[ : , 'Country':'Salary' ] #2차원은 변수를 대문자로 쓴다

먼저 from sklearn.preprocessing import LabelEncoder, OneHotEncoder 과

from sklearn.compose import ColumnTransformer 함으로써 원핫 인코딩,레이블 인코딩 및 컬럼 변환기 함수를 사용 할 수 있도록 임포트 해준다.

레이블 인코딩 하는 방법으로 fit_transform 메서드는 주어진 데이터에 대해 변환을 학습하고 적용하는 두 단계를 한 번에 수행해준다.

X['Country'] 의 유니크 개수가 3개이므로 사용하면 안되지만 레이블 인코딩 예시를 보여주기 위한 것이다.

X['Country']를 원핫 인코딩 하는 과정이다.

y 또한 유니크 개수를 세어준다

개수가 2개밖에 없으므로 레이블 인코딩을 해주면 된다

fit_trmsform을 통해 학습및 변환 시켜주고

새로운 변수 y에 저장 시켜준다.

'Machine Learning' 카테고리의 다른 글

[Machine Learning]머신러닝의Confusion Matrix 및accuracy_score 사용 (0)	2024.04.15
[Machine Learning]머신러닝의 로지스틱 회귀(Logistic Regression) (0)	2024.04.15
[Machine Learing]머신러닝의 데이터 전처리과정(3)선형회(LinearRegression) (0)	2024.04.14
[Machine Learing]머신러닝의 데이터 전처리과정(2)(Feature Scaling,Training,Test) (0)	2024.04.14
[Machine Learning]머신러닝의 정의 및 사용되는 것(Supervised , Unsupervised) (0)	2024.04.12

OnMyWay

[Machine Learing]머신러닝의 데이터 전처리과정(1)(Label Encoding,One Hot Encoding)

그다음

X, Y 데이터 분리 : 즉 학습할 변수와 레이블링 변수로 분리

'Machine Learning' 카테고리의 다른 글

티스토리툴바

[Machine Learing]머신러닝의 데이터 전처리과정(1)(Label Encoding,One Hot Encoding)

그다음

X, Y 데이터 분리 : 즉 학습할 변수와 레이블링 변수로 분리

'Machine Learning' 카테고리의 다른 글

'Machine Learning' Related Articles

티스토리툴바