데이터 전처리(Data Preprocessing)는 머신러닝 및 데이터 분석 작업에서 매우 중요한 단계 중 하나이다. 데이터 전처리는 데이터를 분석이나 모델링에 적합한 형태로 변환하고 준비하는 과정을 말한다. 이는 데이터의 품질을 향상시키고 모델의 성능을 향상시키는 데 도움이 된다.
데이터 정제(Cleaning): 이상치나 결측치와 같은 비정상적인 값들을 처리한다. 이는 데이터의 무결성을 보장하고 모델의 안정성을 높이는 데 도움이 된다.
그다음
X, Y 데이터 분리 : 즉 학습할 변수와 레이블링 변수로 분리
- y = df['Purchased'] # 1차원은 변수를 소문자로 쓴다
- X = df.loc[ : , 'Country':'Salary' ] #2차원은 변수를 대문자로 쓴다
먼저 from sklearn.preprocessing import LabelEncoder, OneHotEncoder 과
from sklearn.compose import ColumnTransformer 함으로써 원핫 인코딩,레이블 인코딩 및 컬럼 변환기 함수를 사용 할 수 있도록 임포트 해준다.
레이블 인코딩 하는 방법으로 fit_transform 메서드는 주어진 데이터에 대해 변환을 학습하고 적용하는 두 단계를 한 번에 수행해준다.
X['Country'] 의 유니크 개수가 3개이므로 사용하면 안되지만 레이블 인코딩 예시를 보여주기 위한 것이다.
X['Country']를 원핫 인코딩 하는 과정이다.
y 또한 유니크 개수를 세어준다
개수가 2개밖에 없으므로 레이블 인코딩을 해주면 된다
fit_trmsform을 통해 학습및 변환 시켜주고
새로운 변수 y에 저장 시켜준다.
'Machine Learning' 카테고리의 다른 글
[Machine Learning]머신러닝의Confusion Matrix 및accuracy_score 사용 (0) | 2024.04.15 |
---|---|
[Machine Learning]머신러닝의 로지스틱 회귀(Logistic Regression) (0) | 2024.04.15 |
[Machine Learing]머신러닝의 데이터 전처리과정(3)선형회(LinearRegression) (0) | 2024.04.14 |
[Machine Learing]머신러닝의 데이터 전처리과정(2)(Feature Scaling,Training,Test) (0) | 2024.04.14 |
[Machine Learning]머신러닝의 정의 및 사용되는 것(Supervised , Unsupervised) (0) | 2024.04.12 |