본문 바로가기

Machine Learning

(11)
[Machine Learing]머신러닝의 데이터 전처리과정(2)(Feature Scaling,Training,Test) 특성 스케일링(Feature Scaling)은 데이터 전처리 과정 중 하나로, 다른 특성들 간의 범위를 조정하여 모델의 성능을 향상시키는 작업이다. 표준화(Standardization): 평균을 빼고 표준 편차로 나누어 특성을 정규분포로 변환한다. 모든 특성의 평균이 0이고 표준 편차가 1이 된다. 주로 평균이 0이고 표준 편차가 1인 표준 정규 분포로 변환한다. 정규화(Normalization): 특성의 값을 0과 1 사이로 조정한다. 최소값을 뺀 다음 최대값과 최소값의 차이로 나누어 값을 조정한다. 모든 특성 값이 0과 1 사이에 있다.
[Machine Learing]머신러닝의 데이터 전처리과정(1)(Label Encoding,One Hot Encoding) 데이터 전처리(Data Preprocessing)는 머신러닝 및 데이터 분석 작업에서 매우 중요한 단계 중 하나이다. 데이터 전처리는 데이터를 분석이나 모델링에 적합한 형태로 변환하고 준비하는 과정을 말한다. 이는 데이터의 품질을 향상시키고 모델의 성능을 향상시키는 데 도움이 된다. 데이터 정제(Cleaning): 이상치나 결측치와 같은 비정상적인 값들을 처리한다. 이는 데이터의 무결성을 보장하고 모델의 안정성을 높이는 데 도움이 된다. 그다음 X, Y 데이터 분리 : 즉 학습할 변수와 레이블링 변수로 분리 y = df['Purchased'] # 1차원은 변수를 소문자로 쓴다 X = df.loc[ : , 'Country':'Salary' ] #2차원은 변수를 대문자로 쓴다 먼저 from sklearn.p..
[Machine Learning]머신러닝의 정의 및 사용되는 것(Supervised , Unsupervised) 머신러닝으로 할 수 있는 것 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 의료 영상 이미지에 기반한, 종양 판단 의심되는 신용카드 거래 감지 블로그 글의 주제 분류 고객들을 취향이 비슷한 그룹으로 묶기 여기에서 Supervised(지도학습)과 Unsupervised(비지도학습)은 머신러닝에서 사용되는 두 가지 주요한 학습 방법이다 Supervised Learning(지도학습): 지도학습은 입력 데이터와 정답(label 또는 target)을 함께 사용하여 모델을 학습시키는 방법이다. 모델은 입력 데이터와 정답(label) 간의 관계를 학습하여 새로운 데이터에 대한 예측을 수행할 수 있다. 주로 분류(Classification)와 회귀(Regression) 문제에 사용된다. 일반적인 알고리즘으로는 선형 회..