본문 바로가기

분류 전체보기

(131)
[Machine Learning]머신러닝의 로지스틱 회귀(Logistic Regression) #X와 y를 분리한다 y = df['Purchased'] => 물건을 구매할지 안할지의 정보를 y에 저장 X= df.iloc[ :, 2:3+1 ] => 나머지 데이터를 X에 저장한다 # 로지스틱 리그레션은, 피쳐 스케일링을 하자!! 정규화 OR 표준화를 해줌으로써 피쳐 스케일링을 해주도록 한다. 그다음 Test용과 Traing 용을 따로 만들어 주어 변수에 저장해준다 LogisticRegression은 위에 과정대로 입력을 받아서 해당 데이터가 어느 클래스에 속할 확률을 예측해주는 방법이다
[Machine Learing]머신러닝의 데이터 전처리과정(3)선형회(LinearRegression)
[Machine Learing]머신러닝의 데이터 전처리과정(2)(Feature Scaling,Training,Test) 특성 스케일링(Feature Scaling)은 데이터 전처리 과정 중 하나로, 다른 특성들 간의 범위를 조정하여 모델의 성능을 향상시키는 작업이다. 표준화(Standardization): 평균을 빼고 표준 편차로 나누어 특성을 정규분포로 변환한다. 모든 특성의 평균이 0이고 표준 편차가 1이 된다. 주로 평균이 0이고 표준 편차가 1인 표준 정규 분포로 변환한다. 정규화(Normalization): 특성의 값을 0과 1 사이로 조정한다. 최소값을 뺀 다음 최대값과 최소값의 차이로 나누어 값을 조정한다. 모든 특성 값이 0과 1 사이에 있다.
[Machine Learing]머신러닝의 데이터 전처리과정(1)(Label Encoding,One Hot Encoding) 데이터 전처리(Data Preprocessing)는 머신러닝 및 데이터 분석 작업에서 매우 중요한 단계 중 하나이다. 데이터 전처리는 데이터를 분석이나 모델링에 적합한 형태로 변환하고 준비하는 과정을 말한다. 이는 데이터의 품질을 향상시키고 모델의 성능을 향상시키는 데 도움이 된다. 데이터 정제(Cleaning): 이상치나 결측치와 같은 비정상적인 값들을 처리한다. 이는 데이터의 무결성을 보장하고 모델의 안정성을 높이는 데 도움이 된다. 그다음 X, Y 데이터 분리 : 즉 학습할 변수와 레이블링 변수로 분리 y = df['Purchased'] # 1차원은 변수를 소문자로 쓴다 X = df.loc[ : , 'Country':'Salary' ] #2차원은 변수를 대문자로 쓴다 먼저 from sklearn.p..
[Machine Learning]머신러닝의 정의 및 사용되는 것(Supervised , Unsupervised) 머신러닝으로 할 수 있는 것 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 의료 영상 이미지에 기반한, 종양 판단 의심되는 신용카드 거래 감지 블로그 글의 주제 분류 고객들을 취향이 비슷한 그룹으로 묶기 여기에서 Supervised(지도학습)과 Unsupervised(비지도학습)은 머신러닝에서 사용되는 두 가지 주요한 학습 방법이다 Supervised Learning(지도학습): 지도학습은 입력 데이터와 정답(label 또는 target)을 함께 사용하여 모델을 학습시키는 방법이다. 모델은 입력 데이터와 정답(label) 간의 관계를 학습하여 새로운 데이터에 대한 예측을 수행할 수 있다. 주로 분류(Classification)와 회귀(Regression) 문제에 사용된다. 일반적인 알고리즘으로는 선형 회..
[파이썬 라이브러리]Matplotlib의 여러개의 변수 시각화방법(Scatter,Heat Maps) Scatterplots Scatterplots는 데이터 분석에서 두 변수 간의 관계를 시각화하는데 사용됩니다. 각각의 점은 데이터 집합에서 하나의 관측치를 나타내며, x축과 y축에 각각의 변수를 대응시킵니다. 이러한 점들은 그래프 상에서 흩어져 나타나며, 변수 간의 상관 관계를 파악하는데 도움이 됩니다. plt.figure(figsize=(8,10)) # 그래프의 크기를 설정합니다. (가로: 8인치, 세로: 10인치) # Seaborn 라이브러리를 이용하여 countplot을 그립니다. # data는 사용할 데이터프레임을 지정합니다. # y='make'는 y축에 표시할 열을 설정합니다. # order=my_order는 카테고리의 순서를 지정합니다. sb.countplot(data=df, y='make',..
[파이썬 라이브러리]Matplotlib의 plt.hist(히스토그램) 나타내기 Matplotlib의 히스토그램 히스토그램이란? 히스토그램은 데이터의 분포를 시각화하는데 사용되는 그래프입니다. 주어진 데이터를 구간으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 나타냅니다. 이를 통해 데이터의 분포와 밀도를 쉽게 파악할 수 있습니다. 히스토그램 예시 간단한 히스토그램을 그려보겠습니다. 이 예시에서는 주어진 데이터의 분포를 히스토그램으로 나타내겠습니다. import matplotlib.pyplot as plt import numpy as np # 정규 분포를 따르는 랜덤 데이터 생성 data = np.random.randn(1000) # 히스토그램 그리기 plt.hist(data, bins=30, color='skyblue', edgecolor='black') plt.xlabel(..
[파이썬 라이브러리]MatPlotlib의 Pie Charts 나타내기 Matplotlib의 원 그래프는 전체 데이터에서 각 범주의 상대적인 비율을 시각적으로 나타내는 도구입니다. 전체를 원의 형태로 표현하고, 각 범주는 원 그래프의 조각으로 표현됩니다. 각 조각의 크기는 해당 범주의 상대적 비율을 나타냅니다 plt.pie(df2, labels=df2.index, autopct='%.1f', startangle=90, wedgeprops={'width':0.7}): Pandas DataFrame인 df2의 데이터를 이용하여 원 그래프를 그립니다. 각 세대별 데이터가 원 그래프의 비율로 표시됩니다. labels=df2.index는 원 그래프의 각 조각에 레이블을 설정합니다. autopct='%.1f'는 각 조각에 표시되는 퍼센트의 형식을 설정합니다. startangle=90는..