본문 바로가기

파이썬/판다스(Pandas)

(11)
[파이썬 라이브러리]판다스(Pandas) 정렬과 순서지정( SORTING AND ORDERING) 판다스에서 데이터프레임을 정렬하고 순서를 조작하는 것은 데이터를 다루는 중요한 작업 중 하나입니다. 주로 사용되는 메서드로는 sort_values()와 sort_index()가 있습니다 sort_values(): 이 메서드는 데이터프레임의 특정 열의 값을 기준으로 정렬합니다. 기본적으로 오름차순으로 정렬되며, 내림차순으로 정렬할 수도 있습니다. 이 메서드는 주로 데이터프레임을 특정 열의 값에 따라 정렬할 때 사용됩니다 이 데이터 프레임에서 sort_values()를 먼저 사용 예시를 보여드리겠습니다. df.sort_values(' 'Years of Experience' ') 'Years of Experience'컬럼의 기준으로 오름차순정렬이 되어 데이터 프레임이 나온 것을 볼 수 있습니다. df.sort..
[파이썬 라이브러리]판다스(pandas) 기초문제(isin 함수 활용) isin메서드는 DataFrame객체의 각 요소가 values값과 일치하는지 여부를 bool형식으로 반환한다. isin() 를 사용함으로써 lst(리스트)에 포함되어 잇는 숫자만 뽑아내어 나타 낼 수 있다.
[파이썬 라이브러리]판다스(pandas) 연결 및 병합(CONCATENATING AND MERGING) Pandas 연결 및 병합 Concatenating (연결) Concatenating은 데이터프레임을 연결하는 것을 의미합니다. 이를 위해 concat() 함수를 사용합니다. import pandas as pd # 데이터프레임 생성 df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']}) df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}) # 데이터프레임 연결 result = pd.concat([df1, df2]) print(result) Merging (병합) Merging은 두 개의 데이터프레임을 합치는 것을 의미합니다. 이를 위해 merge() 함수를 사용..
[파이썬 라이브러리]판다스(pandas) OPERATIONS과APPLYING FUNCTIONS 1번째 step df.['Salary [$/h]'] 를 함으로써 시급의 컬럼을 뽑아낸다 그다음 df.['Salary [$/h]'].max()를 함으로써 시급의 컬럼중 가장 큰 값 을 뽑아내면 38이라는 값이 나온다 df['Salary [$/h]'] == df['Salary [$/h]'].max() =>여기에서 ==을 사용함으로써 최댓값과 같은 컬럼만 뽑아내라 0 False 1 False 2 True 3 False Name: Salary [$/h], dtype: bool df.loc[ , ] 을 사용함으로써(왼쪽 행,오른쪽 열) 행렬을 뽑아낸다 df.loc[ df['Salary [$/h]'] == df['Salary [$/h]'].max() , ] 을 사용하면 트루 값인 것만 골라서 행렬에 뽑아내준다 새로..
[파이썬 라이브러리]Pandas 여러 메서드(head,tail,describe,info,unique,groupby) Pandas 메서드 풀이 head() head() 메서드는 데이터프레임의 처음 n개의 행을 반환합니다. 기본값은 5입니다. df.head() # 처음 5개 행 반환 df.head(10) # 처음 10개 행 반환 tail() tail() 메서드는 데이터프레임의 마지막 n개의 행을 반환합니다. 기본값은 5입니다. df.tail() # 마지막 5개 행 반환 df.tail(10) # 마지막 10개 행 반환 describe() describe() 메서드는 숫자형 열에 대한 기술 통계 정보를 제공합니다. 평균, 표준편차, 최소값, 최대값 등을 포함합니다. df.describe() info() info() 메서드는 데이터프레임에 대한 요약 정보를 제공합니다. 열의 데이터 타입, 비어있지 않은 값의 개수 등을 포함합니..
[파이썬 라이브러리]판다스(Pandas) 결측값(NaN) 처리방법 Dealing with NaN (결측값) in Pandas NaN(결측값) 처리 방법 데이터프레임에서 NaN(결측값)은 데이터가 누락되었음을 나타냅니다. 이러한 결측값을 처리하는 방법은 여러 가지가 있습니다. 결측값 채우기(fillna) 결측값 제거(dropna) 결측값 대체(replace) 결측값 채우기 (fillna) fillna 메서드를 사용하여 결측값을 특정 값으로 채울 수 있습니다. 예를 들어, 평균값이나 중앙값으로 채워 넣을 수 있습니다. # NaN을 평균값으로 채우기 df.fillna(df.mean(), inplace=True) print(df) 결측값 제거 (dropna) dropna 메서드를 사용하여 결측값이 있는 행이나 열을 제거할 수 있습니다. # 결측값이 있는 행 제거 df.drop..
[파이썬 라이브러리]Pandas 데이터프레임(DataFrame) 데이터 변경 및 삭제 Pandas 데이터프레임 데이터 변경 및 삭제 데이터프레임에서 데이터를 변경하거나 삭제하는 작업은 데이터의 유연한 조작을 가능하게 합니다. 아래에서는 데이터프레임의 데이터를 변경하고 삭제하는 방법을 자세히 알아보겠습니다. 데이터 변경 데이터프레임의 값을 변경하는 것은 간단합니다. 행과 열을 선택하고 새로운 값을 할당하면 됩니다. import pandas as pd # 데이터프레임 생성 data = {'Name': ['John', 'Anna', 'Peter'], 'Age': [25, 35, 30], 'City': ['New York', 'Paris', 'London']} df = pd.DataFrame(data) # 'Name' 열의 값을 'Mike'로 변경 df.loc[0, 'Name'] = 'Mike'..
[파이썬 라이브러리]Pandas 데이터프레임 데이터 접근하기 Pandas 데이터프레임 데이터 접근하기 데이터프레임에서 데이터에 접근하는 방법은 열 이름, 행 인덱스, 라벨, 위치 등 다양한 방법으로 가능합니다. 아래에서 각 방법을 자세히 알아보겠습니다. 중요! "데이터 프레임"에서 원하는 데이터를 억세스 하는 방법 데이터 억세스 방법은 총 3가지! 1)컬럼의 데이터를 가져오는 방법 : 변수명 바로 오른쪽에 대괄호 사용 2).loc[ , ] : 사람용인 인덱스와 컬럼으로 데이터를 억세스 하는 방법 3).iloc[ , ] :컴퓨터가 매기는 인덱스(오픈셋 offset)로 데이터를 억세스 하는 방법 열 이름을 사용한 접근 컬럼의 데이터를 가져오는 방법 : 변수명 바로 오른쪽에 대괄호 사용합니다. 가장 일반적인 방법은 열 이름을 사용하여 데이터프레임의 열에 접근하는 것입니..