본문 바로가기

파이썬

(24)
[파이썬 라이브러리]판다스(pandas) 연결 및 병합(CONCATENATING AND MERGING) Pandas 연결 및 병합 Concatenating (연결) Concatenating은 데이터프레임을 연결하는 것을 의미합니다. 이를 위해 concat() 함수를 사용합니다. import pandas as pd # 데이터프레임 생성 df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']}) df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}) # 데이터프레임 연결 result = pd.concat([df1, df2]) print(result) Merging (병합) Merging은 두 개의 데이터프레임을 합치는 것을 의미합니다. 이를 위해 merge() 함수를 사용..
[파이썬 라이브러리]판다스(pandas) OPERATIONS과APPLYING FUNCTIONS 1번째 step df.['Salary [$/h]'] 를 함으로써 시급의 컬럼을 뽑아낸다 그다음 df.['Salary [$/h]'].max()를 함으로써 시급의 컬럼중 가장 큰 값 을 뽑아내면 38이라는 값이 나온다 df['Salary [$/h]'] == df['Salary [$/h]'].max() =>여기에서 ==을 사용함으로써 최댓값과 같은 컬럼만 뽑아내라 0 False 1 False 2 True 3 False Name: Salary [$/h], dtype: bool df.loc[ , ] 을 사용함으로써(왼쪽 행,오른쪽 열) 행렬을 뽑아낸다 df.loc[ df['Salary [$/h]'] == df['Salary [$/h]'].max() , ] 을 사용하면 트루 값인 것만 골라서 행렬에 뽑아내준다 새로..
[파이썬 라이브러리]Pandas 여러 메서드(head,tail,describe,info,unique,groupby) Pandas 메서드 풀이 head() head() 메서드는 데이터프레임의 처음 n개의 행을 반환합니다. 기본값은 5입니다. df.head() # 처음 5개 행 반환 df.head(10) # 처음 10개 행 반환 tail() tail() 메서드는 데이터프레임의 마지막 n개의 행을 반환합니다. 기본값은 5입니다. df.tail() # 마지막 5개 행 반환 df.tail(10) # 마지막 10개 행 반환 describe() describe() 메서드는 숫자형 열에 대한 기술 통계 정보를 제공합니다. 평균, 표준편차, 최소값, 최대값 등을 포함합니다. df.describe() info() info() 메서드는 데이터프레임에 대한 요약 정보를 제공합니다. 열의 데이터 타입, 비어있지 않은 값의 개수 등을 포함합니..
[파이썬 라이브러리]판다스(Pandas) 결측값(NaN) 처리방법 Dealing with NaN (결측값) in Pandas NaN(결측값) 처리 방법 데이터프레임에서 NaN(결측값)은 데이터가 누락되었음을 나타냅니다. 이러한 결측값을 처리하는 방법은 여러 가지가 있습니다. 결측값 채우기(fillna) 결측값 제거(dropna) 결측값 대체(replace) 결측값 채우기 (fillna) fillna 메서드를 사용하여 결측값을 특정 값으로 채울 수 있습니다. 예를 들어, 평균값이나 중앙값으로 채워 넣을 수 있습니다. # NaN을 평균값으로 채우기 df.fillna(df.mean(), inplace=True) print(df) 결측값 제거 (dropna) dropna 메서드를 사용하여 결측값이 있는 행이나 열을 제거할 수 있습니다. # 결측값이 있는 행 제거 df.drop..
[파이썬 라이브러리]Pandas 데이터프레임(DataFrame) 데이터 변경 및 삭제 Pandas 데이터프레임 데이터 변경 및 삭제 데이터프레임에서 데이터를 변경하거나 삭제하는 작업은 데이터의 유연한 조작을 가능하게 합니다. 아래에서는 데이터프레임의 데이터를 변경하고 삭제하는 방법을 자세히 알아보겠습니다. 데이터 변경 데이터프레임의 값을 변경하는 것은 간단합니다. 행과 열을 선택하고 새로운 값을 할당하면 됩니다. import pandas as pd # 데이터프레임 생성 data = {'Name': ['John', 'Anna', 'Peter'], 'Age': [25, 35, 30], 'City': ['New York', 'Paris', 'London']} df = pd.DataFrame(data) # 'Name' 열의 값을 'Mike'로 변경 df.loc[0, 'Name'] = 'Mike'..
[파이썬 라이브러리]Pandas 데이터프레임 데이터 접근하기 Pandas 데이터프레임 데이터 접근하기 데이터프레임에서 데이터에 접근하는 방법은 열 이름, 행 인덱스, 라벨, 위치 등 다양한 방법으로 가능합니다. 아래에서 각 방법을 자세히 알아보겠습니다. 중요! "데이터 프레임"에서 원하는 데이터를 억세스 하는 방법 데이터 억세스 방법은 총 3가지! 1)컬럼의 데이터를 가져오는 방법 : 변수명 바로 오른쪽에 대괄호 사용 2).loc[ , ] : 사람용인 인덱스와 컬럼으로 데이터를 억세스 하는 방법 3).iloc[ , ] :컴퓨터가 매기는 인덱스(오픈셋 offset)로 데이터를 억세스 하는 방법 열 이름을 사용한 접근 컬럼의 데이터를 가져오는 방법 : 변수명 바로 오른쪽에 대괄호 사용합니다. 가장 일반적인 방법은 열 이름을 사용하여 데이터프레임의 열에 접근하는 것입니..
[파이썬 라이브러리]Pandas DataFrame 생성하기 및 예시 Pandas DataFrame 생성하기 DataFrame이란? DataFrame은 Pandas의 가장 핵심적인 데이터 구조 중 하나입니다. 2차원 테이블 형태의 데이터를 담고 있으며, 행과 열의 인덱스를 가지고 있습니다. 변수[] => 데이터 억세스 변수 = [ a, b , c, d ] => 리스트 #판다스의 2차원 데이터 처리는, # 데이터 프레임으로 한다. (DataFrame) #실제 데이터 분석에서는 csv 파일을 판다스의 데이터 프레임으로 읽어와서 작업한다 # 왼쪽의 진한 글씨 : 인덱스(index) => 사람용!!!!!!!!!! # 위쪽의 진한 글씨 : 컬럼 (column) # 안쪽에 위치한 데이터 : values DataFrame 생성 예시 DataFrame을 생성하는 방법은 여러 가지가 있습..
[파이썬 라이브러리]Pandas Series 데이터 생성하기 Series란? Series는 Pandas의 데이터 구조 중 하나로, 1차원 배열 형태의 데이터를 담고 있습니다. 각 데이터는 인덱스와 함께 저장됩니다. Pandas Numpy 의 데이터 스트록쳐 Pandas 안에는 Numpy를 포함하고 있음 Numpy를 확장해서 만든 라이브러리 판다스의 1차원 데이터를 => 시리즈(Serise) 라고 부른다 판다스의 인덱스: 왼쪽 행부분에 붙어있는 글자 실제 데이터는 Values(값) Series를 생성하는 방법은 다양합니다. 아래는 몇 가지 예시입니다: # 리스트를 이용하여 Series 생성 import pandas as pd data = [10, 20, 30, 40, 50] s = pd.Series(data) print(s) # 딕셔너리를 이용하여 Series 생성..