dataframe

Published by onesixx on 23-07-3023-07-30

Pandas는 데이터 조작 및 분석을 위한 Python의 강력한 라이브러리이며 DataFrame은 기본 데이터 구조 중 하나입니다. df라는 pandas DataFrame이 있으므로 다양한 작업을 수행하여 데이터를 분석하고 조작할 수 있습니다.

다음은 pandas DataFrame(df)으로 수행할 수 있는 몇 가지 일반적인 작업입니다.

데이터 보기:
- df.head(): DataFrame의 처음 몇 행을 반환합니다.
- df.tail(): DataFrame의 마지막 몇 행을 반환합니다.
- df.shape: DataFrame의 행과 열의 수를 반환합니다.
- df.columns: DataFrame의 열 이름을 반환합니다.
- df.info(): 데이터 유형 및 null이 아닌 수를 포함하여 DataFrame의 요약을 제공합니다.
선택 및 인덱싱:
- df['column_name']: 이름으로 특정 열에 액세스합니다.
- df.loc[row_index, 'column_name']: 레이블 기반 인덱싱을 사용하여 특정 요소에 액세스합니다.
- df.iloc[row_index, column_index]: 정수 기반 인덱싱을 사용하여 특정 요소에 액세스합니다.
- df.iloc[row_index]: 정수 인덱스로 특정 행에 액세스합니다.
데이터 필터링:
- df[df['column_name'] > 10]: 특정 열에 대한 조건에 따라 행을 필터링합니다.
- df.query('column_name > 10'): 쿼리 구문을 사용하여 행을 필터링하는 또 다른 방법입니다.
데이터 조작:
- df.drop(columns=['column_name']): DataFrame에서 열을 제거합니다.
- df.rename(columns={'old_name': 'new_name'}): 열 이름 바꾸기.
- df.groupby('column_name').mean(): 열별로 데이터를 그룹화하고 각 그룹의 평균을 계산합니다.
- df.sort_values(by='column_name'): 특정 열을 기준으로 DataFrame을 정렬합니다.
데이터 정리:
- df.isnull(): DataFrame에서 누락된 값을 확인합니다.
- df.dropna(): 누락된 값이 있는 행을 제거합니다.
- df.fillna(value): 누락된 값을 지정된 값으로 채웁니다.
데이터 집계:
- df.groupby('column_name').agg({'other_column': 'sum'}): 열별로 데이터를 그룹화하고 다른 열의 값을 집계합니다.
DataFrame 병합:
- pd.concat([df1, df2], axis=0): DataFrame을 세로로 연결합니다(행을 따라).
- pd.concat([df1, df2], axis=1): DataFrame을 수평으로 연결합니다(열을 따라).

이는 몇 가지 일반적인 작업일 뿐이며 pandas는 데이터 작업을 위한 더 많은 기능과 기능을 제공합니다. 보다 포괄적인 개요를 보려면 공식 pandas 문서를 탐색할 수 있습니다. https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

dataframe

onesixx

data-tips

reindex

인덱스 설정

dataframe

onesixx

Related Posts

data-tips

reindex

인덱스 설정