dataframe
Pandas는 데이터 조작 및 분석을 위한 Python의 강력한 라이브러리이며 DataFrame은 기본 데이터 구조 중 하나입니다. df
라는 pandas DataFrame이 있으므로 다양한 작업을 수행하여 데이터를 분석하고 조작할 수 있습니다.
다음은 pandas DataFrame(df
)으로 수행할 수 있는 몇 가지 일반적인 작업입니다.
- 데이터 보기:
df.head()
: DataFrame의 처음 몇 행을 반환합니다.df.tail()
: DataFrame의 마지막 몇 행을 반환합니다.df.shape
: DataFrame의 행과 열의 수를 반환합니다.df.columns
: DataFrame의 열 이름을 반환합니다.df.info()
: 데이터 유형 및 null이 아닌 수를 포함하여 DataFrame의 요약을 제공합니다.
- 선택 및 인덱싱:
df['column_name']
: 이름으로 특정 열에 액세스합니다.df.loc[row_index, 'column_name']
: 레이블 기반 인덱싱을 사용하여 특정 요소에 액세스합니다.df.iloc[row_index, column_index]
: 정수 기반 인덱싱을 사용하여 특정 요소에 액세스합니다.df.iloc[row_index]
: 정수 인덱스로 특정 행에 액세스합니다.
- 데이터 필터링:
df[df['column_name'] > 10]
: 특정 열에 대한 조건에 따라 행을 필터링합니다.df.query('column_name > 10')
: 쿼리 구문을 사용하여 행을 필터링하는 또 다른 방법입니다.
- 데이터 조작:
df.drop(columns=['column_name'])
: DataFrame에서 열을 제거합니다.df.rename(columns={'old_name': 'new_name'})
: 열 이름 바꾸기.df.groupby('column_name').mean()
: 열별로 데이터를 그룹화하고 각 그룹의 평균을 계산합니다.df.sort_values(by='column_name')
: 특정 열을 기준으로 DataFrame을 정렬합니다.
- 데이터 정리:
df.isnull()
: DataFrame에서 누락된 값을 확인합니다.df.dropna()
: 누락된 값이 있는 행을 제거합니다.df.fillna(value)
: 누락된 값을 지정된 값으로 채웁니다.
- 데이터 집계:
df.groupby('column_name').agg({'other_column': 'sum'})
: 열별로 데이터를 그룹화하고 다른 열의 값을 집계합니다.
- DataFrame 병합:
pd.concat([df1, df2], axis=0)
: DataFrame을 세로로 연결합니다(행을 따라).pd.concat([df1, df2], axis=1)
: DataFrame을 수평으로 연결합니다(열을 따라).
이는 몇 가지 일반적인 작업일 뿐이며 pandas는 데이터 작업을 위한 더 많은 기능과 기능을 제공합니다. 보다 포괄적인 개요를 보려면 공식 pandas 문서를 탐색할 수 있습니다. https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html