dataframe

Published onesixx on

Pandas는 데이터 조작 및 분석을 위한 Python의 강력한 라이브러리이며 DataFrame은 기본 데이터 구조 중 하나입니다. df라는 pandas DataFrame이 있으므로 다양한 작업을 수행하여 데이터를 분석하고 조작할 수 있습니다.

다음은 pandas DataFrame(df)으로 수행할 수 있는 몇 가지 일반적인 작업입니다.

  1. 데이터 보기:
    • df.head(): DataFrame의 처음 몇 행을 반환합니다.
    • df.tail(): DataFrame의 마지막 몇 행을 반환합니다.
    • df.shape: DataFrame의 행과 열의 수를 반환합니다.
    • df.columns: DataFrame의 열 이름을 반환합니다.
    • df.info(): 데이터 유형 및 null이 아닌 수를 포함하여 DataFrame의 요약을 제공합니다.
  2. 선택 및 인덱싱:
    • df['column_name']: 이름으로 특정 열에 액세스합니다.
    • df.loc[row_index, 'column_name']: 레이블 기반 인덱싱을 사용하여 특정 요소에 액세스합니다.
    • df.iloc[row_index, column_index]: 정수 기반 인덱싱을 사용하여 특정 요소에 액세스합니다.
    • df.iloc[row_index]: 정수 인덱스로 특정 행에 액세스합니다.
  3. 데이터 필터링:
    • df[df['column_name'] > 10]: 특정 열에 대한 조건에 따라 행을 필터링합니다.
    • df.query('column_name > 10'): 쿼리 구문을 사용하여 행을 필터링하는 또 다른 방법입니다.
  4. 데이터 조작:
    • df.drop(columns=['column_name']): DataFrame에서 열을 제거합니다.
    • df.rename(columns={'old_name': 'new_name'}): 열 이름 바꾸기.
    • df.groupby('column_name').mean(): 열별로 데이터를 그룹화하고 각 그룹의 평균을 계산합니다.
    • df.sort_values(by='column_name'): 특정 열을 기준으로 DataFrame을 정렬합니다.
  5. 데이터 정리:
    • df.isnull(): DataFrame에서 누락된 값을 확인합니다.
    • df.dropna(): 누락된 값이 있는 행을 제거합니다.
    • df.fillna(value): 누락된 값을 지정된 값으로 채웁니다.
  6. 데이터 집계:
    • df.groupby('column_name').agg({'other_column': 'sum'}): 열별로 데이터를 그룹화하고 다른 열의 값을 집계합니다.
  7. DataFrame 병합:
    • pd.concat([df1, df2], axis=0): DataFrame을 세로로 연결합니다(행을 따라).
    • pd.concat([df1, df2], axis=1): DataFrame을 수평으로 연결합니다(열을 따라).

이는 몇 가지 일반적인 작업일 뿐이며 pandas는 데이터 작업을 위한 더 많은 기능과 기능을 제공합니다. 보다 포괄적인 개요를 보려면 공식 pandas 문서를 탐색할 수 있습니다. https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

Categories: pandas

onesixx

Blog Owner

Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x