데이터 분석을 위한 Python의 Pandas 라이브러리 탐색

판다스는 데이터 조작 및 분석에 사용되는 강력한 파이썬 라이브러리입니다. 구조화된 데이터를 원활하게 처리하는 데 필요한 데이터 구조와 함수를 제공합니다. 사용하기 쉬운 데이터 구조를 갖춘 판다스는 특히 데이터 정리, 변환 및 분석에 유용합니다. 이 문서에서는 판다스의 핵심 기능과 이를 사용하여 데이터를 효율적으로 처리하는 방법을 살펴봅니다.

판다스 시작하기

Pandas를 사용하려면 pip를 사용하여 설치해야 합니다. 다음 명령을 실행하여 이를 수행할 수 있습니다.

pip install pandas

핵심 데이터 구조

Pandas는 Series와 DataFrame이라는 두 가지 기본 데이터 구조를 제공합니다.

시리즈

Series는 정수, 문자열, 부동 소수점 숫자를 포함한 다양한 데이터 유형을 보관할 수 있는 1차원 배열과 같은 객체입니다. Series의 각 요소에는 연관된 인덱스가 있습니다.

import pandas as pd

# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)

데이터 프레임

DataFrame은 레이블이 지정된 축(행과 열)이 있는 2차원, 크기 변경 가능, 이기종 표 형식 데이터 구조입니다. 본질적으로 Series의 컬렉션입니다.

# Creating a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

데이터 조작

Pandas는 인덱싱, 슬라이싱, 필터링을 포함하여 데이터 조작을 위한 다양한 기능을 제공합니다.

인덱싱 및 슬라이싱

# Selecting a single column
print(df['Name'])

# Selecting multiple columns
print(df[['Name', 'City']])

# Selecting rows by index
print(df.loc[0])  # First row
print(df.iloc[1]) # Second row

데이터 필터링

# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)

데이터 정리

데이터 정리는 데이터 분석에서 중요한 단계입니다. Pandas는 누락된 데이터, 중복된 레코드, 데이터 변환을 처리하는 여러 가지 방법을 제공합니다.

누락된 데이터 처리

# Creating a DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35]
}
df = pd.DataFrame(data)

# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)

중복 제거

# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)

결론

Pandas는 Python에서 데이터 분석을 위한 필수 도구입니다. 강력한 데이터 구조와 함수로 데이터를 쉽게 처리, 조작 및 분석할 수 있습니다. Pandas를 마스터하면 데이터 분석 역량을 크게 향상시키고 워크플로를 간소화할 수 있습니다.