데이터 분석을 위한 Python의 Pandas 라이브러리 탐색
판다스는 데이터 조작 및 분석에 사용되는 강력한 파이썬 라이브러리입니다. 구조화된 데이터를 원활하게 처리하는 데 필요한 데이터 구조와 함수를 제공합니다. 사용하기 쉬운 데이터 구조를 갖춘 판다스는 특히 데이터 정리, 변환 및 분석에 유용합니다. 이 문서에서는 판다스의 핵심 기능과 이를 사용하여 데이터를 효율적으로 처리하는 방법을 살펴봅니다.
판다스 시작하기
Pandas를 사용하려면 pip를 사용하여 설치해야 합니다. 다음 명령을 실행하여 이를 수행할 수 있습니다.
pip install pandas
핵심 데이터 구조
Pandas는 Series와 DataFrame이라는 두 가지 기본 데이터 구조를 제공합니다.
시리즈
Series는 정수, 문자열, 부동 소수점 숫자를 포함한 다양한 데이터 유형을 보관할 수 있는 1차원 배열과 같은 객체입니다. Series의 각 요소에는 연관된 인덱스가 있습니다.
import pandas as pd
# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)
데이터 프레임
DataFrame은 레이블이 지정된 축(행과 열)이 있는 2차원, 크기 변경 가능, 이기종 표 형식 데이터 구조입니다. 본질적으로 Series의 컬렉션입니다.
# Creating a DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
데이터 조작
Pandas는 인덱싱, 슬라이싱, 필터링을 포함하여 데이터 조작을 위한 다양한 기능을 제공합니다.
인덱싱 및 슬라이싱
# Selecting a single column
print(df['Name'])
# Selecting multiple columns
print(df[['Name', 'City']])
# Selecting rows by index
print(df.loc[0]) # First row
print(df.iloc[1]) # Second row
데이터 필터링
# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)
데이터 정리
데이터 정리는 데이터 분석에서 중요한 단계입니다. Pandas는 누락된 데이터, 중복된 레코드, 데이터 변환을 처리하는 여러 가지 방법을 제공합니다.
누락된 데이터 처리
# Creating a DataFrame with missing values
data = {
'Name': ['Alice', 'Bob', None],
'Age': [25, None, 35]
}
df = pd.DataFrame(data)
# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)
중복 제거
# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)
결론
Pandas는 Python에서 데이터 분석을 위한 필수 도구입니다. 강력한 데이터 구조와 함수로 데이터를 쉽게 처리, 조작 및 분석할 수 있습니다. Pandas를 마스터하면 데이터 분석 역량을 크게 향상시키고 워크플로를 간소화할 수 있습니다.