Pandas의 .loc vs .iloc: 예제를 통한 데이터 인덱싱 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Pandas DataFrame에서 데이터를 효율적으로 선택하기 위한 두 가지 핵심 인덱서인 .loc와 .iloc의 차이점을 다룬다. .loc는 행과 열의 이름을 사용하는 라벨 기반 방식이며, .iloc는 0부터 시작하는 정수 위치를 사용하는 방식이다. 두 메서드는 슬라이싱 범위 포함 여부와 조건부 필터링 지원 방식에서 뚜렷한 차이를 보인다. 실무에서는 가독성을 위해 라벨 기반인 .loc를 권장하며, 위치 기반 처리가 필요한 경우에만 .iloc를 사용하는 것이 좋다.

배경

Python 기초 문법, Pandas 라이브러리 설치 및 기본 DataFrame 개념

대상 독자

Pandas를 처음 접하거나 데이터 선택 메서드의 차이를 명확히 이해하고 싶은 데이터 분석 입문자

의미 / 영향

이 가이드는 데이터 분석의 가장 기초가 되는 데이터 선택 과정을 명확히 하여, 초보 개발자들이 흔히 겪는 인덱싱 오류를 줄여준다. 특히 대규모 데이터셋에서 정확한 행과 열을 추출하는 능력을 배양함으로써 데이터 전처리 단계의 신뢰성을 높인다.

섹션별 상세

데이터 선택 시 라벨과 위치 중 무엇을 기준으로 할지에 따라 메서드가 달라진다. .loc는 실제 인덱스 이름이나 컬럼명을 입력으로 받아 데이터를 추출하며, .iloc는 데이터의 물리적 순서인 정수 인덱스를 사용한다. .loc['2025-01-01']처럼 날짜 라벨로 접근하는 것과 .iloc[0]처럼 첫 번째 행으로 접근하는 방식의 차이다. 이는 데이터 구조에 따라 적절한 인덱싱 전략을 선택하는 기초가 된다.

python

import pandas as pd
import numpy as np

dates = pd.date_range(start="2025-01-01", periods=40)
df = pd.DataFrame({"value": np.arange(40)}, index=dates)

# .loc: 라벨 기반 슬라이싱 (끝점 포함)
print(df.loc["2025-01-01":"2025-01-02"])

# .iloc: 위치 기반 슬라이싱 (끝점 제외)
print(df.iloc[0:2])

.loc와 .iloc의 슬라이싱 범위 포함 여부 차이를 보여주는 예시

.loc와 .iloc의 핵심 차이점을 요약한 다이어그램 — Diagram.loc는 라벨 기반(Label based)이며 행/열 라벨을 사용하고, .iloc는 인덱스 기반(Index based)이며 행/열 인덱스(정수 위치)를 사용함을 시각적으로 대조한다. 두 메서드의 입력값 유형 차이를 한눈에 파악할 수 있게 돕는다.

슬라이싱 연산에서 두 메서드는 서로 다른 종료 지점 처리 규칙을 가진다. .loc[start:stop]은 stop 라벨을 포함하는 반면, .iloc[start:stop]은 표준 파이썬 슬라이싱처럼 stop 위치를 제외한다. 예를 들어 .loc['A':'C']는 C를 포함하지만 .iloc[0:2]는 인덱스 2를 제외한 0, 1만 반환한다. 이러한 차이를 인지하지 못하면 데이터 추출 시 '하나 차이(off-by-one)' 오류가 발생하기 쉽다.

python

# 조건부 필터링과 열 선택 결합
# 나이가 30보다 큰 행의 'Name'부터 'Region'까지 열 추출
result = df.loc[df['Age'] > 30, 'Name':'Region']

.loc를 사용하여 조건부 필터링과 특정 열 범위를 동시에 선택하는 방법

조건부 필터링은 주로 .loc를 통해 직관적으로 수행된다. df.loc[df['Age'] > 30]과 같이 불리언 배열을 전달하여 특정 조건을 만족하는 행을 선택할 수 있다. .iloc에서도 불리언 마스킹이 가능하지만 위치 기반이라는 특성상 라벨 기반인 .loc보다 가독성이 떨어지고 실수 가능성이 높다. 따라서 복잡한 데이터 필터링 작업에는 .loc 사용이 강력히 권장된다.

행과 열을 동시에 선택할 때 두 인덱서 모두 콤마(,)를 사용한 2차원 인덱싱을 지원한다. df.loc[행_라벨, 열_라벨] 또는 df.iloc[행_위치, 열_위치] 형식을 사용하여 특정 셀이나 서브셋을 추출한다. .loc는 'Name':'Age'와 같은 컬럼명 슬라이싱이 가능하여 코드의 의도를 명확히 전달할 수 있다. 반면 .iloc는 컬럼의 순서가 바뀌면 결과가 달라질 위험이 있으므로 주의가 필요하다.

실무 Takeaway

데이터의 의미론적 가독성과 유지보수를 위해 컬럼명이나 인덱스 라벨이 있는 경우 .loc를 우선적으로 사용한다.
슬라이싱 시 .loc는 끝점을 포함하고 .iloc는 제외한다는 점을 명확히 구분하여 데이터 누락이나 초과를 방지한다.
정수형 인덱스를 가진 데이터프레임에서 .loc[0]은 라벨 '0'을 찾고 .iloc[0]은 첫 번째 행을 찾으므로 혼동하지 않도록 주의한다.