Kubernetes v1.35 Timbernetes 분석: AI 스케줄링과 무중단 리소스 확장

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Kubernetes v1.35 'Timbernetes'는 6년의 개발 끝에 Pod 재시작 없이 리소스를 조정하는 In-Place Pod Resource Resize 기능을 정식 버전으로 출시했다. 이번 릴리즈는 AI/ML 분산 학습 시 발생하는 자원 데드락을 방지하기 위해 Gang Scheduling을 Alpha 단계로 도입하며 AI 인프라로서의 기능을 강화했다. 또한 OCI Image Volume의 GA 전환과 네트워크 최적화를 위한 PreferSameNode 설정 추가를 통해 대규모 데이터 처리와 비용 절감의 기반을 마련했다. 전반적으로 기술 부채를 정리하고 AI와 클라우드 네이티브 생태계의 성숙도를 높이는 데 집중한 업데이트이다.

배경

Kubernetes 기본 아키텍처 및 Pod 생명주기에 대한 이해, YAML 기반의 리소스 매니페스트 작성 능력, cgroup v1/v2 및 컨테이너 런타임(containerd)에 대한 기초 지식

대상 독자

Kubernetes 클러스터 운영자, AI/ML 인프라 엔지니어, 클라우드 네이티브 개발자

의미 / 영향

이번 업데이트는 Kubernetes가 단순한 컨테이너 오케스트레이터를 넘어 AI/ML 워크로드를 위한 성숙한 플랫폼으로 진화했음을 보여줍니다. 특히 6년 만에 안정화된 리소스 동적 할당 기능은 엔터프라이즈 급 서비스의 무중단 운영 수준을 한 단계 높일 것으로 기대됩니다.

섹션별 상세

기존에는 Pod의 CPU나 메모리 사양을 변경하려면 반드시 Pod를 재시작해야 하는 서비스 중단 문제가 있었다. In-Place Pod Resource Resize 기능은 Update 호출 한 번으로 실행 중인 컨테이너의 cgroup 설정을 즉시 변경하여 가용성을 유지한다. v1.35에서 GA로 전환된 이 기능은 데이터베이스나 AI 학습 워크로드처럼 구동 시간이 긴 애플리케이션 운영에 혁신적인 유연성을 제공한다. 특히 resizePolicy 설정을 통해 리소스별 재시작 여부를 정교하게 제어할 수 있어 운영 효율이 극대화된다.

yaml

apiVersion: v1
kind: Pod
metadata:
  name: dynamic-app
spec:
  containers:
  - name: heavy-worker
    image: my-app:latest
    resources:
      limits:
        cpu: "1"
        memory: "1Gi"
      requests:
        cpu: "0.5"
        memory: "512Mi"
    # 리소스 변경 시 재시작하지 않도록 설정
    resizePolicy:
    - resourceName: cpu
      restartPolicy: NotRequired
    - resourceName: memory
      restartPolicy: NotRequired

Pod 재시작 없이 CPU와 메모리 리소스를 동적으로 변경하기 위한 resizePolicy 설정 예시

bash

kubectl patch pod my-app --type='json' \
  -p='[{ "op": "replace", "path": "/spec/containers/0/resources/requests/cpu", "value": "500m" },
  { "op": "replace", "path": "/spec/containers/0/resources/limits/cpu", "value": "1000m" }]'

실행 중인 Pod의 CPU 할당량을 kubectl patch 명령어로 실시간 수정하는 방법

AI 모델 학습을 위한 분산 환경에서 일부 Pod만 자원을 점유하고 나머지는 대기하며 발생하는 자원 교착 상태가 빈번했다. v1.35는 네이티브 Gang Scheduling 기능을 Alpha 단계로 도입하여 연관된 Pod 그룹이 모두 준비되었을 때만 실행하는 All-or-Nothing 로직을 지원한다. 이를 통해 고가의 GPU 자원이 낭비되는 것을 방지하고 대규모 클러스터의 스케줄링 효율을 높인다. AI/ML 워크로드 수용을 위한 쿠버네티스 코어 레벨의 중요한 진전이다.

클라우드 환경에서 노드 간 트래픽 발생은 지연 시간 증가와 추가 비용 발생의 주요 원인이었다. Service의 trafficDistribution 필드에 PreferSameNode 설정이 정식 추가되어 동일 노드 내의 Pod로 요청을 우선 전달하도록 강제할 수 있다. 마이크로서비스 간 통신이 잦은 환경에서 네트워크 Latency를 획기적으로 줄이고 Egress 비용을 절감하는 효과를 거둔다. 성능 최적화와 비용 효율성을 동시에 달성할 수 있는 실무적인 기능이다.

대규모 AI 모델 가중치나 데이터를 전달하기 위해 컨테이너 이미지에 포함시키거나 별도의 다운로드 과정을 거치는 복잡함이 존재했다. OCI Image Volume 기능이 GA로 전환되면서 레지스트리의 이미지를 Pod 내부에 읽기 전용 볼륨으로 직접 마운트할 수 있게 되었다. 컨테이너 로직과 데이터를 완전히 분리하여 관리할 수 있으며, Gang Scheduling과 결합 시 수십 개의 GPU Pod가 데이터를 즉시 공유하며 기동되는 시너지를 낸다. 데이터 관리의 편의성과 배포 속도를 동시에 개선한 결과이다.

yaml

spec:
  containers:
  - name: ai-inference-app
    image: my-app:v1.0
    volumeMounts:
    - name: model-weights
      mountPath: /models
  volumes:
  - name: model-weights
    image:
      reference: my-registry/llm-model:v2.0 # OCI 이미지를 볼륨으로 사용

OCI 레지스트리의 모델 가중치 이미지를 Pod 볼륨으로 직접 마운트하는 설정

기존의 API 서버 인증 설정은 명령줄 인자를 수정하고 서버를 재시작해야 하는 운영상의 번거로움과 위험이 있었다. Structured Authentication Config의 GA 전환으로 설정 파일 수정만으로 API 서버 재시작 없이 실시간 인증 정책 반영이 가능해졌다. CEL(Common Expression Language)을 활용해 사용자 클레임을 검증하거나 그룹을 동적으로 매핑하는 정교한 보안 제어가 지원된다. 이는 제로 트러스트 환경 구축을 위한 유연하고 안전한 권한 관리 체계를 제공한다.

이미지 분석

Infographic
세계수(Yggdrasil)를 형상화한 로고로, 안정기에 접어든 쿠버네티스 생태계의 견고함을 상징합니다. 로고 속 다람쥐 캐릭터들은 각각 Triager, Reviewer, Release Crew를 의미하며 오픈소스 기여자들의 역할을 묘사합니다.
Kubernetes v1.35 Timbernetes 공식 릴리즈 로고

실무 Takeaway

서비스 중단에 민감한 스테이트풀 애플리케이션이나 AI 워크로드에 In-Place Resize를 적용하여 재시작 없이 리소스를 최적화할 수 있다.
GPU 자원 낭비가 심한 대규모 분산 학습 환경에서 Gang Scheduling을 활용해 자원 데드락 문제를 해결하고 인프라 가동률을 높일 수 있다.
네트워크 비용이 높은 클라우드 환경에서는 PreferSameNode 설정을 활성화하여 노드 간 트래픽을 최소화하고 응답 속도를 개선해야 한다.

언급된 리소스

문서Kubernetes v1.35 Release Blog