핵심 요약
Ray는 파이썬 네이티브 환경에서 복잡한 분산 시스템 지식 없이도 데이터 전처리, 학습, 추론을 효율적으로 확장할 수 있게 해주는 오픈소스 엔진이다.
배경
AI 모델이 거대해지면서 단일 GPU로는 처리가 불가능해졌고, 개발자들은 분산 시스템 구축이라는 높은 장벽에 부딪혔다.
대상 독자
인프라 복잡성 없이 모델을 확장하고자 하는 AI 엔지니어 및 데이터 과학자
의미 / 영향
Ray는 AI 개발자가 인프라 엔지니어링의 늪에 빠지지 않고 모델 성능 개선에 집중할 수 있게 해준다. 특히 LLM 추론과 에이전트 워크플로우가 복잡해지는 상황에서 Ray는 표준적인 분산 실행 계층으로 자리 잡고 있다. 이는 중소 규모 팀도 대규모 인프라 전문가 없이 고성능 AI 서비스를 구축하고 운영할 수 있음을 의미한다.
챕터별 상세
00:00
Ray의 정의와 탄생 배경
Ray는 개발자가 분산 컴퓨팅 전문가가 아니어도 컴퓨팅 자원을 확장할 수 있도록 돕는 오픈소스 파이썬 네이티브 프레임워크이다. 버클리 대학의 RiseLab에서 강화학습(Reinforcement Learning) 연구 중 인프라 구축에 너무 많은 시간이 소요되는 문제를 해결하기 위해 탄생했다. Spark를 만든 동일한 연구소에서 개발되었으며, 연구자들이 인프라가 아닌 머신러닝 로직에 집중할 수 있는 환경을 제공한다.
- •파이썬 네이티브 분산 컴퓨팅 프레임워크
- •강화학습 연구 중 인프라 복잡성 해결을 위해 개발
- •개발자가 분산 시스템 전문가가 될 필요 없이 확장 가능
강화학습(RL)은 시뮬레이션과 학습이 동시에 대규모로 일어나야 하므로 일반적인 딥러닝보다 훨씬 복잡한 분산 처리가 필요하다.
02:12
Ray의 핵심 구조: Ray Core와 라이브러리
Ray는 기본 엔진인 Ray Core와 그 위에 구축된 다양한 라이브러리들로 구성된다. Ray Data(전처리), Ray Train(학습), Ray Serve(서빙), RLlib(강화학습) 등이 포함된다. Ray Core는 파이썬 함수를 여러 머신으로 분산시키는 핵심 기능을 담당하며, 각 라이브러리는 특정 AI 워크로드에 최적화된 기능을 제공한다.
- •Ray Core는 파이썬 함수를 다중 머신으로 분산하는 핵심 엔진
- •데이터 전처리부터 서빙까지 파이프라인별 전용 라이브러리 존재
- •오픈소스 기반으로 다양한 통합 환경 지원
05:13
LLM 추론의 표준, vLLM과 Ray의 결합
현재 가장 널리 사용되는 추론 프레임워크인 vLLM은 Ray를 기반으로 구축되었다. vLLM은 단일 머신 내의 최적화를 담당하고, Ray는 이를 여러 머신과 노드로 확장하는 역할을 수행한다. 특히 LLM 배치 추론 시 Ray Data를 사용하면 GPU 자원을 낭비하지 않고 효율적으로 컴퓨팅을 분산할 수 있다.
- •vLLM은 Ray를 통해 다중 노드 확장성을 확보
- •Ray Data를 활용한 효율적인 LLM 배치 추론 지원
- •GPU와 CPU 자원의 혼합 사용 및 최적화 가능
07:41
AI 에이전트와 복잡한 워크플로우 관리
AI 에이전트 시스템은 여러 도구와 모델이 상호작용하므로 자원 관리가 매우 복잡하다. Ray Serve를 사용하면 각 도구와 모델의 처리량(Throughput)에 따라 개별적으로 스케일링을 조절할 수 있다. 개발자는 복잡한 장애 복구(Failover)나 오토스케일링 로직을 직접 작성하지 않고 코드 레벨에서 이를 관리할 수 있다.
- •에이전트 워크플로우의 복잡한 자원 할당 문제 해결
- •도구별 독립적인 스케일링 및 장애 복구 지원
- •MCP(Model Context Protocol) 서버 구축 시 유용
09:27
Ray vs Spark: 비정형 데이터 처리의 차이
Spark는 SQL 기반의 정형 데이터 처리에 강점이 있는 반면, Ray는 PDF, 이미지 등 비정형 데이터와 멀티모달 워크로드에 최적화되어 있다. 현대 AI 워크로드의 80% 이상이 비정형 데이터이므로 Ray의 중요성이 커지고 있다. Ray는 쿠버네티스(Kubernetes) 위에서 KubeRay 연산자를 통해 클라우드 환경과 원활하게 통합된다.
- •Spark는 정형 데이터, Ray는 비정형 및 멀티모달 데이터에 최적화
- •현대 AI 워크로드의 비정형 데이터 비중 증가에 대응
- •KubeRay를 통한 쿠버네티스 환경 최적화
Spark는 데이터 병렬 처리에 특화된 반면, Ray는 상태 저장(Stateful) 연산과 복잡한 태스크 그래프 처리에 더 유연하다.
17:01
최신 트렌드: 맞춤형 데이터 학습과 모델 경량화
최근 AI 업계는 거대 모델에서 작고 빠른 모델로, 그리고 범용 데이터에서 기업 고유의 맞춤형 데이터 학습으로 이동하고 있다. AWS CEO의 기조연설에서도 언급되었듯 고객들은 자신의 데이터를 학습 프로세스에 직접 추가하기를 원한다. Ray는 이러한 맞춤형 파인튜닝과 학습 프로세스를 효율적으로 분산 처리하는 데 핵심적인 역할을 한다.
- •작고 빠른 특화 모델에 대한 수요 증가
- •기업 고유 데이터를 활용한 맞춤형 학습 트렌드
- •학습과 배포 전 과정에서 GPU 자원 효율성 극대화 필요
30:20
Ray 시작하기와 커뮤니티
Ray는 리눅스 재단(Linux Foundation)에 합류하여 생태계를 확장하고 있다. 초보자는 ray.io 웹사이트와 공식 슬랙(Slack) 커뮤니티를 통해 정보를 얻을 수 있다. 무료 워크숍과 템플릿 페이지를 통해 실제 GPU 자원을 테스트해보고 분산 컴퓨팅을 직접 경험해볼 수 있는 환경을 제공한다.
- •리눅스 재단 합류를 통한 오픈소스 생태계 강화
- •공식 웹사이트와 슬랙을 통한 커뮤니티 지원
- •무료 워크숍 및 템플릿으로 실습 환경 제공
실무 Takeaway
- Ray를 사용하면 분산 시스템의 복잡한 내부 구조를 몰라도 파이썬 코드를 대규모로 확장할 수 있다.
- vLLM과 같은 최신 AI 도구들이 Ray를 기반으로 구축되어 있어, Ray를 이해하는 것이 AI 인프라 활용에 필수적이다.
- 비정형 데이터와 멀티모달 데이터 처리가 중심이 되는 현대 AI 워크로드에서는 Ray가 기존 빅데이터 도구보다 유리하다.
- AI 에이전트와 같이 여러 모델이 복합적으로 작동하는 시스템에서 Ray Serve는 유연한 자원 관리와 스케일링을 제공한다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료