TWIML AI PodcastAI/ML48분2025년 12월 3일 07:29 KST3달 전

이기종 컴퓨팅 환경에서의 에이전트 추론 확장: Zain Asgar와의 대담

Gimlet Labs의 CEO Zain Asgar가 이기종 하드웨어 환경에서 에이전트 기반 AI 워크로드를 효율적으로 오케스트레이션하고 최적화하는 기술적 접근법을 공유한다.

핵심 요약

에이전트 AI는 단순 LLM 호출을 넘어 CPU 연산과 DB 호출이 결합된 복잡한 워크로드이다. Gimlet Labs는 Kubernetes와 RDMA 기술을 활용해 이기종 하드웨어에서 이를 효율적으로 분산 실행하고 최적화한다.

배경

에이전트 AI의 부상으로 토큰 소비가 급증함에 따라, 기존의 수직 통합형 학습 하드웨어와는 다른 효율적인 추론 인프라가 필요해졌다.

대상 독자

AI 인프라 엔지니어, MLOps 전문가, 분산 컴퓨팅 시스템 연구자

의미 / 영향

에이전트 AI의 확산으로 추론 인프라의 중요성이 커지면서, 단일 벤더의 고성능 GPU에 의존하기보다 다양한 이기종 자원을 효율적으로 엮는 소프트웨어 정의 인프라 기술이 시장의 경쟁력이 될 것으로 전망된다.

섹션별 상세

00:00

학습과 추론 하드웨어 전략의 차이

학습 하드웨어는 수직 통합된 슈퍼컴퓨터 형태로 발전했지만 추론은 이기종 하드웨어를 활용한 확장이 유리하다. Gimlet Labs는 에지 장치부터 데이터 센터까지 다양한 환경에서 모델을 효율적으로 실행하는 기술을 개발했다. 추론 시장은 하드웨어 비용과 메모리 대역폭 최적화가 핵심적인 과제이다.

•학습은 수직 통합 시스템 위주로 회귀 중
•추론은 범용 하드웨어를 활용한 효율적 확장이 핵심
•에지 장치 최적화 기술을 데이터 센터 규모로 확장 적용

03:44

에이전트 AI 워크로드의 특수성

에이전트 시스템은 일반적인 LLM 활용 사례보다 약 10배 많은 토큰을 소비한다. 에이전트 워크로드는 단순 모델 실행뿐만 아니라 CPU 연산, 데이터베이스 호출 등 다양한 작업이 섞인 이기종(Heterogeneous) 특성을 가진다. 이러한 복잡한 워크로드를 단일 시스템 내에서 효율적으로 오케스트레이션하는 것이 성능 향상의 관건이다.

•에이전트 AI는 기존 대비 10배 이상의 토큰 소비 발생
•CPU 연산과 모델 실행이 결합된 복잡한 데이터 플로우
•API 호출 지연을 줄이기 위한 시스템 통합 필요성

04:46

이기종 컴퓨팅 오케스트레이션 기술

에이전트 시스템을 데이터 플로우 그래프로 파악하여 각 구성 요소를 최적의 하드웨어에 할당한다. 성능 임계치가 높은 부분은 고성능 가속기에 배치하고, 그렇지 않은 부분은 상대적으로 저렴한 하드웨어로 오프로딩한다. 이를 통해 토큰당 비용을 최적화하고 전체 시스템의 지연 시간을 단축한다.

•데이터 플로우 그래프 기반의 세밀한 워크로드 분할
•성능 중요도에 따른 하드웨어 자원 차등 할당
•실시간 프로파일링을 통한 동적 자원 재배치

07:40

Kubernetes와 DRA를 활용한 자원 관리

Kubernetes 환경 위에서 DRA(Dynamic Resource Allocation) 기능을 활용해 워크로드를 오케스트레이션한다. 물리적 GPU 하나를 전체 리소스로 보지 않고 쿼터(1/4) 단위 등으로 세밀하게 파티셔닝하여 할당한다. 이를 통해 하드웨어 활용도를 극대화하고 에이전트 실행에 필요한 다양한 연산 자원을 동적으로 관리한다.

•Kubernetes DRA를 통한 동적 자원 할당 구현
•GPU를 세그먼트 단위로 나누는 미세 파티셔닝 기술
•이기종 가속기 환경에서의 통합 오케스트레이션

DRA(Dynamic Resource Allocation)는 Kubernetes에서 GPU나 FPGA 같은 특수 자원을 기존의 정적 할당 방식보다 더 유연하게 관리할 수 있게 해주는 프레임워크이다.

10:47

네트워킹과 데이터 전송 최적화

이기종 하드웨어 간의 데이터 전송 효율을 높이기 위해 RDMA(RoCE) 기술을 사용한다. CPU를 거치지 않고 가속기 메모리 간에 데이터를 직접 복사하는 GPU Direct 기술을 적용하여 지연 시간을 최소화한다. 서로 다른 제조사의 하드웨어 간 데이터 전송 시 발생하는 포맷 차이와 시스템 엔지니어링 복잡성을 해결하는 것이 핵심이다.

•RoCE(RDMA over Converged Ethernet) 기반의 고속 네트워킹
•CPU 개입을 최소화하는 GPU Direct 데이터 전송
•이기종 벤더 하드웨어 간의 데이터 호환성 확보

RDMA는 네트워크를 통해 데이터를 전송할 때 운영체제 커널을 거치지 않고 원격 장치의 메모리에 직접 접근하여 오버헤드를 줄이는 기술이다.

주목할 인용

“학습 하드웨어는 슈퍼컴퓨터를 만드는 방식으로 가고 있지만, 추론은 이기종 하드웨어를 활용해 효율적으로 확장할 수 있는 대규모 워크로드에 더 적합하다.”
Zain Asgar·00:12
학습과 추론의 하드웨어 전략 차이를 설명하며

“에이전트 시스템은 전체적으로 매우 이기종적이다. CPU 연산, 데이터베이스 호출, 그리고 많은 LLM 모델 실행이 섞여 있기 때문이다.”
Zain Asgar·04:18
에이전트 AI 워크로드의 복잡성을 강조하며

실무 Takeaway

에이전트 AI 추론은 단순 모델 실행을 넘어선 복잡한 시스템 오케스트레이션 문제이다.
이기종 하드웨어 자원을 세밀하게 파티셔닝하고 적재적소에 배치함으로써 토큰당 비용을 획기적으로 낮출 수 있다.
Kubernetes DRA와 RDMA 같은 저수준 인프라 기술이 고성능 에이전트 추론 시스템 구축의 핵심이다.

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

이기종 컴퓨팅 환경에서의 에이전트 추론 확장: Zain Asgar와의 대담 | AI Trends