Tinker 정식 출시: Kimi K2 추론 모델 및 Qwen3-VL 비전 지원 추가

핵심 요약

Thinking Machines Lab이 자사의 모델 학습 및 커스터마이징 플랫폼인 Tinker를 정식 출시(GA)했다. 이번 업데이트를 통해 1조 개의 파라미터를 보유한 대규모 추론 모델 Kimi K2 Thinking과 시각 정보 처리가 가능한 Qwen3-VL 모델이 새롭게 추가되었다. 또한 OpenAI API와 호환되는 추론 인터페이스를 도입하여 기존 워크플로우와의 통합을 용이하게 했으며, 비전 모델의 효율적인 파인튜닝 성능을 입증하는 벤치마크 결과도 함께 공개했다.

배경

Python, LLM 파인튜닝 기본 개념, OpenAI API 사용 경험

대상 독자

대규모 모델 파인튜닝 및 멀티모달 AI 애플리케이션을 개발하는 엔지니어와 연구자

의미 / 영향

Tinker의 정식 출시와 대규모 모델 지원은 개발자들이 고성능 추론 및 비전 모델을 더 쉽게 커스터마이징할 수 있게 한다. 특히 1조 파라미터 모델의 파인튜닝 접근성을 높임으로써 특정 도메인에 특화된 고성능 에이전트 개발이 가속화될 것으로 보인다.

섹션별 상세

Tinker 플랫폼의 대기 명단이 제거되고 모든 사용자가 이용 가능한 정식 출시 단계로 전환되었다. 사용자는 이제 별도의 승인 절차 없이 Tinker에 가입하여 최신 모델들을 학습시키고 배포할 수 있다.

추론 능력이 강화된 Kimi K2 Thinking 모델이 라인업에 합류했다. 1조 개의 파라미터를 가진 이 모델은 복잡한 추론 과정과 도구 사용(Tool Use)에 최적화되어 있으며, Tinker를 통해 직접 파인튜닝이 가능하다.

OpenAI API와 호환되는 새로운 추론 인터페이스를 제공한다. 이를 통해 사용자는 기존 OpenAI 라이브러리를 그대로 사용하여 Tinker에서 학습 중이거나 배포된 모델에 접근할 수 있으며, 다양한 서드파티 플랫폼과의 연동이 간편해졌다.

Qwen3-VL 기반의 비전 입력 기능이 추가되어 이미지, 스크린샷, 다이어그램 처리가 가능해졌다. 30B와 235B 두 가지 크기의 모델이 제공되며, 텍스트와 이미지를 교차 입력하는 방식으로 SFT 및 RL 파인튜닝을 수행할 수 있다.

Qwen3-VL을 활용한 이미지 분류기 파인튜닝 실험 결과, 적은 데이터 환경에서 기존 비전 전용 모델인 DINOv2보다 우수한 성능을 보였다. 이는 VLM이 보유한 사전 언어 지식이 이미지 분류 작업에서 데이터 효율성을 크게 높여주기 때문으로 분석된다.

이미지 분석

Chart
Caltech-101, Stanford Cars 등 4개 데이터셋에서 클래스당 학습 예시 수(1~16개)에 따른 정확도 변화를 보여준다. Qwen3-VL(파란색)이 모든 데이터셋에서, 특히 데이터가 매우 적은 퓨샷(Few-shot) 환경에서 DINOv2(주황색)보다 일관되게 높은 성능을 기록함을 증명한다.
Qwen3-VL과 DINOv2 모델의 데이터 양에 따른 이미지 분류 정확도 비교 그래프.

실무 Takeaway

Tinker 정식 출시로 1조 파라미터급 모델인 Kimi K2 Thinking을 누구나 직접 파인튜닝할 수 있는 환경이 마련되었다.
OpenAI API 호환 인터페이스를 통해 기존 인프라 변경 없이 Tinker 모델을 즉시 프로덕션에 통합할 수 있다.
데이터가 부족한 특정 도메인의 이미지 분류 작업에서 Qwen3-VL과 같은 VLM을 활용하면 DINOv2 대비 높은 정확도를 확보할 수 있다.

언급된 리소스

튜토리얼Tinker Cookbook

API DocsTinker Documentation