핵심 요약
Claude Code가 과학 전문 도구 사용 시 일으키는 환각 문제를 해결하기 위해 140개의 검증된 바이오 및 화학 정보학 스킬을 제공하는 오픈소스 플러그인 SciCraft를 소개한다.
배경
저자는 Claude Code를 과학 연구에 활용하던 중 Scanpy, RDKit 등 전문 도구의 API에 대해 모델이 잘못된 정보를 생성하는 문제를 발견했다. 이를 해결하기 위해 140개 도구에 대한 블라인드 테스트를 거쳐 검증된 실행 코드와 파라미터 정보를 담은 SciCraft 플러그인을 개발하여 공유했다.
의미 / 영향
전문 도메인에서 LLM 에이전트의 성능 한계는 단순한 프롬프팅보다 검증된 지식 베이스 구축을 통해 극복 가능하다. SciCraft의 자동화된 스킬 생성 방식은 다른 전문 분야 에이전트 구축에도 중요한 참고 사례가 된다.
커뮤니티 반응
저자의 구체적인 벤치마크 결과와 실용적인 해결책 제시에 대해 긍정적인 반응이 나타났다. 특히 과학 연구 분야에서 Claude Code를 활용하려는 사용자들에게 유용한 도구로 평가받고 있다.
실용적 조언
- Claude Code로 과학 연구 수행 시 SciCraft 플러그인을 설치하여 API 환각을 방지한다.
- 새로운 도구 추가 시 내장된 6단계 자동화 워크플로를 활용하여 검증된 스킬 파일을 생성한다.
- GitHub 저장소의 blind_test_results.csv를 통해 현재 지원되는 도구들의 성능 점수를 확인한다.
언급된 도구
Claude Code용 과학 도구 스킬 라이브러리 및 플러그인
Claude Code중립
Anthropic의 CLI 기반 AI 코딩 에이전트
섹션별 상세
Claude Code의 과학 도구 이해도에 대한 블라인드 테스트 결과가 공유됐다. 140개 도구 중 109개에서 지식이 전혀 없었으며, 27개는 그럴듯하지만 틀린 API를 생성하는 환각 현상을 보였다. 단 4개의 도구만이 3-5점의 실용적인 점수를 기록하며 모델의 한계를 드러냈다.
SciCraft는 140개의 검증된 스킬을 구조화된 마크다운(Markdown) 형식으로 제공한다. 각 스킬 파일에는 10개 이상의 실행 가능한 코드 블록, 주요 파라미터 테이블, 트러블슈팅 매트릭스, 예상 출력값이 포함되어 있다. 에이전트는 필요한 시점에만 관련 파일을 로드하여 컨텍스트 효율성을 유지한다.
스킬 라이브러리가 스스로 확장될 수 있는 스킬 팩토리 워크플로를 구축했다. CLAUDE.md 파일에 정의된 6단계 자동화 프로세스를 통해 공식 문서를 가져오고, SKILL.md를 작성하며, CI 테스트를 거쳐 레지스트리에 등록한다. 이를 통해 유전체학, 약물 발견, 세포 생물학 등 다양한 분야의 도구를 지속적으로 추가할 수 있다.
실무 Takeaway
- Claude Code는 범용적인 능력은 뛰어나나 전문 과학 도구의 API 및 함수 시그니처에서는 심각한 환각을 보인다.
- SciCraft는 140개의 검증된 과학 기술 스킬을 제공하여 연구 자동화의 정확도를 높인다.
- 자동화된 스킬 생성 워크플로를 통해 새로운 도구에 대한 지원을 빠르게 확장할 수 있는 구조를 갖췄다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료