핵심 요약
생물 의학 분야는 전문 데이터베이스 검색 없이는 정확한 답변이 불가능하지만, 기존 LLM은 이러한 도구 활용 능력이 부족하여 심각한 환각 현상을 겪는다. BioTool은 7,040개의 정교한 데이터셋을 통해 소형 오픈소스 모델도 전문적인 생물학 도구를 정확히 호출하여 전문가 수준의 답변을 생성할 수 있게 한다.
왜 중요한가
생물 의학 분야는 전문 데이터베이스 검색 없이는 정확한 답변이 불가능하지만, 기존 LLM은 이러한 도구 활용 능력이 부족하여 심각한 환각 현상을 겪는다. BioTool은 7,040개의 정교한 데이터셋을 통해 소형 오픈소스 모델도 전문적인 생물학 도구를 정확히 호출하여 전문가 수준의 답변을 생성할 수 있게 한다.
관련 Figure

도구를 사용하지 않는 모델은 잘못된 환각(Incorrect Hallucination)이나 지식 공백을 보이지만, BioTool 증강 모델은 정확한 API 호출을 통해 검증 가능한 사실과 정밀한 데이터를 제공함을 보여준다. 이는 도구 호출이 생물 의학 분야의 신뢰성 확보에 필수적임을 시사한다.
도구를 사용하지 않는 LLM과 BioTool로 증강된 LLM의 답변 품질 비교 다이어그램
핵심 기여
BioTool 데이터셋 구축
NCBI, Ensembl, UniProt 등 권위 있는 3대 생물 의학 데이터베이스의 34개 도구와 124개 API 엔드포인트를 포함하는 7,040개의 고품질 인간 검증 데이터셋을 구축했다.
Necessity 및 Sufficiency 기반 쿼리 생성
API 응답이 답변에 반드시 필요하고 충분한지 검증하는 CoT(Chain-of-Thought) 프롬프팅과 LLM-as-a-judge 기법을 도입하여 데이터의 논리적 완결성을 확보했다.
소형 모델의 성능 극대화
BioTool로 미세 조정된 4B 파라미터 규모의 Qwen-3 모델이 In-context learning을 사용하는 GPT-5.1 및 Claude 4.5 Sonnet과 같은 거대 상용 모델의 도구 호출 성능을 능가함을 입증했다.
핵심 아이디어 이해하기
기존의 LLM은 대규모 텍스트 데이터를 통해 단어 간의 확률적 관계를 학습하지만, 생물학적 서열이나 특정 단백질의 기능과 같은 전문 지식은 학습 데이터만으로 해결하기 어렵다. 이는 Transformer 아키텍처가 외부 지식 저장소와 실시간으로 연결되지 못할 때 발생하는 고질적인 한계이다. BioTool은 모델이 질문을 받았을 때 자신의 내부 가중치에만 의존하는 대신, 특정 API 스키마에 맞춰 정확한 인자(Parameter)를 생성하여 외부 데이터베이스를 호출하도록 유도한다.
이 과정은 Embedding 공간에서 질문의 의도를 파악한 뒤, 이를 정형화된 API 호출문으로 매핑하는 과정이다. BioTool은 이 매핑 과정을 미세 조정을 통해 강화함으로써, 모델이 복잡한 생물학적 식별자(Identifier)와 파라미터 제약 조건을 정확히 준수하게 만든다. 결과적으로 모델은 '추론'과 '지식 검색'을 분리하여, 검색된 실제 데이터를 바탕으로 답변을 구성하게 된다.
특히 4B 수준의 소형 모델에서도 이러한 정교한 도구 호출이 가능함을 보여줌으로써, 거대 모델의 In-context learning이 가지는 컨텍스트 길이 제한과 부정확한 파라미터 매핑 문제를 해결한다. 이는 모델의 크기보다 도메인 특화된 고밀도 학습 데이터가 전문 영역의 성능을 결정짓는 핵심 요소임을 시사한다.
방법론
BioTool 데이터셋 구축은 도구 선택, API 호출 생성 및 검증, 사용자 쿼리 생성, 인간 검토의 4단계 파이프라인으로 구성된다. 먼저 NCBI, UniProt, Ensembl에서 34개의 핵심 도구를 선정하고 공식 문서를 수집한다. 이후 LLM을 활용해 다양한 API 파라미터 조합을 생성하고, 실제 실행을 통해 유효한 응답이 돌아오는 3,829개의 고유 API 호출을 확보한다.
사용자 쿼리 생성 단계에서는 OpenAI o3 모델을 사용하여 API 응답이 질문 답변에 반드시 필요한지(Necessity)와 충분한지(Sufficiency)를 평가한다. [API 응답 요약 → 자연어 질문 생성 → 질문-응답 적합성 판단] 순으로 연산을 수행하여, 도구 사용이 필수적인 실제적인 질문들만 필터링한다. 마지막으로 생물 정보학 배경을 가진 전문가들이 생물학적 타당성과 정확성을 최종 검토하여 7,040개의 쌍을 완성한다.
관련 Figure

데이터셋 구축 시 LLM 기반의 필터링과 인간의 정제를 거치는 다단계 과정을 설명한다. 우측 패널은 미세 조정된 소형 모델이 API 호출을 생성하고 외부 지식을 통합하여 최종 답변을 내놓는 메커니즘을 도식화했다.
BioTool 데이터셋 구축 파이프라인 및 증강된 LLM의 추론 과정
주요 결과
BioTool로 미세 조정된 Qwen3-4B-Instruct 모델은 전체 도구 호출 성능(BioTool Score)에서 93.6점을 기록하여, In-context learning을 사용한 Claude 4.5 Sonnet(81.4점)과 GPT-5.1(55.4점)을 크게 앞질렀다. 특히 정확한 파라미터 매핑을 측정하는 Exact Match(EM) 지표에서 Qwen3-4B-Ins는 42.4점을 기록해 상용 모델 중 최고점인 Claude 4.5(6.5점) 대비 약 6배 이상의 정밀도를 보였다.
인간 평가 결과에서도 BioTool 증강 모델의 우수성이 확인되었다. 생물 정보학 전문가들이 수행한 평가에서 BioTool로 미세 조정된 모델은 도구를 사용하지 않은 기본 GPT-5.1 대비 84.5%의 승률을 기록했다. 이는 도구 호출을 통해 도메인 특화된 할루시네이션을 효과적으로 억제하고 답변의 신뢰도를 높였음을 의미한다.
관련 Figure

NCBI, Ensembl, UniProt 데이터가 균형 있게 분포되어 있으며, 유전체학(Genomics)과 단백질체학(Proteomics)이 큰 비중을 차지함을 보여준다. 데이터 retrieval뿐만 아니라 분석 및 매핑 등 다양한 도구 유형이 포함되어 데이터셋의 다양성을 입증한다.
BioTool 데이터셋의 데이터베이스, 도구 유형, 생물학적 도메인별 분포 차트

BioTool로 미세 조정된 Qwen3-4B 모델이 기본 GPT-5.1 모델을 상대로 84.5%의 높은 승률을 기록했음을 보여준다. 이는 소형 모델이라도 적절한 도구 호출 능력을 갖추면 거대 상용 모델보다 훨씬 유용한 답변을 제공할 수 있음을 증명한다.
기본 모델 대비 BioTool 증강 모델의 인간 평가 승률 그래프
기술 상세
BioTool은 단일 홉(One-hop) 도구 호출에 초점을 맞춘 데이터셋으로, 복잡한 생물학적 식별자(Taxon ID, Gene Symbol 등)를 API 인자로 정확히 변환하는 능력을 학습시킨다. 아키텍처적으로는 특수 토큰을 사용하여 API 호출의 시작과 끝을 구분하며, 미세 조정 과정에서 정답 API 호출문과의 Cross-Entropy Loss를 최소화하도록 학습된다. [입력 쿼리 → API 호출 생성 → 외부 결과 수신 → 최종 답변 생성]의 워크플로우를 따르며, 특히 NCBI의 엄격한 식별자 형식과 중첩된 파라미터 구조를 학습하는 데 최적화되어 있다. Prior work인 GeneGPT 등이 소수 도구에 집중한 것과 달리, BioTool은 124개의 엔드포인트를 포괄하여 범용성을 확보했다.
한계점
현재 BioTool은 단일 홉 도구 호출에만 집중하고 있어, 여러 도구를 순차적으로 사용하거나 반복적인 추론이 필요한 다중 홉(Multi-hop) 문제 해결에는 한계가 있다. 또한 생물학적 관측 데이터의 길이가 모델의 컨텍스트 제한을 초과하는 경우가 많아, 이를 효율적으로 처리하기 위한 긴 컨텍스트 아키텍처나 요약 기법의 추가 연구가 필요하다.
실무 활용
생물 의학 연구 및 임상 의사결정 지원 시스템에서 LLM이 정확한 근거 데이터를 기반으로 답변하도록 하는 데 즉시 활용 가능하다.
- 유전자 서열 분석 및 상동성 검색(BLAST) 자동화 에이전트
- 단백질 기능 주석(GO Term) 및 질병 연관성 정보 추출 도구
- 최신 유전체 변이 데이터베이스 기반의 임상 질의응답 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.