TL;DR
영어 중심의 의료 대화 데이터에 의존하던 한계를 넘어, 영어·9개 Indic 언어를 아우르는 병렬 다턴 대화를 구축했다. 또한 LoRA로 파인튜닝한 IndicMedLM과 LLM-as-a-Judge 기반 포스트-프로세싱으로 저자원 환경에서도 임상 적합성과 다언어 일관성을 확보하고자 한다.
왜 중요한가
영어 중심의 의료 대화 데이터에 의존하던 한계를 넘어, 영어·9개 Indic 언어를 아우르는 병렬 다턴 대화를 구축했다. 또한 LoRA로 파인튜닝한 IndicMedLM과 LLM-as-a-Judge 기반 포스트-프로세싱으로 저자원 환경에서도 임상 적합성과 다언어 일관성을 확보하고자 한다.
관련 Figure

9개 Indic 언어의 스크립트 다양성을 시각적으로 제시하며 언어 커버리지가 연구의 핵심임을 보강한다.
Figure 4:Indic languages 커버리지를 시각화한 원형 도식(언어 wheel)
핵심 기여
병렬 다-turn 의학 대화 데이터셋 구축
MDDial를 확장해 영어와 9개 Indic 언어를 포괄하는 병렬 다-turn 대화 데이터를 생성하고 원어민 검증 및 스크립트-인식 후처리로 번역 품질과 임상 충실도를 보장한다.
환자 사전 맥락 기반 개인화 설계
연령, 성별, 알레르기 등 환자 전처 contextual 정보를 대화 시작에 포함시켜, 개인화된 심층 질문 전략과 진단 추론을 유도한다.
IndicMedLM: LoRA 기반의 파라미터 효율적 파인튜닝
LLaMA-3.2-3B-Instruct에 4-bit NF4 양자화와 LoRA 어댑터를 적용하고, 9개 Indic 언어 버전에 대해 같은 하이퍼파라미터로 학습한다.
LLM-as-a-Judge 기반 2단계 포스트-프로세싱
출력이 관찰되는 자유로운 문장 속에서 질병 라벨을 의미적으로 등가시키고 12개 정규 질병 라벨로 매핑하는 ChatGPT 5.3 기반의 판단기를 적용한다.
의료 안전성 및 전문가 평가 포함
의료 전문가 3인으로 구성된 평가에서 안전성 95.3%의 패스율, 증상 추출/맥락 기억/진단 정확도/대화 흐름/효율성 지표를 제시한다.
핵심 아이디어 이해하기
출발점: 기존의 의학 대화 시스템은 단일 턴 QA 또는 템플릿 기반 데이터에 의존해 다언어 환경에서의 대화 자연성을 제한한다. 시퀀스형 의사-환자 상호작용에서 진단은 다단의 follow-up 질문을 통해 점진적으로 좁혀진다. 또한 Indic 언어 자원은 영어 기반 데이터에 비해 불균형하게 분포한다. 해결 원리: synthetic 대화를 Llama-3.3-70B를 통해 생성하고 TranslateGemma로 9개 Indic 언어로 번역한 뒤, 스크립트-감지 포스트-프로세스로 음성/문자 간 변환에서의 오류를 보정한다. 또한 patient pre-context를 도입해 다회 질문을 통해 실제 임상 컨설턴트의 흐름을 모사한다. 차별점: 1) 병렬 다언어 대화의 동일한 진단 흐름 보장, 2) LoRA로 파라미터-효율적 파인튜닝, 3) LLM-as-a-Judge 기반의 의미적 매핑으로 다언어에서의 라벨-생성 일관성 향상. 이로써 낮은 리소스 환경에서도 다언어 임상 대화 모델의 구축이 가능해진다.
방법론
Stage 1: 데이터셋 및 합성 대화 생성. MDDial 기저 코퍼스에 1,101건의 합성 대화를 생성하고 12개 질병 카테고리와 118개 증상을 포함한다. 템플릿 기반 외에도 비결정적 패턴(환자 반응의 변동성, 중복 증상, 불완전 기술)을 도입해 다양성을 증가시킨다. Stage 2: 파라미터-효율적 파인튜닝(PEFT). LoRA를 이용해 LLaMA-3.2-3B-Instruct에 어댑터를 삽입하고 4-bit NF4 양자화를 적용한다. 랭크 r=16, α=16, 드롭아웃 0, bias 제거. 학습은 AdamW-8bit로, 학습률 2e-4, 가중치 감소 0.001, 배치 8, warmup 5, 총 300스텝, FP16/BF16 섞어 사용. 각 언어별로 독립적으로 학습한다. Stage 3: 의료 진단. 선택적 환자 pre-context를 대화 프리픽스에 추가하고, 4~8턴의 구조화된 증상 수집 후 최종 진단 및 근거를 제시한다. 출력은 ShareGPT 스타일의 포맷으로 구성되며, 시스템 메시지가 진단 맥락을 설정한다. Post-processing: 대규모 언어 모델(ChatGPT 5.3) 판단기를 사용해 출력 문자열에서 12개의 정규 질병 라벨 중 가장 의미적으로 동등한 라벨을 선택한다(또는 NULL).
관련 Figure

일반 LLM은 한 번의 설명적 응답만 제시하고 증상 elicitation이 부재한 반면, IndicMedLM은 환자 맥락을 포함한 다턴 심층 질병 탐색을 수행한다.
Figure 1: 일반-purpose LLM(ChatGPT)과 IndicMedLM의 다턴 대화 차이 비교

데이터 생성(Stage 1) → 파인튜닝(Stage 2) → 의료 진단(Stage 3) 흐름을 한 눈에 보여준다.
Figure 3: IndicMedDialog 프레임워크의 세 가지 스테이지 다이어그램

대상 언어군의 포괄성을 시각화하며, 다언어 모델의 도전과제와 강점을 연결한다.
Figure 5: 또 다른 언어 커버리지를 보여주는 원형 도식
주요 결과
언어별 자동 진단 정확도는 English 80.85%, Hindi 72.76%, Marathi 68.51%, Bengali 58.72%를 달성했다(포스트-처리 후). Assamese, Tamil, Telugu의 경우 기저 모델 토크나이저의 제한으로 저하되며, Gujarati의 경우 Tiny-AYA가 더 나은 성능을 보였다. Expert 평가에서 의료 안전성 패스 비율은 95.3%, 증상 추출 4.20, 맥락 기억 4.40, 진단 정확도 4.10, 대화 흐름 4.30, 효율성 4.00으로 나타났다. Krippendorff의 α는 0.81로 전문가 간 합의가 높은 편이다. 다섯 가지 실패 모드(ID, LC, CDC, TTF, PLG)가 관찰되었고, Devanagari 계열에서의 강한 시도-출력 차이가 일부 재구성(recovery) 가능성을 보여준다.
관련 Figure

환자 맥락(연령/성별/알레르기)과 다턴 대화를 통해 최종 진단에 이르는 과정을 시각적으로 보여준다.
Figure 2: IndicMedLM과 환자 상담 세션의 예시 UI/대화 흐름
기술 상세
모델 구성은 SFT를 9개 Indic 언어 버전에 대해 각 언어 파티션으로 수행한다. LoRA 어댑터를 Transformer의 q/k/v/o projection 및 MLP projection에 삽입하고, 랭크 r=16, α=16, 드롭아웃 0으로 설정한다. 학습은 600 스텝 대신 실제로 300 스텝으로 제한하고, 4-bit NF4 양자화로 메모리 요구를 낮춘다. 입력 포맷은 ShareGPT 스타일로 변환되고 optional patient pre-context가 모든 언어에 공통적으로 입력된다. 출력의 병합은 두 단계 포스트-프로세싱으로, 모델의 길고 서술적인 출력 속에서 정규 라벨을 추출하는 의미적 등가성 판정기를 통해 12개 질병 라벨으로 매핑한다. 전문가 평가를 통해 안전성 및 대화 품질을 확인하고 Krippendorff의 α로 신뢰도를 측정한다.
한계점
Synthetic-to-real 데이터 간의 분포 차이가 존재하며, 극단적 저자원 언어에서의 실전 대화 일반화가 필요하다. 12질병 카테고리로 한정되며, 이미지/음성 등의 다중 모달은 아직 다루지 않는다.
실무 활용
IndicMedDialog와 IndicMedLM은 낮은 리소스 환경에서도 Indic 언어를 아우르는 의료 대화를 가능하게 한다. 데이터셋 확장과 파인튜닝 기법으로 현장 적용 가능성을 높이며, 임상적 신뢰성과 안전성 평가를 포함한다.
- 다언어 환자 상담 시스템의 사전 진단 보조
- 지역 보건소에서의 증상 elicitation 및 간단한 예비 진단
- 의료 서비스 접근성이 낮은 지역의 온라인 triage 도구
- 다언어 임상 교육용 시나리오 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.