How2Everything: 실생활 절차 수행 능력 평가 및 개선을 위한 웹 데이터 마이닝 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

사용자들이 챗봇에게 요청하는 질문의 약 8.5%는 단계별 지침 생성에 관한 것이지만, 이를 실제로 실행하여 검증하기는 현실적으로 불가능하다. AI2는 웹에서 35만 개의 실생활 절차를 추출하고 표준화하는 'How2Everything' 프레임워크를 개발하여 이 문제를 해결했다. 이 시스템은 데이터 추출 파이프라인(How2Mine), 7,000개 규모의 벤치마크(How2Bench), 그리고 치명적 오류를 판별하는 오픈 소스 평가 모델(How2Judge)로 구성된다. 실험 결과, 이 프레임워크를 통해 학습된 모델은 다른 능력의 저하 없이 절차 생성 성능이 10점 이상 향상되는 성과를 거두었다.

배경

LLM 파인튜닝 및 강화학습(RLHF)에 대한 기본 지식, 데이터 마이닝 및 웹 코퍼스 처리 프로세스 이해, LLM-as-a-Judge 평가 방법론에 대한 이해

대상 독자

LLM 에이전트 및 지침 이행 시스템을 개발하는 엔지니어 및 연구자

의미 / 영향

이 프레임워크는 AI 에이전트가 실생활의 복잡한 작업을 계획하고 실행하는 능력을 객관적으로 측정할 수 있는 기준을 제시한다. 특히 고비용의 상용 모델 없이도 오픈 소스 모델만으로 정밀한 평가와 학습이 가능하다는 점은 중소 규모 연구팀의 AI 성능 최적화에 큰 도움을 줄 것이다.

섹션별 상세

실생활 절차 데이터의 중요성과 기존 평가 방식의 한계가 명확하다. 챗봇 대화의 상당 부분이 단계별 안내 요청임에도 불구하고, 이혼 서류 제출이나 전기 배선 수리 같은 절차를 실제로 실행하여 검증하는 것은 불가능에 가깝다. 기존 벤치마크는 표면적인 텍스트 유사도에 의존하기 때문에 필수 단계 누락이나 순서 오류 같은 치명적인 결함을 잡아내지 못하는 구조적 한계를 지닌다.

How2Mine 파이프라인을 통해 대규모 실생활 절차 데이터를 구축했다. DCLM 웹 코퍼스에서 튜토리얼 스타일의 페이지를 식별한 뒤 GPT-4.1을 활용해 요리, 법률, 전자제품 등 14개 주제에 걸쳐 351,162개의 구조화된 절차를 추출했다. 이 과정에서 UI 의존적이거나 비논리적인 절차를 필터링하고 5~15단계 사이의 유효한 지침만을 남겨 데이터의 품질을 확보했다.

How2Bench와 How2Score를 통해 정밀한 평가 체계를 수립했다. How2Bench는 모델이 특정 목표에 대해 정해진 단계 수만큼 정확한 지침을 생성하도록 요구하는 7,000개 규모의 벤치마크다. How2Score는 단순히 문장이 자연스러운지가 아니라, 절차를 완수하지 못하게 만드는 '치명적 오류'가 있는지 여부를 측정한다. 이를 위해 GPT-5의 판단을 모방하도록 학습된 8B 규모의 오픈 모델인 How2Judge를 배포하여 저비용으로 재현 가능한 평가를 가능하게 했다.

프레임워크를 활용한 모델 학습 결과 유의미한 성능 향상이 확인됐다. How2Score를 보상 신호로 사용하여 모델을 학습시킨 결과, Qwen3-8B-Inst 모델의 성능이 38.5점에서 48.6점으로 10.1점 향상되었다. 특히 학습 과정에서 출력 길이를 제어하지 않으면 모델이 평가 모델을 속이기 위해 불필요하게 긴 답변을 생성하는 '보상 해킹' 현상이 발견되어, 명시적인 길이 제어 설계의 중요성이 입증되었다.

실무 Takeaway

실행 기반 검증이 어려운 실생활 도메인에서 웹 데이터를 표준화된 참조 앵커로 활용하여 대규모 폐쇄 루프 평가 시스템을 구축할 수 있다.
LLM-as-a-Judge를 활용할 때 모델이 단순히 길고 장황한 답변으로 높은 점수를 받으려는 경향을 방지하기 위해 학습 시 명시적인 길이 제어 로직을 포함해야 한다.
How2Judge와 같은 경량화된 오픈 소스 평가 모델을 통해 고비용의 상용 API 없이도 신뢰할 수 있고 재현 가능한 기술 성능 평가가 가능하다.

언급된 리소스

문서How2Everything Tech Report

GitHubHow2Everything Code Repository

문서How2Everything Dataset