글쓰기 과정과 품질의 연결: Kaggle 경진대회 우승 솔루션 분석

실시간 키스트로크 로그를 분석하여 글쓰기 품질을 예측하는 Kaggle 경진대회에서 XGBoost와 정교한 피처 엔지니어링을 활용한 우승 솔루션을 소개한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

단순한 모델 앙상블보다 데이터 전처리와 글쓰기 과정을 복원한 피처 엔지니어링이 성능 향상의 핵심이다. 특히 에세이 복원을 통한 구조적 피처 추출이 모델 성능에 가장 큰 기여를 한다.

배경

글쓰기 결과물뿐만 아니라 작성 과정에서 발생하는 키스트로크 데이터를 분석하여 글의 품질을 평가하려는 시도가 늘어나고 있다.

대상 독자

데이터 과학자, 머신러닝 엔지니어, 교육 기술 연구자

의미 / 영향

이 솔루션은 교육 현장에서 학생들의 글쓰기 과정을 실시간으로 모니터링하고 품질을 예측하는 자동 튜닝 시스템 구축에 활용될 수 있다. 단순한 결과물 평가를 넘어 작성 패턴 분석을 통해 학습자의 유창성과 수정 습관을 파악하는 정교한 교육용 AI 모델 설계가 가능해진다.

챕터별 상세

00:00

배경 및 팀 소개

통계학 및 컴퓨터 공학 배경을 가진 팀원들이 머신러닝 지식을 활용해 경진대회에 참가했다. Kaggle 플랫폼의 리소스와 커뮤니티를 통해 모델 학습 및 플랫폼 활용법을 익혔다. 글쓰기 과정의 동적인 행동을 분석하여 최종 품질을 예측하는 문제에 도전했다.

•통계학 및 컴퓨터 공학 전공자로 구성된 팀
•Kaggle 커뮤니티 리소스를 활용한 학습
•글쓰기 행동 패턴과 품질 간의 상관관계 분석

01:39

모델 요약 및 성능 지표

62개의 피처를 가진 XGBoost 모델을 최종 솔루션으로 채택했다. LightGBM과 CatBoost 등 다른 그래디언트 부스팅 모델도 시도했으나 최종적으로 XGBoost가 가장 우수한 성능을 보였다. Kaggle 노트북 환경에서 데이터 로드 15초, 피처 생성 40초, 모델 학습 85초 내외의 빠른 실행 속도를 기록했다.

•62개의 피처를 활용한 XGBoost 모델 구축
•LightGBM 및 CatBoost 대비 우수한 성능 확인
•전체 파이프라인의 효율적인 실행 시간 확보

02:31

데이터 전처리 및 노이즈 제거

텍스트 내용에 영향을 주지 않는 Shift나 Control 키 이벤트를 삭제하여 데이터를 정제했다. 키를 길게 눌러 발생하는 반복 입력을 제거하기 위해 50ms 미만의 액션 타임을 가진 이벤트를 제외했다. 비정상적인 공백 시퀀스나 'q' 문자의 반복을 처리하고 점수와 상관관계가 낮은 15개의 이상치 샘플을 훈련 데이터에서 제거했다.

•제어 키(Shift, Control) 및 50ms 미만 반복 입력 제거
•비정상적인 문자 시퀀스 필터링을 통한 노이즈 감소
•훈련 데이터셋에서 15개의 이상치 관측치 제외

03:51

피처 엔지니어링 및 중요도 분석

키스트로크 로그를 바탕으로 복원된 에세이(Reconstructed Essay) 기반 피처가 모델 성능에 가장 결정적이었다. 전체 글자 수, 쉼표 및 마침표의 개수, 특정 길이(6자, 8자)를 가진 단어의 빈도 등이 상위 피처로 꼽혔다. 또한 작성 시작 20분 이후의 단어 수와 키 입력 간격(IKI)의 중앙값 등 시간적 흐름을 반영한 피처도 유의미하게 작용했다.

•복원된 에세이의 구조적 특성(글자 수, 문장 부호) 추출
•작성 시간대별 활동량 및 키 입력 간격(IKI) 분석
•피처 중요도 차트에서 에세이 복원 피처가 상위권 차지

06:25

훈련 방법 및 하이퍼파라미터 설정

10-fold 층화 교차 검증(Stratified Cross Validation)을 수행하고 100 라운드의 조기 종료(Early Stopping)를 적용했다. 예측값의 변동성을 줄이기 위해 50개의 서로 다른 시드(Seed)를 평균 내는 방식을 사용했다. Optuna를 통한 자동 튜닝보다는 피처 추가 시 CV 점수와 퍼블릭 스코어의 동반 상승 여부를 기준으로 피처를 선택했다.

•10-fold 교차 검증 및 50개 시드 앙상블 적용
•CV 점수와 퍼블릭 스코어의 일관성을 기준으로 피처 선택
•XGBoost의 max_depth를 4로 설정하여 과적합 방지

08:20

최종 인사이트 및 모델 단순화 실험

R 언어의 data.table과 stringi 패키지를 활용해 대량의 문자열 처리 속도를 최적화했다. 대회 종료 후 상위 10개 피처만 사용한 단순화 모델을 테스트한 결과 0.592의 준수한 점수를 얻었다. 에세이 복원 함수를 더욱 최적화한다면 실행 시간을 25초 수준까지 단축할 수 있음을 확인했다.

•R 언어 패키지를 활용한 문자열 처리 및 데이터 로드 최적화
•상위 10개 핵심 피처만으로도 경쟁력 있는 성능 유지
•에세이 복원 로직 개선을 통한 추론 효율성 향상 가능성

실무 Takeaway

키스트로크 로그에서 실제 텍스트를 복원하여 글자 수와 문장 부호 빈도 등 구조적 피처를 생성하는 것이 예측 성능에 결정적이다.
Shift/Control 등 텍스트 내용에 영향을 주지 않는 제어 키나 50ms 미만의 기계적 반복 입력을 제거하여 모델의 노이즈를 줄여야 한다.
예측값의 변동성이 큰 경우 여러 개의 시드(Seed)를 평균 내는 앙상블 기법을 통해 리더보드 점수의 안정성을 확보할 수 있다.
R의 data.table과 stringi 패키지를 사용하여 대규모 키스트로크 데이터의 전처리 및 피처 생성 시간을 획기적으로 단축했다.

언급된 리소스

DemoLinking Writing Processes to Writing Quality Competition

문서XGBoost Documentation

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 26.수집 2026. 02. 26.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

글쓰기 과정과 품질의 연결: Kaggle 경진대회 우승 솔루션 분석 | AI Trends