Hacker News용 LLM 생성 댓글 탐지기: HN Bot Detector

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Hacker News(HN)에서 LLM으로 생성된 댓글을 식별하기 위한 오픈소스 도구인 'HN Bot Detector'가 공개되었다. 이 도구는 특정 문구 패턴, 문장 구조, 유니코드 특수 문자 사용 여부 등 다양한 휴리스틱 지표를 활용해 0에서 100 사이의 점수를 산출한다. 개별 댓글 분석뿐만 아니라 특정 사용자의 최근 활동이나 게시물 전체의 댓글을 스캔하는 기능을 제공하며, Anthropic과 OpenAI의 API를 연동한 추가 검증도 가능하다. 이를 통해 커뮤니티 내 자동화된 게시물로 인한 품질 저하 문제를 해결하고자 한다.

배경

Next.js, TypeScript, TF-IDF 개념

대상 독자

Hacker News 사용자 및 온라인 커뮤니티 운영자

의미 / 영향

LLM의 확산으로 인한 커뮤니티 오염 문제를 기술적으로 해결하려는 시도이며, 텍스트의 구조적/언어적 특징만으로도 높은 확률의 봇 탐지가 가능함을 보여준다.

섹션별 상세

HN Bot Detector는 댓글 URL, ID 또는 원문 텍스트를 입력받아 즉각적인 봇 점수를 제공하며, 사용자별 최근 50개 댓글 분석 및 게시물 전체 스캔 기능을 갖추고 있다.

점수 산정 방식은 TF-IDF 벡터를 활용한 문구 탐지를 포함하며, 'additionally', 'furthermore'와 같은 전환어와 'leverage', 'seamless' 같은 AI 특유의 유행어(Buzzwords)를 식별한다.

문장 구조 분석에서는 축약어 미사용, 특정 단어 수(150-400단어), 3단락 구성 등 LLM 출력물에서 흔히 발견되는 전형적인 형태에 가산점을 부여한다.

키보드 입력 시 발생하는 직선 따옴표 대신 LLM이 주로 출력하는 유니코드 곡선 따옴표(Curly quotes)나 특수 대시(Em dash, En-dash)를 탐지하여 외부 복사-붙여넣기 흔적을 추적한다.

사용자 수준 분석에서는 24시간 내 5개 이상의 댓글 작성 빈도와 사용자 댓글 간의 시맨틱 유사도(Cosine similarity)를 계산하여 반복적인 패턴을 확인한다.

코드 예제

bash

git clone https://github.com/umairnadeem/hn-bot-detector.git
cd hn-bot-detector
pnpm install
cp .env.example .env.local
pnpm dev

로컬 환경에서 HN Bot Detector를 설치하고 실행하는 방법

실무 Takeaway

LLM 특유의 문체인 'thesis/body/conclusion' 구조와 3개 항목 나열 패턴을 분석하여 봇 생성 가능성을 수치화할 수 있다.
일반적인 텍스트 입력과 다른 유니코드 특수 문자(곡선 따옴표 등)의 존재는 LLM 생성 콘텐츠를 식별하는 강력한 지표가 된다.
TF-IDF 코사인 유사도를 통해 한 사용자가 작성한 여러 댓글의 의미적 일관성을 측정함으로써 자동화된 계정을 효과적으로 탐지할 수 있다.

언급된 리소스

GitHubHN Bot Detector GitHub

DemoHN Bot Detector Demo