펠리칸 벤치마크(pelican-benchmark)이란 무엇인가요?

Question

Accepted Answer

AI 모델에게 '자전거를 타는 펠리칸'을 그리게 하여 그 결과물의 품질로 모델의 실제 지능과 성능을 직관적으로 평가하는 Simon Willison의 독자적인 벤치마크이다. 모델이 복잡한 개념의 조합을 얼마나 정확하게 시각화하고 논리적으로 구성하는지를 확인하는 척도로 쓰인다. 정형화된 벤치마크를 넘어 모델의 실제 창의성과 이해도를 파악하는 데 유용하다.

pelican-benchmark

비슷한 개념