AI evals 비용 공부 정리 | 평가가 비싸지면 무슨 일이 생기나
AI 에이전트 벤치마크 평가 비용이 훈련 비용을 넘기 시작했다. 숫자 하나의 신뢰도가 어디서 오는지 정리해봤다.
Hugging Face 블로그에서 AI 평가 비용이 훈련 비용을 넘어서기 시작했다는 글을 읽었다. 처음엔 그냥 “요즘 비용 많이 드네” 수준의 얘기겠거니 했는데, 막상 읽어보니 구조적인 이야기가 있었다.
AI 모델 성능을 나타내는 숫자 하나가 만들어지기까지 이렇게 복잡한 과정이 있는지 솔직히 잘 몰랐다. 어딘가에서 한 번 돌리면 나오는 줄 알았다.
1️⃣ 이게 뭐냐?
평가 방식이 달라지고 있는 게 핵심이다. 예전에는 정적인 질문-답변 쌍으로 모델을 평가하는 방식이 주류였다. 이 방식은 결과가 어느 정도 예측 가능해서, 전체 데이터의 일부만 돌려도 순위를 가늠할 수 있었다.
근데 요즘은 에이전트 벤치마크가 늘었다. 모델이 도구를 여러 번 호출하고 실제 작업을 수행하는 방식이라, 한 번 실행하는 데 비용이 꽤 든다. GAIA 벤치마크 한 번 실행에 약 3천 달러, PaperBench 전체에 약 만 달러 수준이다. 9개 모델을 여러 벤치마크에서 비교하는 HAL 리더보드 한 번 돌리는 데는 4만 달러가 넘는다고 한다.
비용만 문제가 아니다. 에이전트 작업은 같은 모델도 실행할 때마다 결과가 달라진다. 글에서 인용된 케이스를 보면, 1회 실행에서 60% 정확도가 나왔던 게 8회 반복하면 25% 수준으로 일관성이 떨어진다. 신뢰할 수 있는 숫자를 얻으려면 여러 번 돌려야 하는데, 그게 비용을 다시 배로 늘린다.
2️⃣ 내가 든 생각
가장 흥미로웠던 지적은 “평가를 누가 할 수 있느냐가 무엇을 평가하느냐를 결정한다”는 부분이었다. 큰 AI 연구소는 수만 달러짜리 평가를 자체적으로 돌릴 수 있지만, 학계나 외부 감시 기관은 비용 때문에 단순화된 버전으로 대신할 수밖에 없어진다.
👉🏻 정확도 숫자 하나의 신뢰도가, 그 숫자를 만드는 데 얼마나 쓸 수 있느냐로 결정된다는 게 묘하게 와닿았다.
대안으로 평가 결과 데이터 공유가 제안되는데, 이미 실행한 평가를 다음 팀이 재활용할 수 있으면 비용 증가를 일부 상쇄할 수 있다는 논리다. 실제로 EvalEval Coalition이라는 이름으로 표준 메타데이터 공유 인프라를 만들고 있다고 한다.
💡 여기서 드는 질문? 경쟁 관계에 있는 연구소들이 평가 결과를 공유할 인센티브가 실제로 얼마나 될까? 오픈소스처럼 작동하려면 어떤 구조가 필요할지, 그게 제일 궁금해졌다.
3️⃣ 앞으로 어떻게 쓸까?
직접 벤치마크를 돌릴 일은 당장 없지만, 모델 선택 시 리더보드를 보는 방식은 달라질 것 같다. 정확도 숫자 하나만 보던 걸, 어떤 벤치마크에서 얼마짜리 평가로 나온 숫자인지를 같이 보게 될 것 같아서다.
리더보드에서 단일 정확도 숫자를 보여주는 건 UI 문제이기도 하다. 비용-성능 트레이드오프, 신뢰도 구간, 반복 실행 일관성 같은 정보를 직관적으로 전달하는 건 꽤 어려운 설계 문제라, 지금처럼 숫자 하나로 가는 선택을 이해는 한다. 다만 그게 사용자에게 오해를 줄 수 있다는 점도 이번에 느꼈다.
⭐️ 마지막으로, 디자이너로서 공부하며 느낀 점
이런 류의 AI 도구 평가 글을 볼 때 자꾸 같은 질문을 하게 된다 — 이 숫자를 만드는 데 누가 얼마를 썼나.