AI 모델 평가 비용 급증과 컴퓨팅 병목 현상 발생
인공지능 모델의 성능을 검증하는 평가 과정이 학습 비용을 넘어서는 새로운 컴퓨팅 병목 현상으로 떠오르고 있습니다. 복잡해진 평가 환경과 반복적인 검증 작업이 개발 효율성을 저해하는 주요 원인으로 지목됩니다.
주장인공지능 모델의 성능을 측정하는 평가 과정이 새로운 컴퓨팅 병목 현상으로 부상하고 있습니다. 과거에는 모델 학습이 전체 개발 비용의 대부분을 차지했으나, 이제는 복잡한 에이전트 평가와 반복적인 검증 작업이 비용 구조를 압도합니다.
팩트홀리스틱 에이전트 리더보드(HAL)는 9개 모델과 9개 벤치마크를 대상으로 2만1730회의 에이전트 실행을 수행하며 약 4만 달러를 지출했습니다. 가이아(GAIA) 벤치마크의 경우, 최신 모델을 한 번 실행하는 데 캐싱 비용을 제외하고도 2829달러가 소요됩니다.
교차검증과거 헬름(HELM) 벤치마크 연구에서는 컴퓨팅 자원을 100배에서 200배 줄여도 모델 순위 변동이 미미하다는 사실을 확인했습니다. 이를 통해 저비용 평가를 먼저 수행하고 상위 후보군에만 고해상도 평가를 집중하는 방식이 대안으로 제시됩니다.
팩트과학적 머신러닝 분야의 더 웰(The Well) 벤치마크는 새로운 아키텍처 하나를 평가하는 데 960시간의 H100 그래픽처리장치(GPU) 시간이 필요합니다. 전체 4개 베이스라인을 모두 검증하려면 총 3840시간의 GPU 자원을 소모해야 합니다.
주장평가 비용이 학습 비용을 추월하는 현상이 발생하며 모델 개발의 효율성을 저해하고 있습니다. 특히 소규모 모델의 경우 개발 주기 전체에서 평가에 투입되는 컴퓨팅 자원이 가장 큰 비중을 차지합니다.
팩트펄리츠 등의 연구에 따르면 엘루서AI의 파이시아(Pythia) 체크포인트 2464개를 평가하는 과정에서 평가 비용이 사전 학습 비용을 넘어설 수 있습니다. 모델이 발전할 때마다 개발자는 반복적으로 평가 비용을 지불해야 하기 때문입니다.
교차검증정적 벤치마크는 데이터셋을 줄여 비용을 절감할 수 있으나, 에이전트 기반 평가는 환경에 따라 결과가 크게 달라지고 노이즈가 많아 기존 압축 기술을 적용하기 어렵습니다.
팩트에이전트 평가 비용은 모델 성능뿐만 아니라 토큰 예산과 환경 설정에 따라 10배 이상 차이가 납니다. 동일한 작업에서도 설정 방식에 따라 비용 효율성이 극명하게 갈리는 구조적 문제가 존재합니다.
주장높은 비용을 지불한다고 해서 반드시 더 나은 평가 결과를 얻는 것은 아닙니다. 일부 연구는 비용 효율적인 대안이 고비용 설정과 유사한 성능을 낸다는 사실을 보여주며, 이는 현재의 평가 방식이 최적화되지 않았음을 시사합니다.
팩트오픈AI의 엠엘이(MLE)-벤치마크는 75개의 캐글 경진대회를 수행하는 데 1800시간의 GPU 시간이 필요합니다. 여기에 고성능 모델의 응용프로그램 인터페이스(API) 호출 비용까지 더해지면 단일 시드당 비용은 더욱 가파르게 상승합니다.
출처허깅페이스 블로그(https://huggingface.co/blog/evaleval/eval-costs-bottleneck)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.