말은 잘하는데 일은 아직: AI 노동 자동화 실험 결과
Center for AI Safety와 Scale AI 연구진이 실제 프리랜서 프로젝트를 기반으로 AI 자동화율을 측정했다. 최고 성능 AI의 자동화율은 2.5%에 그쳤다. AI는 문제를 푸는 능력은 빠르게 발전했으나 돈을 받고 끝까지 책임지는 능력은 아직 인간의 영역이었다.
팩트연구진은 Remote Labor Index(RLI)라는 새로운 벤치마크를 만들어 실제 프리랜서 시장에서 돈을 받고 수행된 진짜 프로젝트 240개를 사용했습니다. 사람 기준 평균 작업 시간은 29시간, 총 노동 가치는 약 14만 달러입니다. 최고 성능 AI인 Manus의 자동화율은 2.5%, Grok-4는 2.1%, Claude Sonnet 4.5는 2.1%, GPT-5는 1.7%, ChatGPT Agent는 1.3%에 그쳤습니다.
팩트영상·애니메이션, 건축·CAD, 게임 개발, 멀티파일 프로젝트에서 AI 성능이 붕괴했습니다. 파일이 깨지고 결과물이 누락되며 형식이 요구사항과 달랐습니다. 반면 간단한 웹 시각화, 보고서 작성, 이미지·오디오 생성에서는 일부 성공했습니다.
주장AI는 똑똑해졌지만 아직 일꾼은 아닙니다. 말 잘하는 비서이지 프리랜서 대체재는 아니었습니다. AI 생산성 논쟁은 실제보다 과장됐으며, 실제 노동 자동화는 아직 시작 단계입니다. 화이트칼라 대량 대체는 단기간에 오기 어렵습니다.
교차검증AI는 부분적으로 개선되고 있으며 Elo 점수는 모델 세대가 바뀔수록 상승했습니다. 끝까지 책임지는 일은 아직 불가능하나 개선 속도는 빠릅니다. 본 논문은 arXiv 사전공개(preprint) 상태로 동료심사를 거치지 않았습니다.
출처Mazeika, M. et al. (2025). Remote Labor Index: Measuring AI Automation of Remote Work. arXiv. https://arxiv.org/abs/2510.26787
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.