AI미검

말은 잘하는데 일은 아직: AI 노동 자동화 실험 결과

Center for AI Safety와 Scale AI 연구진이 실제 프리랜서 프로젝트를 기반으로 AI 자동화율을 측정했다. 최고 성능 AI의 자동화율은 2.5%에 그쳤다. AI는 문제를 푸는 능력은 빠르게 발전했으나 돈을 받고 끝까지 책임지는 능력은 아직 인간의 영역이었다.

2026년 1월 13일

팩트연구진은 Remote Labor Index(RLI)라는 새로운 벤치마크를 만들어 실제 프리랜서 시장에서 돈을 받고 수행된 진짜 프로젝트 240개를 사용했습니다. 사람 기준 평균 작업 시간은 29시간, 총 노동 가치는 약 14만 달러입니다. 최고 성능 AI인 Manus의 자동화율은 2.5%, Grok-4는 2.1%, Claude Sonnet 4.5는 2.1%, GPT-5는 1.7%, ChatGPT Agent는 1.3%에 그쳤습니다.

팩트영상·애니메이션, 건축·CAD, 게임 개발, 멀티파일 프로젝트에서 AI 성능이 붕괴했습니다. 파일이 깨지고 결과물이 누락되며 형식이 요구사항과 달랐습니다. 반면 간단한 웹 시각화, 보고서 작성, 이미지·오디오 생성에서는 일부 성공했습니다.

주장AI는 똑똑해졌지만 아직 일꾼은 아닙니다. 말 잘하는 비서이지 프리랜서 대체재는 아니었습니다. AI 생산성 논쟁은 실제보다 과장됐으며, 실제 노동 자동화는 아직 시작 단계입니다. 화이트칼라 대량 대체는 단기간에 오기 어렵습니다.

교차검증AI는 부분적으로 개선되고 있으며 Elo 점수는 모델 세대가 바뀔수록 상승했습니다. 끝까지 책임지는 일은 아직 불가능하나 개선 속도는 빠릅니다. 본 논문은 arXiv 사전공개(preprint) 상태로 동료심사를 거치지 않았습니다.

출처Mazeika, M. et al. (2025). Remote Labor Index: Measuring AI Automation of Remote Work. arXiv. https://arxiv.org/abs/2510.26787

주제

AI 규제

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Argentina's President Javier Milei on Europe: They faced a demographic and pension problem, they opened the door through multiculturalism, and then people came in. We don't have a problem with immigration. In fact, Argentina is a country built by immigrants. If you have a welfare state, people can come to take advantage of benefits paid for by Argentine taxpayers. If those who arrive don't adapt to your culture, then it isn't immigration anymore—it's an invasion.

2시간 전

TELEGRAM · Clash Report

Two tankers carrying 3 million barrels of Saudi crude successfully exited the Red Sea over the weekend despite the Houthis' maritime embargo. However, shipping through both the Bab el-Mandeb and Strait of Hormuz slowed as tanker attacks continued, with some vessels rerouting around Africa or switching off their tracking systems. Source: Reuters

2시간 전

TELEGRAM · Clash Report

European Commission President Ursula von der Leyen said the EU "must do more" to strengthen its borders, telling Spanish Prime Minister Pedro Sánchez that Brussels would continue supporting Spain in tackling illegal migration. "We could enhance border management early-warning systems and improve our technical and financial support to Morocco," she wrote, referring to cooperation on Ceuta and Melilla. Source: Reuters

2시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

우크라이나 드론 공격에 따른 러시아 민간인 8명 사망

국제22시간 전

영국 중앙은행, EDMC 신임 의장단 선임

경제7시간 전

로보택시 산업의 규제 갈등과 글로벌 시장 동향

AI22시간 전

수면 데이터 기반 질병 위험 예측 파운데이션 모델 개발

AI7시간 전

샘 올트먼의 인공지능 개발 속도 조절론과 보안 체계 강화

AI13시간 전

릴리즈 & 논문

전체보기 →

RELEASES

TensorRTv1.3.0rc23

v1.3.0rc23 릴리즈

이번 릴리즈에서는 DeepSeek V4 혼합 정밀도 NVFP4 체크포인트 로딩, Gemma4 K=V 레이어 W4A8 체크포인트 로딩 지원 등 모델 지원이 강화되었습니다. 또한, VisualGen 모델에 대한 비대칭 TP 선형 구현, 멀티 프로세스 HTTP 프론트엔드 지원 등 API 개선이 이루어졌습니다. GPT-OSS 및 GLM-5의 Python KV-캐시 트랜시버 기본값 설정, MiniMax-M3 MSA 희소 어텐션 백엔드 추가 등 다양한 기능이 추가되었으며, 여러 버그 수정 및 성능 최적화가 포함되었습니다.

2일 전

OpenAIv2.52.0

v2.52.0

이번 릴리즈에서는 API에 콘텐츠 출처 확인 기능이 추가되었습니다. 또한, 클라이언트에서 Retry-After 지연 시간을 최대 2분까지 지원하도록 수정되었으며, API 키 mTLS HTTP 클라이언트 레시피 관련 문서가 업데이트되었습니다.

3일 전

OpenAIv2.51.0

v2.51.0

이번 릴리즈에서는 API에 fast tier 기능이 추가되었습니다. 또한, 해당 fast tier 기능이 헬퍼 메서드에도 적용되었습니다.

4일 전

LangChainlangchain-core==1.5.3

langchain-core==1.5.3

langchain-core 1.5.3 릴리즈에서는 게이트웨이에서 `LANGSMITH_API_KEY`를 사용하도록 폴백(fallback)하는 수정 사항이 포함되었습니다.