앤스로픽 클로드 오퍼스 4.7 출시와 성능 분석
앤스로픽이 클로드 오퍼스 4.7을 출시하며 추론 능력과 시각적 처리 성능을 대폭 강화했습니다. 새로운 토크나이저 도입과 함께 주요 벤치마크에서 업계 최고 수준의 기록을 달성했습니다.
주장앤스로픽의 클로드 오퍼스 4.7은 이전 모델인 4.6과 비교해 모든 차원에서 성능이 진화한 최상위 인공지능 모델입니다. 이 모델은 코딩, 지시 이행, 자가 검증 및 컴퓨터 활용 능력에서 압도적인 우위를 점합니다.
팩트클로드 오퍼스 4.7은 소프트웨어 엔지니어링 벤치마크인 SWE-벤치 프로에서 64.3%의 점수를 기록하며 4.6 대비 11포인트 상승했습니다. 터미널벤치 2.0에서는 69.4%, 문서 추론 능력은 80.6%의 성과를 보였습니다.
팩트시각적 처리 능력 또한 크게 강화되어 최대 2,576픽셀의 고해상도 이미지를 처리합니다. 이는 이전 모델보다 3배 이상 향상된 수치로, 복잡한 다이어그램 분석이나 스크린샷 기반 작업에 최적화된 환경을 제공합니다.
팩트클로드 코드(Claude Code)는 출시 첫날부터 오퍼스 4.7을 지원하며, 새로운 추론 노력 단계인 '엑스하이(xhigh)'를 기본값으로 설정했습니다. 이 모드는 하이(high)와 맥스(max) 단계 사이의 효율성을 제공하도록 설계되었습니다.
팩트아티피셜 애널리시스(Artificial Analysis)의 지디피발(GDPval)-AA 벤치마크 결과, 클로드 오퍼스 4.7은 1위를 차지했습니다. 지피티(GPT)-5.4와의 일대일 대결에서 약 60%의 승률을 기록하며 현존 최고 성능 모델로 평가받습니다.
팩트커서(Cursor)의 내부 벤치마크 결과, 오퍼스 4.7 도입 후 성능은 58%에서 70%로 상승했습니다. 노션(Notion) 또한 내부 평가에서 14%의 성능 향상과 도구 오류 3분의 1 감소를 보고했습니다.
주장업계 전문가들은 이번 모델이 단순한 4.6의 후속작인지, 아니면 새로운 기반 모델인지에 대해 논의하고 있습니다. 토크나이저 변경과 훈련 방식의 변화로 인해 미토스(Mythos) 시스템과 연관된 증류 모델일 가능성도 제기됩니다.
교차검증새로운 토크나이저 도입으로 인해 동일한 입력값이라도 기존 대비 1.0배에서 1.35배까지 토큰 사용량이 증가할 수 있습니다. 앤스로픽은 이러한 비용 증가를 상쇄하기 위해 모든 구독자의 사용 한도를 상향 조정했습니다.
교차검증라마인덱스(LlamaIndex)의 평가에 따르면 차트 해석 능력은 13.5%에서 55.8%로 비약적으로 상승했으나, 레이아웃 처리 능력은 16.5%에서 14.0%로 소폭 하락했습니다. 이는 특정 작업 환경에서 여전히 최적화가 필요함을 시사합니다.
출처레이턴트 스페이스(Latent Space)의 기술 분석 보고서와 앤스로픽, 아티피셜 애널리시스, 라마인덱스의 공식 발표 자료를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.