AI 모델의 브라우저 보안 취약점 공격 능력 검증
앤스로픽의 클로드 미토스 모델이 브라우저 취약점 공격 수행 능력에서 오픈AI의 GPT-5.5를 큰 폭으로 앞섰습니다. 연구진은 이번 결과가 향후 보안 시스템 설계와 방어 전략의 변화를 요구한다고 분석했습니다.
주장앤스로픽의 클로드 미토스 모델이 실제 브라우저 취약점을 공격하는 능력에서 오픈AI의 GPT-5.5를 크게 앞섰습니다. 연구진은 해당 모델이 숙련된 보안 연구원과 대등한 수준의 공격 수행 능력을 갖췄다고 평가했습니다.
팩트카네기멜론 대학 연구진은 구글의 자바스크립트 엔진인 브이에이트(V8)의 취약점을 활용해 인공지능 에이전트의 공격 능력을 측정하는 벤치마크를 구축했습니다. 브이에이트 엔진은 크롬, 엣지, 노드 제이에스 등 주요 시스템의 핵심 구성 요소로 사용됩니다.
팩트클로드 미토스는 41개의 취약점 중 21개에서 최고 단계인 임의 코드 실행에 성공했습니다. 반면 지피티-5.5는 동일한 테스트에서 단 2개의 취약점만을 최고 단계까지 공략하는 데 그쳤습니다.
팩트클로드 미토스는 인간의 도움 없이 완전 자율 모드에서도 9.55점이라는 높은 점수를 기록했습니다. 지피티-5.5는 동일한 조건에서 4.30점을 기록했습니다.
팩트보안 연구원 이승현 씨는 클로드 미토스가 인간 연구원들이 1년 넘게 해결하지 못한 취약점을 재현했다고 밝혔습니다. 해당 모델은 인간 연구원들이 너무 복잡하다고 판단했던 공격 기법을 스스로 개발하기도 했습니다.
팩트현재 벤치마크는 새로운 취약점을 발견하거나 실제 공격을 위한 무기화 능력을 측정하는 단계까지는 도달하지 못했습니다. 이 연구는 인공지능이 기존에 알려진 보안 결함을 얼마나 효과적으로 활용할 수 있는지에 초점을 맞췄습니다.
교차검증클로드 미토스의 테스트 비용은 약 3만 6,428달러로 지피티-5.5의 약 3,075달러보다 12배가량 높습니다. 이러한 비용 격차는 앞으로 인공지능 모델의 경제성과 상용화 가능성에 대한 의문을 제기합니다.
교차검증연구진은 테스트에 사용된 버그들이 이미 공개된 정보라는 점을 인정했습니다. 따라서 모델이 학습 데이터를 통해 정보를 습득했을 가능성을 완전히 배제할 수는 없습니다.
주장이번 연구는 인공지능이 사이버 보안 분야에서 실질적인 위협이 될 수 있음을 시사합니다. 특히 자율적인 코드 실행 능력은 앞으로 보안 시스템 설계와 방어 전략에 큰 변화를 요구합니다.
출처더 디코더(The Decoder)의 보도와 관련 아카이브(arXiv) 논문, 깃허브(GitHub) 저장소를 교차 검증했습니다. 모든 분석은 연구진에 의해 독립적으로 수행되었습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.