마이크로소프트, AI 에이전트 성능 최적화 기술 SkillOpt 공개
마이크로소프트 리서치가 AI 에이전트의 스킬을 학습 가능한 매개변수로 전환하는 기술인 SkillOpt를 발표했습니다. 모델 가중치 수정 없이도 특정 작업의 정확도를 대폭 향상합니다.
주장마이크로소프트 리서치는 인공지능(AI) 에이전트의 스킬을 수동으로 수정하는 대신 학습 가능한 매개변수로 전환하는 기술인 SkillOpt를 제안합니다. 이 방식은 모델 가중치를 변경하지 않고도 에이전트의 행동 신뢰성을 확보합니다.
팩트SkillOpt는 6개의 벤치마크, 7개의 타겟 모델, 3개의 실행 모드를 포함한 총 52개의 평가 셀에서 최고 수준의 성능을 기록했습니다. 특히 GPT-5.5 모델을 활용한 직접 채팅 환경에서 6개 벤치마크 평균 점수가 기존 58.8점에서 82.3점으로 23.5점 상승했습니다.
팩트해당 기술은 스프레드시트 벤치마크에서 41.8점에서 80.7점으로, 오피스QA에서는 33.1점에서 72.1점으로 성능을 개선했습니다. 이는 모델 자체를 튜닝하지 않고도 특정 작업에 최적화된 스킬 파일을 생성할 수 있음을 의미합니다.
교차검증기존 에이전트 스킬 관리 방식은 수동 작성이나 일회성 프롬프트 생성에 의존하여 스킬이 무분별하게 길어지거나 성능이 저하되는 한계가 있었습니다. SkillOpt는 검증 게이트와 거부된 편집 피드백을 통해 이러한 스킬 드리프트 현상을 방지합니다.
팩트SkillOpt는 텍스트 공간에서 전방향-역방향-업데이트 주기를 통해 작동합니다. 최적화 모델은 성공적인 궤적과 실패한 궤적을 분석하여 스킬을 수정합니다.
팩트모든 후보 스킬은 검증 세트에서 현재 스킬보다 높은 점수를 기록해야만 채택되는 엄격한 과정을 거칩니다.
팩트최적화된 스킬 파일은 모델 규모나 실행 환경과 관계없이 재사용이 가능합니다. Codex에서 학습한 스프레드시트 스킬을 Claude Code 환경으로 이전했을 때, 별도의 추가 최적화 없이도 베이스라인 성능을 22.1점에서 81.8점으로 높였습니다.
팩트SkillOpt는 소형 모델의 성능을 대형 모델 수준으로 끌어올리는 효과를 보입니다. 40억 개의 매개변수를 가진 Qwen3.5-4B 모델에 SkillOpt를 적용하자 기존 GPT-5.2 모델의 기본 성능을 상회하는 결과를 나타냈습니다.
팩트최종 생성된 스킬 파일인 best_skill.md는 평균 약 920토큰 정도로 유지됩니다. 적은 수의 편집만으로도 높은 성능 향상을 이끌어내며, 오피스QA의 경우 단 한 번의 편집 승인만으로 39.0점의 성능 향상을 기록했습니다.
주장이번 연구는 AI 에이전트의 도메인 적응을 위해 모델 가중치를 미세 조정하거나 복잡한 프롬프트를 수동으로 튜닝하는 방식에서 벗어납니다. 대신 버전 관리가 가능하고 감사할 수 있는 자연어 스킬 계층을 학습시키는 새로운 경로를 제시합니다.
주장SkillOpt는 AI 에이전트 개발 과정에서 효율성과 투명성을 동시에 확보할 수 있는 대안이 됩니다. 향후 다양한 산업 현장에서 에이전트의 작업 숙련도를 높이는 핵심 기술로 활용될 전망입니다.
출처마이크로소프트 리서치 공식 블로그(https://www.microsoft.com/en-us/research/blog/skillopt-agent-skills-as-trainable-parameters/)를 통해 해당 기술의 성능 지표와 작동 원리를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

