AI검증

마이크로소프트, AI 에이전트 성능 최적화 기술 SkillOpt 공개

마이크로소프트 리서치가 AI 에이전트의 스킬을 학습 가능한 매개변수로 전환하는 기술인 SkillOpt를 발표했습니다. 모델 가중치 수정 없이도 특정 작업의 정확도를 대폭 향상합니다.

2026년 7월 1일

주장마이크로소프트 리서치는 인공지능(AI) 에이전트의 스킬을 수동으로 수정하는 대신 학습 가능한 매개변수로 전환하는 기술인 SkillOpt를 제안합니다. 이 방식은 모델 가중치를 변경하지 않고도 에이전트의 행동 신뢰성을 확보합니다.

팩트SkillOpt는 6개의 벤치마크, 7개의 타겟 모델, 3개의 실행 모드를 포함한 총 52개의 평가 셀에서 최고 수준의 성능을 기록했습니다. 특히 GPT-5.5 모델을 활용한 직접 채팅 환경에서 6개 벤치마크 평균 점수가 기존 58.8점에서 82.3점으로 23.5점 상승했습니다.

팩트해당 기술은 스프레드시트 벤치마크에서 41.8점에서 80.7점으로, 오피스QA에서는 33.1점에서 72.1점으로 성능을 개선했습니다. 이는 모델 자체를 튜닝하지 않고도 특정 작업에 최적화된 스킬 파일을 생성할 수 있음을 의미합니다.

교차검증기존 에이전트 스킬 관리 방식은 수동 작성이나 일회성 프롬프트 생성에 의존하여 스킬이 무분별하게 길어지거나 성능이 저하되는 한계가 있었습니다. SkillOpt는 검증 게이트와 거부된 편집 피드백을 통해 이러한 스킬 드리프트 현상을 방지합니다.

팩트SkillOpt는 텍스트 공간에서 전방향-역방향-업데이트 주기를 통해 작동합니다. 최적화 모델은 성공적인 궤적과 실패한 궤적을 분석하여 스킬을 수정합니다.

팩트모든 후보 스킬은 검증 세트에서 현재 스킬보다 높은 점수를 기록해야만 채택되는 엄격한 과정을 거칩니다.

팩트최적화된 스킬 파일은 모델 규모나 실행 환경과 관계없이 재사용이 가능합니다. Codex에서 학습한 스프레드시트 스킬을 Claude Code 환경으로 이전했을 때, 별도의 추가 최적화 없이도 베이스라인 성능을 22.1점에서 81.8점으로 높였습니다.

팩트SkillOpt는 소형 모델의 성능을 대형 모델 수준으로 끌어올리는 효과를 보입니다. 40억 개의 매개변수를 가진 Qwen3.5-4B 모델에 SkillOpt를 적용하자 기존 GPT-5.2 모델의 기본 성능을 상회하는 결과를 나타냈습니다.

팩트최종 생성된 스킬 파일인 best_skill.md는 평균 약 920토큰 정도로 유지됩니다. 적은 수의 편집만으로도 높은 성능 향상을 이끌어내며, 오피스QA의 경우 단 한 번의 편집 승인만으로 39.0점의 성능 향상을 기록했습니다.

주장이번 연구는 AI 에이전트의 도메인 적응을 위해 모델 가중치를 미세 조정하거나 복잡한 프롬프트를 수동으로 튜닝하는 방식에서 벗어납니다. 대신 버전 관리가 가능하고 감사할 수 있는 자연어 스킬 계층을 학습시키는 새로운 경로를 제시합니다.

주장SkillOpt는 AI 에이전트 개발 과정에서 효율성과 투명성을 동시에 확보할 수 있는 대안이 됩니다. 향후 다양한 산업 현장에서 에이전트의 작업 숙련도를 높이는 핵심 기술로 활용될 전망입니다.

출처마이크로소프트 리서치 공식 블로그(https://www.microsoft.com/en-us/research/blog/skillopt-agent-skills-as-trainable-parameters/)를 통해 해당 기술의 성능 지표와 작동 원리를 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

OSINT Team Blog

Built for the Public, Failing the Analyst: LLM Guardrails in OSINT Intel Work

2일 전

OSINT Team Blog

Human Trafficking OSINT Needs Governance Controls, Not More Clues — AI-assisted OSINT does not fail only when analysts miss signals. It also fails when signals become claims faster than the evidence can…Continue reading on OSINT Team »

2일 전

OSINT Team Blog

Race Condition Vulnerability: How to Find It, Test It, and Report It — I was testing a fintech app a few months ago. The app had a referral bonus feature. Every time you referred a friend, you earned 50 points…Continue reading on OSINT Team »

2일 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

엔비디아 추론 소프트웨어, 토큰당 비용 절감 효과 입증

AI2시간 전

앤스로픽의 과학 연구용 인공지능 클로드 사이언스 출시

AI2시간 전

앤스로픽의 클로드 사이언스 출시 및 기술 산업 현황

AI2시간 전

구글 나노 바나나 2 라이트와 제미나이 옴니 플래시 출시

AI2시간 전

챗GPT 글로벌 사용량 증가와 인공지능 대중화 현황

AI2시간 전

릴리즈 & 논문

전체보기 →

RELEASES

meta-llama/llama-stackv0.5.4

v0.5.4

이번 패치 릴리스는 OCI 종속성 수정 및 현재 `ogx-ai/ogx` 리포지토리에서 게시하는 데 필요한 릴리스 워크플로우 수정을 포함하여 `release-0.5.x` 버전을 업데이트합니다. OCI 종속성이 선택 사항으로 변경되어 OCI가 아닌 배포판에서 기본적으로 OCI 전용 패키지를 가져오지 않도록 하고, OpenTelemetry 부트스트랩 종속성 충돌을 해결하여 릴리스 0.5 컨테이너 빌드를 안정화했습니다. 또한 레거시 0.5.x 패키지 이름에 대해 현재 `ogx-ai` 리포지토리 소유자로부터 릴리스 게시를 활성화하고, 0.5.x 게시 경로에 대한 릴리스 Docker 이미지에서 API 패키지를 고정했습니다.

4일 전

LangChainlangchain-anthropic==1.4.8

langchain-anthropic==1.4.8

이번 릴리즈에서는 Anthropic 관련 기능이 업데이트되었습니다. `content_block_start` 이벤트 발생 시 초기 텍스트를 유지하도록 수정되었으며, `ValueError` 발생 시 메시지가 추가되었습니다. 또한, `langgraph-checkpoint` 라이브러리 버전이 4.1.0에서 4.1.1로 업데이트되었습니다.

4일 전

meta-llama/llama-stackv0.5.3

v0.5.3

OpenTelemetry 부트스트랩 종속성 충돌을 허용하여 릴리스-0.5.x 컨테이너 빌드 문제를 해결했습니다. OCI 종속성 처리를 릴리스 브랜치에 국한하여 광범위한 종속성 변경 없이 다운스트림 빌드를 차단 해제할 수 있도록 했습니다.

4일 전

mistralai/mistral-commonv1.11.5

v1.11.5: Hotfix encoding only two consecutive images

What's Changed Fix multiimage content ordering by @juliendenize in https://github.com/mistralai/mistralcommon/pull/25

5일 전

LangChainlangchain-fireworks==1.4.3

Changes since langchainfireworks==1.4.2 release(fireworks): 1.4.3 chore: bump vcrpy from 8.1.1 to 8.2.1 in /libs/partne

5일 전