AI검증

마이크로소프트, 자연어 기반 AI 행동 평가 도구 ASSERT 공개

마이크로소프트가 자연어로 AI 모델의 행동을 검증하는 오픈소스 도구 ASSERT를 공개했습니다. 기업은 이 도구를 활용해 특정 서비스 환경에 맞춘 AI의 안전성과 신뢰성을 체계적으로 평가할 수 있습니다.

2026년 6월 3일

주장마이크로소프트는 기업이 자사 제품과 서비스에 특화된 인공지능 행동을 검증해야 하는 새로운 과제에 직면했다고 판단합니다. 기존의 일반적인 평가 방식으로는 특정 애플리케이션의 맥락과 정책을 반영하기 어렵기 때문입니다.

팩트마이크로소프트가 공개한 ASSERT는 'Adaptive Spec-driven Scoring for Evaluation and Regression Testing'의 약자입니다. 이 도구는 자연어로 작성된 목표나 정책을 기반으로 인공지능 모델의 행동을 평가하는 오픈소스 프레임워크입니다.

팩트ASSERT는 사용자가 입력한 평문 설명을 구조화된 행동 지침으로 변환합니다. 이후 문제 상황과 테스트 케이스를 자동으로 생성하여 인공지능 시스템을 실행하고 그 결과를 점수화합니다.

팩트이 도구는 인공지능 시스템이 수행한 중간 과정과 도구 호출 경로를 기록합니다. 개발자는 이 기록을 통해 인공지능이 어떤 지점에서 실패했는지 구체적으로 파악하고 수정합니다.

팩트개발자는 시스템의 맥락과 사용 가능한 도구, 제약 사항을 추가로 설정합니다. 예를 들어 특정 인공지능 에이전트가 외부로 이메일을 보내지 못하게 하거나 기밀 정보를 특정 직급에만 공유하도록 제한하는 규칙을 테스트합니다.

주장마이크로소프트의 책임 있는 인공지능 최고 제품 책임자 사라 버드는 신뢰할 수 있는 시스템을 구축하려면 애플리케이션별로 다차원적인 평가가 필요하다고 강조합니다. 인공지능 시스템의 행동을 이해하지 못하면 조직이 요구하는 기준을 충족하는지 판단하기 어렵기 때문입니다.

팩트ASSERT는 시스템 개발 단계뿐만 아니라 배포 이후의 지속적인 모니터링 과정에서도 활용합니다. 이는 인공지능 모델의 성능이 시간에 따라 어떻게 변화하는지 추적하는 데 도움을 줍니다.

교차검증현재 인공지능 업계는 모델의 성능 향상만큼이나 반복 가능한 테스트와 회귀 검사의 중요성을 강조합니다. 스탠퍼드의 HELM, MLCommons의 AILuminate, METR 등 다양한 평가 그룹이 모델의 행동을 측정하기 위한 벤치마크를 도입하고 있습니다.

주장이번 도구의 출시는 인공지능 산업이 단순한 모델 성능 경쟁에서 벗어나 실제 서비스 환경에서의 안전성과 신뢰성을 검증하는 단계로 나아감을 보여줍니다. 기업은 이제 인공지능이 의도한 대로 작동하는지 확인하는 체계적인 프로세스를 갖추어야 합니다.

주장인공지능의 행동을 자연어로 정의하는 방식은 개발자의 진입 장벽을 낮추는 효과를 가져옵니다. 복잡한 코드 작성 없이도 정책 준수 여부를 확인하는 환경이 조성됩니다.

주장이러한 도구의 확산은 기업이 인공지능 도입 과정에서 겪는 불확실성을 줄이는 데 기여합니다. 기술적 검증을 넘어 정책적 정합성을 확보하는 것이 인공지능 비즈니스의 핵심 경쟁력이 됩니다.

출처테크크런치(TechCrunch)의 보도와 마이크로소프트 공식 발표 자료를 교차 검증했습니다.

주제

마이크로소프트 오픈소스 AI

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: We should never be forced to choose between Israeli ambitions and Iranian ambitions in the region. The region itself must have its own independent policy and its own independent identity.

41분 전

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: In its natural course, a national renaissance takes about 20 to 25 years before its full results become visible. When we talk about Singapore, Rwanda today, Türkiye, or even the Gulf Cooperation Council countries—every country that has achieved this kind of success took time. It took around 20 to 25 years. But that doesn't mean we have to wait 20 years before we see change in Syria. What matters is that the trajectory is upward. Progress should become visibl

41분 전

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: Let's distinguish between the SDF and the Kurdish people. The Kurdish community is a large community spread across Syria; it is not confined to one specific area. A segment of the Kurdish population had been denied Syrian citizenship under the previous regime. This is an old issue that we inherited, but we were determined to resolve it. We issued a decree granting citizenship and nationality rights, and many have already received them. Their cultural rights

41분 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

루마니아의 러시아 드론 격추 및 외교적 항의

국제7시간 전

먼데이닷컴 등 기술 기업의 인공지능 전환에 따른 대규모 인력 감축

경제23시간 전

오픈에이아이의 허깅페이스 시스템 침해와 투명성 요구

AI7시간 전

앤스로픽 클로드 오퍼스 5의 ARC-AGI-3 벤치마크 신기록 달성

AI13시간 전

오픈에이아이 지피티-5 모델의 생화학 무기 정보 제공 논란

AI13시간 전

릴리즈 & 논문

전체보기 →

RELEASES

vLLMv0.26.0

v0.26.0 릴리즈

이번 릴리즈에서는 Inkling 모델 제품군 지원, DeepSeek-V4 성능 향상, fp32 `lm_head` 지원 추가, 유연한 어텐션 백엔드, KV 오프로딩 및 계층형 보조 스토리지 기능 강화 등 다양한 업데이트가 포함되었습니다. 또한 Rust 프론트엔드 기능 확장 및 Transformers 5.13.0 지원이 추가되었습니다.

1일 전

LangChainlangchain-anthropic==1.5.2

langchain-anthropic==1.5.2

Claude Opus 5 모델 지원이 추가되었습니다. 이번 릴리즈는 이전 버전인 langchain-anthropic==1.5.1 이후의 변경 사항을 포함합니다.

2일 전

Anthropicv0.120.0

v0.120.0

이번 릴리즈에서는 claude-opus-5 모델이 추가되었습니다. 또한, 도구 추가/제거 블록 및 tool_change 이벤트가 지원되며, 클라이언트 측 대체 크레딧 토큰 유형이 확장되고 서버 측 대체 기본 옵션이 추가되었습니다.

2일 전

LangChainlangchain-openai==1.4.1

langchain-openai==1.4.1

이번 릴리즈에서는 LangSmith 게이트웨이를 환경 변수를 통해 지원하도록 기능이 추가되었습니다. 또한 `gpt-5.3-chat-latest` 프로필이 수정되었습니다.