MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 3일 수요일

AI 시대, 당신을 더욱 스마트하게

AI검증

마이크로소프트, 자연어 기반 AI 행동 평가 도구 ASSERT 공개

마이크로소프트가 자연어로 AI 모델의 행동을 검증하는 오픈소스 도구 ASSERT를 공개했습니다. 기업은 이 도구를 활용해 특정 서비스 환경에 맞춘 AI의 안전성과 신뢰성을 체계적으로 평가할 수 있습니다.

2026년 6월 3일

주장마이크로소프트는 기업이 자사 제품과 서비스에 특화된 인공지능 행동을 검증해야 하는 새로운 과제에 직면했다고 판단합니다. 기존의 일반적인 평가 방식으로는 특정 애플리케이션의 맥락과 정책을 반영하기 어렵기 때문입니다.

팩트마이크로소프트가 공개한 ASSERT는 'Adaptive Spec-driven Scoring for Evaluation and Regression Testing'의 약자입니다. 이 도구는 자연어로 작성된 목표나 정책을 기반으로 인공지능 모델의 행동을 평가하는 오픈소스 프레임워크입니다.

팩트ASSERT는 사용자가 입력한 평문 설명을 구조화된 행동 지침으로 변환합니다. 이후 문제 상황과 테스트 케이스를 자동으로 생성하여 인공지능 시스템을 실행하고 그 결과를 점수화합니다.

팩트이 도구는 인공지능 시스템이 수행한 중간 과정과 도구 호출 경로를 기록합니다. 개발자는 이 기록을 통해 인공지능이 어떤 지점에서 실패했는지 구체적으로 파악하고 수정합니다.

팩트개발자는 시스템의 맥락과 사용 가능한 도구, 제약 사항을 추가로 설정합니다. 예를 들어 특정 인공지능 에이전트가 외부로 이메일을 보내지 못하게 하거나 기밀 정보를 특정 직급에만 공유하도록 제한하는 규칙을 테스트합니다.

주장마이크로소프트의 책임 있는 인공지능 최고 제품 책임자 사라 버드는 신뢰할 수 있는 시스템을 구축하려면 애플리케이션별로 다차원적인 평가가 필요하다고 강조합니다. 인공지능 시스템의 행동을 이해하지 못하면 조직이 요구하는 기준을 충족하는지 판단하기 어렵기 때문입니다.

팩트ASSERT는 시스템 개발 단계뿐만 아니라 배포 이후의 지속적인 모니터링 과정에서도 활용합니다. 이는 인공지능 모델의 성능이 시간에 따라 어떻게 변화하는지 추적하는 데 도움을 줍니다.

교차검증현재 인공지능 업계는 모델의 성능 향상만큼이나 반복 가능한 테스트와 회귀 검사의 중요성을 강조합니다. 스탠퍼드의 HELM, MLCommons의 AILuminate, METR 등 다양한 평가 그룹이 모델의 행동을 측정하기 위한 벤치마크를 도입하고 있습니다.

주장이번 도구의 출시는 인공지능 산업이 단순한 모델 성능 경쟁에서 벗어나 실제 서비스 환경에서의 안전성과 신뢰성을 검증하는 단계로 나아감을 보여줍니다. 기업은 이제 인공지능이 의도한 대로 작동하는지 확인하는 체계적인 프로세스를 갖추어야 합니다.

주장인공지능의 행동을 자연어로 정의하는 방식은 개발자의 진입 장벽을 낮추는 효과를 가져옵니다. 복잡한 코드 작성 없이도 정책 준수 여부를 확인하는 환경이 조성됩니다.

주장이러한 도구의 확산은 기업이 인공지능 도입 과정에서 겪는 불확실성을 줄이는 데 기여합니다. 기술적 검증을 넘어 정책적 정합성을 확보하는 것이 인공지능 비즈니스의 핵심 경쟁력이 됩니다.

출처테크크런치(TechCrunch)의 보도와 마이크로소프트 공식 발표 자료를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

microsoft/semantic-kernelpython-1.43.0

Python 1.43.0

이번 릴리즈에서는 Python 함수 호출 시 매개변수 일관성이 개선되었습니다. 또한, OpenAPI 문서 파싱 옵션이 변경되어 이전 버전과 호환되지 않을 수 있습니다. CI 파이프라인의 Python 테스트 커버리지 워크플로우도 강화되었습니다.

34분 전

OpenAIv2.41.0

v2.41.0

이번 릴리즈에서는 API에 responses.moderation 및 chat_completions.moderation 기능이 추가되었습니다. 자세한 변경 사항은 전체 변경 로그를 참고하시기 바랍니다.

34분 전

LangChainlangchain-deepseek==1.1.0

langchain-deepseek v1.1.0

이번 릴리즈에서는 Deepseek 파트너 라이브러리의 여러 종속성 업데이트와 함께 모델 프로필 데이터가 갱신되었습니다. 또한, Azure 엔드포인트 탐지를 위한 URL 파싱 방식이 개선되었으며, 특정 함수 딕션이 주어졌을 때 Azure 배포의 Tool Choice가 'required'로 설정되도록 수정되었습니다.

4시간 전

Transformersv5.10.1

릴리즈 v5.10.1

이전 릴리즈 v5.10.0이 손상된 브랜치에 게시되어 롤백되었습니다. 이번 릴리즈에서는 Gemma 4 12B Unified, Sapiens2, DeepSeek-OCR-2, Mellum 모델이 추가되었습니다. Gemma 4 비전 풀러는 float16 오버플로우를 방지하기 위해 입력값을 float32로 캐스팅하도록 변경되었습니다.

7시간 전

mistralai/mistral-commonv1.11.2

v1.11.2: from_openai 메서드 개선

get_validator에 대한 테스트 및 docstring이 추가되었습니다. from_openai 메서드가 개선되었습니다.

8시간 전

PAPERS