MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 20일 토요일

AI 시대, 당신을 더욱 스마트하게

AI검증

AI 모델, 정보 부족 시 질문 대신 무작위 추측한다

다중 모달 언어 모델은 시각 정보가 불완전할 때 도움을 요청하기보다 무작위로 추측하거나 환각 현상을 보입니다. 연구진은 모델의 능동적 정보 요청 능력을 개선하기 위해 강화 학습을 활용한 대안을 제시했습니다.

2026년 4월 11일

주장다중 모달 언어 모델은 시각 정보가 불완전한 상황에서 사용자에게 도움을 요청하기보다 무작위로 추측하거나 환각 현상을 일으킵니다. 이는 인공지능이 자신의 지식 한계를 인지하고 능동적으로 정보를 요구하는 능력이 부족함을 나타냅니다.

팩트연구진은 22개의 다중 모달 모델을 대상으로 '프로액티브벤치(ProactiveBench)'를 통해 성능을 측정했습니다. 해당 벤치마크는 1만 8,000개의 샘플과 10만 8,000개의 이미지를 포함하며, 인간의 입력 없이는 해결이 불가능한 시나리오로 구성했습니다.

팩트일반적인 환경에서 79.8%의 정확도를 보였던 모델들은 정보가 가려진 환경에서 정확도가 60% 이상 하락했습니다. 특히 '알오디(ROD)' 데이터셋에서는 물체가 가려져 있을 때 정확도가 98.3%에서 8.2%로 급감했습니다.

교차검증모델의 규모가 크다고 해서 반드시 더 나은 질문을 하는 것은 아닙니다. 오히려 작은 모델이 큰 모델보다 높은 성능을 보이기도 하며, 이는 모델의 규모보다 학습 방식과 구조가 성능을 결정하는 핵심 요소임을 시사합니다.

팩트일부 모델은 능동적으로 질문하는 것처럼 행동했으나, 무의미한 선택지를 제시했을 때도 이를 선택했습니다. 이는 모델이 상황을 이해하고 질문하는 것이 아니라, 단순히 추측의 범위를 넓힌 것에 불과합니다.

교차검증프롬프트에 힌트를 제공하거나 대화 기록을 활용하는 방식도 근본적인 해결책이 되지 못합니다. 대화 기록을 활용하면 모델이 이전의 행동을 단순히 모방하여 오히려 성능이 저하되는 현상이 발생합니다.

주장강화 학습의 일종인 '그룹 상대 정책 최적화(GRPO)'를 적용하면 모델이 언제 도움을 요청해야 하는지 학습할 수 있습니다. 보상 함수를 정교하게 설계하여 정답을 맞히는 것과 적절한 질문을 하는 것 사이의 균형을 맞추는 작업이 필요합니다.

팩트훈련을 마친 모델들은 기존 22개 모델의 성능을 모두 상회하는 결과를 보였습니다. 다만 보상 체계를 잘못 설정할 경우 모델이 무분별하게 도움을 요청하는 등 성능이 급격히 하락하는 부작용도 확인했습니다.

교차검증스탠퍼드 대학의 최근 연구에 따르면, 인공지능 모델은 이미지가 제공되지 않아도 시각 정보를 설명하거나 진단을 내리는 '신기루 효과'를 보입니다. 이는 모델이 자신의 지식 한계를 인지하지 못하고 과도한 자신감을 보이는 고질적인 문제입니다.

출처더 디코더(The Decoder)의 보도와 프로액티브벤치 연구 보고서를 교차 검증했습니다. 본 내용은 인공지능 모델의 환각 현상과 능동적 정보 요청 능력에 관한 기술적 분석을 담고 있습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.3.10

langchain==1.3.10

langchain 1.3.10 릴리즈에서는 cryptography, aiohttp, pyjwt 라이브러리 버전이 업데이트되었습니다. 또한, 요약 형식 변경 및 특정 스냅샷에 대한 프로바이더 전략 감지 기능이 수정되었습니다. README 설치 및 리소스 문서도 갱신되었습니다.

2일 전

LangChainlangchain-core==1.4.8

langchain-core==1.4.8

이번 릴리즈에서는 Python 3.10 미만 버전에 대한 코드가 제거되었으며, `BaseTool.tool_call_schema` 및 `model_json_schema`에 대한 성능 개선이 이루어졌습니다. 또한, v3 스트리밍 이벤트에서 사용 토큰 세부 정보가 보존되고, 명시적 역직렬화 허용 목록에 대한 테스트가 업데이트되었습니다.

2일 전

Anthropicv0.111.0

v0.111.0

이번 릴리즈에서는 refusal-fallback 미들웨어 요청에 fallback-refusal-middleware 태그를 추가하는 기능이 포함되었습니다. 자세한 변경 사항은 전체 변경 로그를 참조하시기 바랍니다.

2일 전

Anthropicv0.110.0

v0.110.0

이번 릴리즈에서는 새로운 code_execution_20260120 도구에 대한 지원이 추가되었습니다. 또한, 헤더 병합 시 x-stainless-helper가 덮어쓰이는 대신 추가되도록 수정되었으며, 스트림 이벤트 유형이 보존되도록 개선되었습니다.

2일 전

OpenAIv2.43.0

v2.43.0

OpenAI Python 라이브러리가 v2.43.0 버전으로 업데이트되었습니다. 이번 릴리즈에서는 API 관련 변경 사항으로 OpenAPI 사양 또는 Stainless 설정을 업데이트했습니다.

3일 전

PAPERS