AI 모델, 정보 부족 시 질문 대신 무작위 추측한다
다중 모달 언어 모델은 시각 정보가 불완전할 때 도움을 요청하기보다 무작위로 추측하거나 환각 현상을 보입니다. 연구진은 모델의 능동적 정보 요청 능력을 개선하기 위해 강화 학습을 활용한 대안을 제시했습니다.
주장다중 모달 언어 모델은 시각 정보가 불완전한 상황에서 사용자에게 도움을 요청하기보다 무작위로 추측하거나 환각 현상을 일으킵니다. 이는 인공지능이 자신의 지식 한계를 인지하고 능동적으로 정보를 요구하는 능력이 부족함을 나타냅니다.
팩트연구진은 22개의 다중 모달 모델을 대상으로 '프로액티브벤치(ProactiveBench)'를 통해 성능을 측정했습니다. 해당 벤치마크는 1만 8,000개의 샘플과 10만 8,000개의 이미지를 포함하며, 인간의 입력 없이는 해결이 불가능한 시나리오로 구성했습니다.
팩트일반적인 환경에서 79.8%의 정확도를 보였던 모델들은 정보가 가려진 환경에서 정확도가 60% 이상 하락했습니다. 특히 '알오디(ROD)' 데이터셋에서는 물체가 가려져 있을 때 정확도가 98.3%에서 8.2%로 급감했습니다.
교차검증모델의 규모가 크다고 해서 반드시 더 나은 질문을 하는 것은 아닙니다. 오히려 작은 모델이 큰 모델보다 높은 성능을 보이기도 하며, 이는 모델의 규모보다 학습 방식과 구조가 성능을 결정하는 핵심 요소임을 시사합니다.
팩트일부 모델은 능동적으로 질문하는 것처럼 행동했으나, 무의미한 선택지를 제시했을 때도 이를 선택했습니다. 이는 모델이 상황을 이해하고 질문하는 것이 아니라, 단순히 추측의 범위를 넓힌 것에 불과합니다.
교차검증프롬프트에 힌트를 제공하거나 대화 기록을 활용하는 방식도 근본적인 해결책이 되지 못합니다. 대화 기록을 활용하면 모델이 이전의 행동을 단순히 모방하여 오히려 성능이 저하되는 현상이 발생합니다.
주장강화 학습의 일종인 '그룹 상대 정책 최적화(GRPO)'를 적용하면 모델이 언제 도움을 요청해야 하는지 학습할 수 있습니다. 보상 함수를 정교하게 설계하여 정답을 맞히는 것과 적절한 질문을 하는 것 사이의 균형을 맞추는 작업이 필요합니다.
팩트훈련을 마친 모델들은 기존 22개 모델의 성능을 모두 상회하는 결과를 보였습니다. 다만 보상 체계를 잘못 설정할 경우 모델이 무분별하게 도움을 요청하는 등 성능이 급격히 하락하는 부작용도 확인했습니다.
교차검증스탠퍼드 대학의 최근 연구에 따르면, 인공지능 모델은 이미지가 제공되지 않아도 시각 정보를 설명하거나 진단을 내리는 '신기루 효과'를 보입니다. 이는 모델이 자신의 지식 한계를 인지하지 못하고 과도한 자신감을 보이는 고질적인 문제입니다.
출처더 디코더(The Decoder)의 보도와 프로액티브벤치 연구 보고서를 교차 검증했습니다. 본 내용은 인공지능 모델의 환각 현상과 능동적 정보 요청 능력에 관한 기술적 분석을 담고 있습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.