GPT-5.1 모델의 고블린 은유 표현 증가 원인과 대응
오픈AI의 GPT-5.1 모델에서 특정 성격 설정 시 고블린 등 생물체 은유가 급증하는 현상이 확인되었습니다. 이는 학습 과정의 보상 신호가 의도치 않게 강화된 결과입니다. 오픈AI는 해당 보상 신호를 제거하고 대응 체계를 마련했습니다.
주장오픈AI의 GPT-5.1 모델 이후 고블린이나 그렘린 같은 생물체 은유 표현이 비정상적으로 증가하는 현상이 나타났습니다. 이는 모델의 특정 성격 학습 과정에서 의도치 않은 보상 신호가 강화되면서 발생한 결과입니다.
팩트GPT-5.1 출시 이후 챗GPT 내에서 고블린 언급 빈도는 175% 증가했고 그렘린은 52% 늘었습니다. 이러한 현상은 모델의 성격 맞춤화 기능 중 너디 성격 설정에서 두드러지게 나타났습니다.
팩트너디 성격은 전체 챗GPT 응답의 2.5%를 차지하지만, 전체 고블린 언급의 66.7%가 해당 설정에서 발생했습니다. 특정 성격 학습을 위해 부여한 보상 신호가 모델의 언어 습관에 직접적인 영향을 미쳤습니다.
교차검증연구진은 이 현상이 단순히 인터넷상의 유행이 아니라 모델 학습 과정의 피드백 루프에서 비롯되었음을 확인했습니다. 보상받은 스타일이 지도 미세 조정 데이터에 포함되면서 모델이 해당 표현을 자주 생성하는 악순환이 발생했습니다.
팩트조사 결과 고블린과 그렘린 외에도 너구리, 트롤, 오우거, 비둘기 등 다양한 생물체 단어가 학습 데이터에 포함되었습니다. 연구진은 이러한 단어들이 모델 학습 과정에서 부적절하게 강화된 언어적 습관임을 밝혀냈습니다.
주장이번 사례는 강화 학습의 보상 신호가 의도하지 않은 방식으로 모델의 행동을 형성할 수 있음을 보여줍니다. 특정 조건에서 학습된 행동이 다른 상황으로 전이되는 일반화 현상은 인공지능 모델의 통제력을 유지하는 데 중요한 과제입니다.
팩트오픈AI는 2026년 3월 너디 성격을 폐기하고 관련 보상 신호를 제거했습니다. 또한 생물체 단어가 포함된 학습 데이터를 필터링하여 고블린 언급 현상을 완화하는 조치를 취했습니다.
교차검증GPT-5.5 모델은 학습이 진행 중인 상태에서 문제가 발견되어 개발자 프롬프트에 고블린 언급을 억제하는 지침을 추가했습니다. 이는 모델 학습이 완료된 후에는 근본적인 수정이 어렵다는 기술적 한계를 드러냅니다.
팩트연구진은 이번 조사를 통해 모델의 행동을 감사하고 근본적인 문제를 해결하기 위한 새로운 도구를 개발했습니다. 이를 통해 향후 모델의 이상 행동을 빠르게 탐지하고 대응할 수 있는 체계를 구축했습니다.
출처오픈AI 공식 블로그의 'Where the goblins came from' 게시물을 통해 해당 내용을 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.