"AI에 욕하면 똑똑해진다?"...반박 논문 등장
인공지능에게 무례하게 명령하면 성능이 향상된다는 주장을 뒤집는 연구가 발표됐습니다. 다양한 언어 모델을 교차 검증한 결과, 정중하거나 중립적인 어조를 사용할 때 인공지능이 더 높은 정확도를 보였으며, 특히 인문학처럼 복잡한 추론이 필요한 분야에서는 무례한 어조가 성능을 하락시킨 것으로 나타났습니다.
팩트2025년 10월 아카이브에 공개된 펜실베이니아 주립대 소속 옴 도바리야와 아킬 쿠마르의 '말조심 하세요: 프롬프트의 정중함이 대규모언어모델 정확도에 미치는 영향 조사' 연구에서는 50개 문항으로 ChatGPT-4o에 실험한 결과, 무례한 프롬프트가 정중한 프롬프트보다 더 높은 답변 정확도를 기록한 것으로 나타났습니다.
교차검증2026년 노스웨스턴대, 듀크대, 카네기멜런대, 뉴욕대 소속 연합 연구진은 2026년 아카이브에 공개한 '어조가 답변을 바꾸는가' 논문에서 방대한 데이터셋으로 최신 대형 언어 모델을 교차 검증해 중립적이거나 정중한 프롬프트가 더 우수한 성능을 낸다는 기존 연구와 상반된 결과를 발표했습니다.
주장이전 연구는 평가 문항이 50개에 불과해 일반화에 한계가 있었다는 주장입니다.
팩트한유 차이(노스웨스턴대), 리어 진(듀크대), 빈치 쉔(노스웨스턴대), 란 후(카네기멜런대), 샤오징 판(뉴욕대) 등은 논문에서 GPT-4o mini, Gemini 2.0 Flash, Llama 4 Scout 등 3개 모델을 평가했습니다. 이들은 과학과 인문학 영역을 포괄하는 MMMLU 벤치마크의 6개 작업을 활용해 프롬프트의 어조가 정확도에 미치는 영향을 분석했습니다.
주장분석 결과, 중립적이거나 매우 정중한 프롬프트가 매우 무례한 프롬프트보다 전반적으로 높은 정확도를 기록한 것으로 나타났습니다.
주장연구진은 어조 효과가 특정 영역과 모델에 국한된다는 사실을 규명했습니다. 철학과 전문 법률 등 복잡한 해석과 판단을 요구하는 인문학 작업에서 매우 무례한 어조는 GPT와 Llama 모델의 정확도를 통계적으로 유의미하게 하락시켰습니다. 과학 영역에서는 긍정적 어조 효과가 나타났으나 통계적 유의성은 확보하지 못했습니다.
주장모델별로 어조 변화에 대한 민감도가 달랐습니다. GPT와 Llama 모델은 인문학 분야에서 무례한 어조에 취약성을 보였습니다. 반면 Gemini 모델은 평가된 모든 작업에서 어조 변화에 따른 통계적으로 유의미한 성능 차이를 보이지 않았습니다.
주장여러 주제를 혼합해 질문하는 일반적 상황에서는 사용자의 프롬프트 어조가 인공지능 성능에 미치는 영향이 미미했습니다. 특정 작업에서 나타나는 어조의 영향력은 사용 범위가 넓어질수록 희석됐습니다.
주장연구진이 각 영역 내 개별 작업 성능을 통합해 분석한 결과, 어조에 따른 통계적 유의성은 대부분 사라졌습니다. 현대 대형 언어 모델은 다양한 영역이 혼합된 일반적인 사용 환경에서 프롬프트 어조 변화에 강건하게 대응하는 경향이 있었습니다.
교차검증두 연구 모두 동료평가를 거치지 않은 상태로 일반화에 한계가 있습니다.
출처펜실베이니아 주립대 소속 연구진의 'Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy' 논문과 노스웨스턴대 등 연합 연구진의 'Does Tone Change the Answer? Evaluating Prompt Politeness Effects on Modern LLMs: GPT, Gemini, and LLaMA' 논문을 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.