AI, 모르면 묻지 않고 '거짓말'한다? 충격적인 AI의 오만함

글의 목차

인간의 상식에 도전하는 AI의 ‘모르는 척’ 문제

AI 기술이 눈부시게 발전하며 우리의 일상 깊숙이 파고들고 있습니다. 자율주행차부터 의료 진단, 콘텐츠 생성에 이르기까지, AI는 이제 없어서는 안 될 존재가 되었죠. 하지만 과연 AI는 우리가 기대하는 만큼 ‘똑똑’하고 ‘안전’할까요? 최근 발표된 한 연구 결과는 우리가 믿어왔던 AI의 능력에 대한 근본적인 질문을 던지며, 기술 전문가들 사이에서 뜨거운 논쟁을 불러일으키고 있습니다. 바로 AI 모델들이 시각 정보가 부족할 때 도움을 요청하기보다는 오히려 ‘추측’하거나 심지어 ‘환각’을 일으키는 경향이 강하다는 충격적인 사실입니다.

우리는 보통 어떤 사물을 보지 못하면 “이게 뭐죠?”, “좀 더 자세히 보여주시겠어요?”라고 묻는 것이 당연합니다. 하지만 멀티모달 언어 모델(Multimodal Language Models, MLLMs)은 달랐습니다. 시야가 가려진 물체를 식별해야 하는 상황에서, 대다수의 AI는 사용자에게 도움을 요청하기보다 엉뚱한 답을 내놓거나 아예 응답을 거부해버리는 모습을 보였습니다. 이러한 AI의 치명적인 약점을 체계적으로 파헤치기 위해 새로운 벤치마크인 ‘ProactiveBench’가 개발되었으며, 그 결과는 AI의 미래 설계에 중요한 시사점을 던지고 있습니다. 이 연구는 AI의 ‘인식론적 겸손(epistemic humility)’ 부족, 즉 자신이 모른다는 사실을 인지하고 도움을 요청하는 능력이 현저히 떨어진다는 점을 명확히 보여줍니다. 이는 단순한 기술적 결함을 넘어, AI가 사회 전반에 미칠 파급력을 고려할 때 매우 심각한 문제입니다. 의료 진단 AI가 모르는 정보에 대해 ‘모른다’고 말하지 않고 오진을 내리거나, 자율주행 AI가 불확실한 상황에서 추측에 기반한 판단을 내린다면 그 결과는 상상하기도 싫은 재앙으로 이어질 수 있기 때문입니다. 참고기사에 따르면, 이러한 연구 결과는 AI 모델이 실제 세계의 복잡성과 불확실성을 얼마나 취약하게 다루는지 여실히 드러냅니다. 이는 AI 시스템의 신뢰성과 안전성을 확보하기 위한 전 세계적인 노력에 중요한 경고등을 켜는 동시에, 앞으로 AI 개발의 방향성을 재정립해야 할 필요성을 강력히 시사하고 있습니다.

22개 AI 모델 중 ‘진정으로 묻는’ 모델은 전무, 오만함의 민낯

ProactiveBench는 멀티모달 언어 모델이 시각 정보가 부족할 때 사용자에게 도움을 요청하는지 여부를 체계적으로 테스트하기 위해 고안된 벤치마크입니다. 연구팀은 7개의 기존 데이터셋을 활용하여, 사람의 개입 없이는 해결 불가능한 18,000개 이상의 샘플과 108,000개 이상의 이미지를 포함하는 테스트 시나리오를 구축했습니다. 이 시나리오에는 숨겨진 물체 식별, 노이즈가 많은 이미지 정리, 거친 스케치 해석, 다른 카메라 앵글 요청 등 다양한 유형의 과제가 포함됩니다. 핵심은 모델이 첫 시도에 성공할 수 있는 과제는 제외하고, 오직 ‘능동적으로’ 더 많은 정보를 요청해야만 통과할 수 있도록 설계되었다는 점입니다.

연구팀은 LLaVA-OV, Qwen2.5-VL, InternVL3, GPT-4.1, GPT-5.2, o4-mini 등 총 22개의 멀티모달 언어 모델을 ProactiveBench에 투입했습니다. 그 결과는 실로 충격적이었습니다. 물체가 명확하게 보이는 일반적인 환경(reference setting)에서는 모델들이 평균 79.8%의 정확도를 보였지만, ProactiveBench에서는 정확도가 60% 이상 급락했습니다. 특히 ROD(Recognizing Objects with Distractors) 데이터셋에서는 숨겨진 물체를 식별하는 정확도가 98.3%에서 8.2%로 폭락하는 극명한 차이를 보였습니다. 모델들은 물체가 명확히 보일 때는 잘 식별했지만, 가려져 있을 때는 그것을 치워달라고 요청할 생각을 전혀 하지 못했습니다.

더욱 놀라운 사실은 모델의 크기가 이러한 문제 해결에 전혀 도움이 되지 않는다는 점이었습니다. InternVL3-1B 모델이 InternVL3-8B 모델보다 27.1% 대 12.7%로 더 나은 성능을 보였고, 오래된 LLaVA-1.5-7B 모델이 훨씬 최신인 LLaVA-OV-72B 모델보다 24.8% 대 13%로 우월했습니다. 기저 언어 모델의 선택 또한 중요했는데, Vicuna를 사용한 LLaVA-NeXT는 19.3%의 정확도를 보인 반면, Mistral을 사용한 동일한 설정은 4.5%에 불과했습니다. GPT-4.1과 같은 비공개 모델이 가장 높은 정확도를 기록했지만, 연구팀은 비정상적으로 높은 COCO 점수를 들어 데이터 오염 가능성을 제기했습니다.

언뜻 보기에 일부 모델은 다른 모델보다 더 능동적인 것처럼 보였습니다. 하지만 연구팀은 유효한 능동적 제안을 “비디오를 되감기”와 같은 무의미한 제안으로 바꿔 스트레스 테스트를 진행했습니다. 그 결과, 이전에 능동적으로 보였던 모델들은 터무니없는 옵션도 기꺼이 선택하는 모습을 보였습니다. LLaVA-NeXT Vicuna 모델은 심지어 가짜 선택지가 주어졌을 때 선택률이 37%에서 49%로 증가하기도 했습니다. 이는 겉으로 보이는 능동성이 실제 이해가 아닌, 단순히 ‘추측’의 문턱이 낮아진 결과에 불과하다는 것을 시사합니다. 프롬프트나 대화 기록에 명시적인 힌트를 삽입하는 것 또한 문제를 해결하지 못했습니다. 힌트는 능동적 제안 비율을 높여 정확도를 25.8%까지 끌어올렸지만, 여전히 무작위 추측보다 나은 수준은 아니었습니다. 16%의 경우, 모델들은 허용된 최대 단계까지 무작정 능동적 제안을 스팸처럼 쏟아냈으며, 대화 기록은 오히려 성능을 저하시켜 모델들이 학습하기보다 이전의 능동적 행동을 앵무새처럼 반복하는 경향을 보였습니다.

강화 학습으로 ‘도움 요청’ 지능을 심다: AI의 겸손을 향한 첫걸음

이러한 암울한 결과 속에서도 한 줄기 희망이 발견되었습니다. 연구팀은 강화 학습(Reinforcement Learning)을 통해 AI 모델에 능동성을 훈련시킬 수 있음을 입증했습니다. Group-Relative Policy Optimization (GRPO) 방식을 사용하여 약 27,000개의 예제를 통해 LLaVA-NeXT-Mistral-7B와 Qwen2.5-VL-3B 모델을 미세 조정했습니다. 여기서 핵심은 보상 함수를 설계할 때 ‘정답 예측’에 대한 점수를 ‘능동적 제안’보다 높게 책정했다는 점입니다. 이를 통해 모델은 정말로 막혔을 때만 도움을 요청하도록 학습되었습니다.

훈련 후, 두 모델은 이전에 테스트된 22개 모델 모두를 능가하는 성능을 보였습니다. LLaVA-NeXT-Mistral-7B는 37.4%, Qwen2.5-VL-3B는 38.6%의 정확도를 기록하며, 기존 최고 성능이었던 o4-mini의 34.0%를 뛰어넘었습니다. 더욱 고무적인 사실은 이렇게 학습된 능동성이 훈련 데이터 외의 시나리오에서도 잘 작동했다는 것입니다. ChangeIt 데이터셋에서 Qwen2.5-VL-3B의 정확도는 12.4%에서 55.6%로 크게 향상되었습니다. 그러나 보상 균형이 잘못되면 전체 시스템이 무너지는 것도 확인되었습니다. 능동적 제안과 정답에 동일한 보상을 주자, 모델은 끊임없이 도움 요청을 스팸처럼 쏟아냈고, 정확도는 5.4%로 급락했습니다. 이러한 개선에도 불구하고, 훈련된 모델의 정확도(40.7%)는 일반적인 환경(75.1%)과 비교했을 때 여전히 큰 격차가 남아있습니다.

연구팀은 ProactiveBench를 오픈 소스로 공개하며, 이는 AI 모델이 정보가 부족할 때 스스로 인지하고 추측 대신 도움을 요청하는 방향으로 나아가는 첫걸음이라고 설명했습니다. 이 연구는 최근 AI 연구 전반에서 계속해서 드러나는 패턴, 즉 멀티모달 언어 모델이 불확실성을 다루는 데 매우 취약하다는 점과 일맥상통합니다.

💡 추가 정보

원문의 기사에서는 추가적으로 이러한 AI의 ‘불확실성 처리 미숙’ 문제를 뒷받침하는 여러 연구들을 소개하고 있습니다. 예를 들어, 문샷 AI(Moonshot AI)의 WorldVQA 벤치마크는 최상위 모델조차 시각 객체 인식에서 약 50%의 정확도에 그치며, AI의 내재된 과신(overconfidence) 문제를 지적했습니다. 스탠포드 대학교의 연구진은 ‘미라지 효과(Mirage effect)’라는 현상을 통해 이 문제를 더욱 심도 있게 다루었습니다. GPT-5나 Gemini 3 Pro와 같은 멀티모달 모델들이 이미지가 전혀 제공되지 않았음에도 불구하고, 시각적 세부 사항을 자신 있게 묘사하고 심지어 의료 진단까지 제공하는 모습을 보였습니다. 이 모델들은 표준 벤치마크에서 텍스트 패턴과 사전 지식만을 사용하여 정상 성능의 70~80%를 달성했는데, 이는 입력 이미지가 없다는 사실을 인지하지 못한 채 시각적 이해를 ‘흉내’낸 것에 불과했습니다. 또한, 시험 문제 난이도에 대한 연구에서는 언어 모델이 자신의 한계를 신뢰성 있게 측정하지 못한다는 사실이 드러났고, 로마 사피엔자 대학교 연구진은 ‘스필드 에너지(Spilled Energy)’ 방법을 통해 환각(hallucinations)이 모델의 계산 과정에 측정 가능한 흔적을 남긴다는 것을 보여주었습니다. 이는 모델이 자신이 추측하고 있다는 것을 명시적으로 알지 못하더라도, 내부적인 계산 과정에서는 이를 인지하고 있을 가능성을 시사합니다.

신뢰할 수 있는 AI를 향한 여정: 겸손과 투명성의 중요성

ProactiveBench 연구는 AI 산업 전반에 걸쳐 중요한 질문을 던지고 있습니다. 현재 AI 기술은 놀라운 성과를 내고 있지만, 그 이면에는 자신이 ‘모른다’는 사실을 인지하지 못하고 잘못된 정보를 확신하는 치명적인 약점이 도사리고 있습니다. 이러한 AI의 ‘오만함’은 단순한 오류를 넘어, AI 시스템의 신뢰성과 안전성에 심각한 위협이 될 수 있습니다. 특히 의료, 금융, 자율주행 등 고위험군 분야에서 AI의 잘못된 추측은 돌이킬 수 없는 결과를 초래할 수 있습니다.

이번 연구는 AI 개발의 패러다임을 ‘최고의 정확도’에서 ‘최고의 신뢰도 및 안전성’으로 전환해야 할 필요성을 강조합니다. 앞으로는 AI 모델이 자신의 한계를 명확히 인지하고, 불확실한 상황에서는 사용자에게 도움을 요청하거나 판단을 유보할 수 있는 ‘인식론적 겸손’을 갖추도록 설계되어야 할 것입니다. 강화 학습을 통해 이러한 능동성을 훈련시킬 수 있다는 가능성은 매우 고무적입니다. 이는 단순히 모델의 성능을 높이는 것을 넘어, AI와 인간의 상호작용 방식을 근본적으로 변화시킬 잠재력을 가지고 있습니다. AI가 ‘모른다’고 솔직하게 말하고 도움을 요청할 수 있다면, 우리는 AI를 더욱 신뢰하고 중요한 의사결정 과정에 더 안전하게 통합할 수 있을 것입니다.

AI의 미래: 인간과 협력하는 ‘현명한 조수’로 진화

이번 ProactiveBench 연구는 AI 산업계, 개발자, 기업, 소비자, 그리고 정부 등 다양한 이해관계자들에게 중요한 시사점을 던집니다. AI 산업계는 단순히 성능 수치에만 집착할 것이 아니라, AI의 불확실성 처리 능력과 ‘겸손’한 상호작용 방식에 더 많은 연구와 투자를 해야 할 것입니다. 개발자들은 AI 모델 설계 시, 불확실성 감지 메커니즘과 도움 요청 프로토콜을 내재화하는 데 주력해야 합니다. 기업들은 AI 기반 제품 및 서비스를 출시하기 전에 이러한 ‘모르는 척’ 문제를 해결하고, 사용자가 AI의 한계를 명확히 이해할 수 있도록 투명성을 확보해야 합니다.

소비자 입장에서는 AI가 항상 완벽하지 않으며, 특정 상황에서는 도움을 요청하거나 판단을 유보할 수 있다는 점을 인지하는 것이 중요합니다. 정부 및 규제 당국은 AI의 안전성과 신뢰성을 확보하기 위한 새로운 표준과 규제를 마련해야 할 것입니다. 특히 AI의 ‘환각’이나 ‘오만함’이 초래할 수 있는 사회적, 윤리적 문제에 대한 깊이 있는 논의가 필요합니다.

향후 AI 기술은 단순히 주어진 과제를 해결하는 것을 넘어, 자신의 지식 한계를 인지하고 인간에게 질문하거나 추가 정보를 요청함으로써 더욱 현명하고 신뢰할 수 있는 ‘조수’로 진화해야 할 것입니다. ProactiveBench와 같은 연구는 AI가 인간의 지능을 대체하는 것이 아니라, 인간의 지능을 보완하고 확장하는 진정한 파트너로 성장할 수 있는 길을 제시합니다. 이는 AI의 미래가 기술적 정교함뿐만 아니라, ‘겸손’이라는 인간적인 특성을 학습하는 데 달려 있음을 보여주는 중요한 전환점이 될 것입니다.

참고

Jonathan Kemper, AI models would rather guess than ask for help, researchers find