어린이와 AI의 추론 대결 실험
[AI vs 어린이, 생각의 깊이를 겨루다]
하버드대학교와 MIT의 연구진이 공동으로 발표한 최신 논문 *”Can AI Reason Like Children?”*은 대형 언어 모델(LLM)의 추론 능력을 인간 아동의 인지 발달 수준과 직접 비교하는 흥미로운 실험을 다루고 있습니다. 2025년 6월 17일에 발표된 이 연구는 AI에게 인간의 ‘마음 이론(Theory of Mind)’ 테스트를 적용해, AI가 얼마나 사람처럼 ‘다른 이의 생각’을 추론할 수 있는지를 측정했습니다.
‘마음 이론’은 상대방이 나와는 다른 믿음, 지식, 감정을 가지고 있을 수 있다는 사실을 이해하고, 그 사람의 행동을 예측하는 능력입니다. 이는 사람의 사회적 판단력과 복합적 사고의 핵심인데요, 대체로 3세 전후부터 인간 아이들에게서 이 능력이 나타납니다.
이 실험에서 활용된 대표적인 과제가 바로 ‘샐리-앤(Sally-Anne)’ 테스트입니다. 예를 들어, 샐리가 초콜릿을 바구니에 넣고 방을 나간 사이, 앤이 그것을 장난감 상자로 옮겨 놓습니다. 샐리가 돌아왔을 때, 그녀는 초콜릿을 어디서 찾을까요? 이 문제는 단순한 사실 이해가 아니라, 샐리의 입장에서 ‘그녀가 무엇을 알고 있는가’를 추론해야만 정답(바구니)을 맞힐 수 있습니다. 연구팀은 이와 유사한 문항 36개를 포함한 새로운 AI 벤치마크 ‘ToMi(Theories of Mind inference)’를 설계해 인간과 AI를 동일 조건에서 비교했습니다.
[GPT-4보다 똑똑한 다섯 살?]
실험에는 3세부터 8세까지의 아동, 성인 집단, 그리고 GPT-2부터 최신 GPT-4, Claude Opus, Gemini 1.5 등 다양한 대형 언어 모델들이 참여했습니다. 결과는 명확했습니다. 인간 아이들은 나이가 들수록 점점 정답률이 높아졌으며, 5~6세 이상이 되면 대부분의 문제를 안정적으로 풀어냈습니다. 반면 AI 모델들은 정답률의 일관성이 떨어졌고, 이야기 속 인물의 믿음 상태가 바뀌는 문제에서는 쉽게 혼란에 빠졌습니다.
일부 모델, 특히 GPT-4o는 특정 문항에서는 4세 아동을 넘는 성과를 보이기도 했습니다. 하지만 문제 유형에 따라 성능이 크게 들쭉날쭉했고, 일관되게 사람처럼 추론한다고 보기엔 아직 한계가 뚜렷했습니다. 이는 지금의 AI가 언뜻 보면 문장을 잘 이해하는 것 같지만, 실제로는 ‘이야기 속 인물의 관점’을 구성하고 이해하는 데에는 부족하다는 점을 보여줍니다.
[‘생각하는 AI’를 향한 다음 숙제]
이번 연구는 단순히 AI가 정답을 얼마나 잘 맞히는지를 넘어서, 진정한 ‘생각하는 존재’로 발전하기 위해 무엇이 필요한지를 고민하게 만듭니다. 연구진은 AI가 ‘누가 무엇을 언제 알았는가’를 시간과 정보 변화에 따라 정밀하게 추적하는 능력이 없다면, 마음 이론을 갖췄다고 보기는 어렵다고 말합니다. 결국 이것이야말로 인간이 타인의 행동을 이해하고 예측할 수 있는 비결입니다.
이러한 능력은 고객 응대, 교육, 간병, 협업 등 감정과 관점을 고려해야 하는 응용 분야에서 더욱 중요해지고 있습니다. AI가 상대방의 관점을 오해하거나 추론하지 못한다면, 신뢰를 잃거나 위험한 오작동으로 이어질 수 있습니다. 따라서 기업과 연구자들은 이제 ‘언어를 잘 다루는 AI’를 넘어서, **‘사람처럼 생각을 따라가는 AI’**를 만드는 방향으로 전략을 재정비할 필요가 있습니다.
앞으로는 인간의 인지 발달을 닮은 커리큘럼 학습 방식이나, 정교한 상황 시뮬레이션을 통해 AI가 사회적 추론 능력을 기를 수 있도록 훈련하는 연구가 더욱 중요해질 것입니다. 진정한 AI 협력자를 만들기 위해서는, 단지 말을 잘하는 수준을 넘어서 **‘다른 사람의 생각을 추론하고 예측할 수 있는 능력’**을 갖추는 것이 다음 도전이 될 것입니다.