AI 설명은 정말 도움이 될까? 직관과 설명

AI가 사람의 결정을 돕는 시대입니다. 특히 의료, 금융, 채용 등 중요한 결정을 내려야 하는 분야에서 AI는 사람의 판단을 보조하는 역할을 맡고 있습니다. 그런데 여기엔 중요한 전제가 하나 있습니다. 바로 ‘AI가 왜 그렇게 판단했는지’ 사람이 이해할 수 있어야 한다는 점입니다. 이를 위해 등장한 개념이 바로 설명 가능한 AI(Explainable AI, XAI) 입니다. 예를 들어, “이 지원자는 이력서에서 기술 경력이 많고, 학력이 높기 때문에 채용 대상입니다”라고 설명해주는 AI가 XAI의 예라고 할 수 있습니다.

그런데 과연 이런 설명이 사람의 판단에 실제로 도움이 될까요? 혹시 그 반대로, 사람이 AI의 설명을 ‘그럴듯하다’고 느끼고 무조건 믿어버리는 일은 없을까요? 카네기 멜런 대학교와 마이크로소프트 리서치가 공동 진행한 이번 연구는 이 질문에 정면으로 답하고 있습니다. 논문 제목은 “Understanding the Role of Human Intuition on Reliance in Human-AI Decision-Making with Explanations”, 즉 ‘설명과 직관이 인간-AI 협업에 어떤 영향을 미치는가’입니다.

여기서 말하는 ‘직관’은 단순한 감이 아닙니다. 사람마다 경험, 지식, 패턴 인식에 따라 이미 갖고 있는 ‘내면의 판단 기준’이라고 할 수 있습니다. 예를 들어, 트럭 운전사가 주 55시간을 일한다면 “꽤 많은 수입을 벌겠구나”라고 느끼는 게 바로 그런 직관입니다. 이 연구는 사람들이 AI의 설명을 보면서 이 직관과 어떻게 비교하고, 언제 AI를 믿거나 의심하는지를 실험적으로 분석했습니다.

[두 가지 설명 방식: 숫자냐, 사례냐]

연구진은 실험을 통해 두 가지 AI 설명 방식을 비교했습니다. 하나는 ‘특징 기반 설명(feature-based explanation)’, 다른 하나는 **‘사례 기반 설명(example-based explanation)’**입니다.

특징 기반 설명은 숫자나 그래프를 통해 “이 사람의 나이, 직업, 학력이 이 판단에 얼마나 영향을 미쳤다”는 식으로 설명합니다. 여기에는 흔히 LIME(Local Interpretable Model-agnostic Explanations) 같은 알고리즘이 쓰입니다. 예컨대 “나이 +0.3점, 학력 +0.2점, 성별 -0.1점” 같은 식으로 각 요소의 영향력을 보여줍니다.
사례 기반 설명은 비슷한 과거 사례를 제시합니다. 예를 들어 “이 사람과 비슷한 조건을 가진 두 명이 있었고, 그 중 한 명은 연봉이 5만 달러 이상, 다른 한 명은 미만이었습니다”라는 식입니다. 이를 통해 사용자가 직접 비교하고 판단할 수 있도록 돕습니다.

실험은 총 26명의 참가자와 함께 진행되었습니다. 참가자들은 두 가지 과제—**‘연봉 예측’**과 ‘직업 분류’—를 수행했습니다. 중요한 점은, 참가자들이 단순히 AI가 제공한 정보를 읽는 것이 아니라, AI가 제시한 예측(예: 이 사람은 연봉 5만 달러 이상입니다)과 그 이유(특징 또는 사례 기반 설명)를 보고, 이를 신뢰할지 말지를 판단해 최종 결정을 내리는 구조였습니다. 다시 말해, AI는 결과와 설명을 제공했고, 최종 판단은 사람에게 달려 있었던 실험입니다.

[특징 기반은 과신, 사례 기반은 보완]

그 결과는 꽤 뜻밖이었습니다. 특징 기반 설명(LIME 방식)은 AI가 틀렸을 때 사람도 함께 틀리는 경우가 많았습니다. 설명이 숫자나 그래프 형태로 정교해 보이기 때문에, 사람들이 자신의 직관을 접고 AI 판단을 그대로 수용한 것입니다. 쉽게 말해, “숫자가 있으니 맞겠지”라는 착각이 개입된 것입니다.

반면, 사례 기반 설명은 정반대였습니다. AI가 유사 사례에 대해 잘못된 판단을 내린 경우, 사람들은 이를 신뢰하지 않고 스스로 판단을 달리하는 경향을 보였습니다. 특히 AI가 제시한 두 유사 사례가 모두 틀렸을 때, 사람은 AI의 전체 판단을 불신하고 자신의 직관을 더 신뢰하는 경향이 강하게 나타났습니다.

이 연구는 사람의 판단이 AI의 설명 방식에 따라 어떻게 달라지는지를 세 가지 ‘직관 기반 판단 경로(intuition-driven pathways)’로 정리했습니다.

강한 직관: 스스로 확신이 있는 경우, AI 예측과 달라도 자신의 판단을 유지합니다.
설명 검토: AI가 강조한 특징이나 사례를 자신이 아는 지식으로 비교해 판단을 조정합니다.
AI의 신뢰도 인식: AI가 비슷한 사례에서 오류를 보일 경우, 전체 예측을 의심하게 됩니다.

이 세 가지 경로 모두에서 사례 기반 설명이 더 효과적으로 작동했습니다. 즉, AI가 틀렸을 때도 사람은 이를 ‘걸러낼’ 수 있었고, 자신의 판단을 보완하거나 유지하는 데 도움이 된 것입니다. 반면 특징 기반 설명은 오히려 사람의 판단을 흔들고, 잘못된 예측에 대한 ‘맹목적 수용’을 부추기는 부작용이 있었습니다.

[사람은 사례 속에서 더 똑똑해진다]

흥미로운 점은, 숫자나 그래프 중심의 설명이 ‘더 직관적’이라고 느낀 참가자들이 실제로는 사례 기반 설명에서 더 정확한 판단을 내렸다는 점입니다. 다시 말해, 사람이 ‘편하게 느끼는 것’과 실제로 ‘더 잘 판단하는 것’은 반드시 일치하지 않는다는 사실을 보여줍니다.

이는 사람들이 단일한 숫자나 특정 요소만 강조된 정보보다는, 사례와 같은 종합적이고 맥락이 있는 정보 속에서 더 신중하게 사고하고, 자신만의 직관과 비교하며 판단을 내릴 수 있었기 때문입니다. 예를 들어, 두 개의 유사한 사례를 보고 그 차이를 비교하거나, AI가 틀린 사례를 직접 확인하는 과정을 통해, 사람들은 숫자 기반 설명보다 더 강한 의심과 성찰의 기회를 갖게 되었습니다.

결국 이 연구는 사람이 정량적 근거나 체계적 수치보다는, 다양한 요소가 엮인 구체적 사례를 통해 판단할 때 오히려 더 정확하고 능동적인 사고를 할 수 있다는 점을 실증적으로 보여줍니다. 이는 설명 가능한 AI의 설계가 단순한 정보 제공을 넘어, 사용자의 사고를 유도하고 직관을 자연스럽게 활용할 수 있도록 돕는 방향으로 나아가야 한다는 중요한 시사점을 담고 있습니다.

[설명도 ‘사용자 친화적’이어야 합니다]

이번 연구는 단지 설명 방식의 차이를 비교한 것에 그치지 않습니다. AI가 인간과 협업하는 환경에서는 ‘어떻게 설명할 것인가’가 결정적인 영향을 미친다는 것을 보여줍니다. 단순히 “이유를 알려주면 더 잘 판단할 것이다”라는 가정이 통하지 않는다는 이야기입니다.

흥미로운 점은, 숫자로 된 설명이 ‘더 직관적’이라고 느낀 참가자들이 실제로는 사례 기반 설명에서 더 나은 판단을 내렸다는 점입니다. 다시 말해, 사람이 ‘편하게 느끼는 것’과 ‘실제로 잘 판단하는 것’은 다를 수 있으며, 이는 설명 설계에서 매우 중요한 포인트가 됩니다.

앞으로 XAI 기술을 도입하려는 기업과 조직은 단지 모델 성능뿐만 아니라, 설명이 실제로 사용자의 직관과 어떻게 상호작용하고 있는지, 그리고 그 설명이 사용자의 판단을 보완할 수 있는 구조인지까지 세심하게 설계해야 합니다. 사용자 중심의 설명 설계가 곧 AI 신뢰도와 효과성의 핵심이 되는 시대입니다.

[참고 자료]Liao, Q. V., Bansal, G., Tan, C., & Weld, D. S. (2023). Understanding the Role of Human Intuition on Reliance in Human-AI Decision-Making with Explanations. arXiv:2301.07255v3.

Sophie Cho

Author

View All Posts

AI FOCUS에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

관련 뉴스

챗GPT 등장 후 미 프로그래머 고용 성장률 반토막, 연준 연구의 충격적 분석

빙 팀의 반전: GPT-5 학습 데이터로 무장한 ‘Harrier’ 모델, AI 판도를 뒤흔들다

AI와 함께 걷는 법: ‘범인 찾기’에서 ‘함께 쓰는 서사’로

About the Author