AI와 인간이 함께 판단을 내린다면, 결과는 더 나아질 수 있을까요? 인간의 직관과 경험, AI의 계산 능력과 정보처리 속도. 언뜻 보기엔 이 둘의 조합이 시너지를 낼 것 같지만, 실제로는 그렇게 단순하지 않습니다. 어떤 경우에는 오히려 판단이 더 나빠질 수도 있습니다. 그렇다면 과연 ‘언제’ 협업이 효과를 발휘할까요? 2022년 「PNAS」에 실린 마크 스타이버스 교수(UC Irvine) 연구팀의 논문은 이 질문에 수학적으로 답을 제시합니다. 이들은 인간과 AI가 서로의 약점을 보완하는 조건을 베이지안 모델을 통해 정량적으로 분석했습니다. 특히 이미지 분류라는 복잡한 시각 인식 작업을 통해, ‘같이 판단할 때 더 나아지는’ 메커니즘을 밝혀냈습니다.
[베이지안 결합 모델: 불확실성 속에서 판단을 결합하다]
이 연구에서 핵심이 되는 도구는 ‘베이지안 결합 모델(Bayesian combination model)’입니다. 이름이 조금 어렵게 느껴지실 수 있지만, 그 개념은 직관적입니다. 인간과 AI는 동일한 이미지를 보고 각자 판단을 내리지만, 그 판단에는 ‘확신의 정도’가 다릅니다. 베이지안 모델은 바로 이 확신, 즉 불확실성을 수학적으로 고려합니다. 기계는 확률 분포로 모든 선택지에 대한 신뢰도를 출력하고, 인간은 ‘낮음-중간-높음’과 같은 단일 등급으로 자신감을 표현합니다. 이처럼 이질적인 정보를 하나의 공통된 확률 공간으로 바꿔주는 것이 바로 ‘베이지안 방식’의 핵심입니다. 결국 이 모델은 “서로 다른 관점에서 내린 판단을 어떻게 가장 잘 조합할 수 있을까?”라는 문제를 다루고 있습니다.
여기서 사용된 AI 모델들은 ‘합성곱 신경망(Convolutional Neural Networks, CNN)’ 기반입니다. 이는 이미지 인식에 특화된 딥러닝 모델로, 픽셀 단위의 시각 정보를 계층적으로 분석해 패턴을 학습합니다. 이름이 방송사와 같아 헷갈릴 수 있지만, 여기서 CNN은 인공신경망의 한 종류입니다. VGG-19, ResNet152, GoogleNet 등 다양한 구조를 가진 CNN 모델들이 실험에 사용되었습니다.
[서로 다르게 잘할 때, 함께하면 더 강하다]
실험은 16개 범주의 이미지를 대상으로, 사람과 다양한 CNN 기반 AI 모델들이 각각 이미지를 분류하고, 인간은 판단과 함께 자신감 수준도 표시하는 방식으로 진행됐습니다. 연구진은 이 데이터로 인간-인간, AI-AI, 그리고 인간-AI 조합의 성능을 비교했습니다. 핵심은 단순한 정확도 비교가 아니라, 두 판단이 어떻게 다르게 틀리는가를 분석하는 것이었습니다.
예를 들어, 흐릿한 동물 이미지를 보면 인간은 털의 질감을 통해 고양이와 개를 구별할 수 있지만, AI는 그 부분에서 혼동하기 쉽습니다. 반대로, 기계는 매우 작은 시각적 특징을 근거로 정확하게 분류할 수 있지만, 인간은 놓치는 경우도 많습니다. 즉, 각자가 잘하는 영역이 다르기 때문에 이질적인 조합이 오히려 높은 정확도를 만들어냅니다.
실제로 실험 결과는 이를 뒷받침합니다. 인간-AI 조합은 인간-인간이나 AI-AI 조합보다 더 높은 분류 정확도를 보여주었습니다. 단, 조건이 있었습니다. 인간과 AI가 동일한 방식으로 판단할 경우, 즉 서로 비슷하게 실수하는 경우에는 시너지가 거의 나타나지 않았습니다.
좀 더 구체적으로 말하자면, ‘상관관계가 낮다’는 것은 둘의 판단 경향이 서로 독립적이라는 뜻입니다. 예를 들어, 특정 이미지를 놓고 인간은 항상 혼동하지만 AI는 대부분 맞히는 경우, 또는 그 반대의 경우, 이 둘의 판단은 ‘서로 다른 방향으로 틀린다’고 할 수 있습니다. 이런 경우에 둘을 조합하면 한쪽의 약점을 다른 쪽이 보완해 줄 수 있어 전체 성능이 올라갑니다. 반면, 두 판단이 항상 비슷하게 맞고 비슷하게 틀린다면, 결합의 이점은 줄어듭니다.
[서로 다른 관점의 가치는 어디까지 확장될 수 있을까]
이번 연구는 인간-AI 협업이 단순한 ‘정보 더하기’가 아니라 ‘다름을 인정하고 조합하기’에서 진가를 발휘한다는 점을 분명히 보여줍니다. 흥미로운 점은, 인간이 AI보다 정확하더라도, 성능이 낮은 AI와의 조합이 때로는 인간 둘의 조합보다 나은 성과를 낼 수 있다는 사실입니다. 이는 AI의 도입을 평가할 때 단순히 ‘인간보다 나은가’만을 기준으로 삼는 것이 충분하지 않다는 것을 뜻합니다.
물론 이 연구는 어디까지나 통제된 환경에서의 시각 인식 실험이라는 한계를 가집니다. 하지만 결과가 보여주는 시사점은 명확합니다. 인간과 AI가 협업할 때, **정확도보다 중요한 것은 ‘다양한 관점’**입니다. 실수를 하더라도 서로 다르게 실수할 수 있다면, 그 조합은 오히려 더 강력해질 수 있습니다. 앞으로의 AI 설계는 인간을 닮는 것만큼, 인간과 ‘다르게’ 사고하도록 만드는 것도 중요한 전략이 될 수 있겠습니다.
[참고문헌]
Steyvers, M., Tejeda, H., Kerrigan, G., & Smyth, P. (2022). Bayesian modeling of human–AI complementarity. Proceedings of the National Academy of Sciences, 119(11).