‘이해’의 깊이, 말 알아듣는 AI

AI의 설득력 그다음: ‘이해’의 깊이

전에 언급한 바 있는 Claude 3.5 관련 연구에서는 AI가 금전적 인센티브를 제공받은 인간 설득자보다 더 효과적으로 사람을 설득할 수 있다는 결과가 도출됐습니다. 이는 단순히 언어의 유창성이나 정보 제공 능력을 넘어, AI가 실제 사람의 판단에 실질적 영향을 미칠 수 있는 ‘행위 주체’로 기능할 가능성을 보여준 사례였습니다(잘 쓴 프롬프트가 잘 맞춘다? – AIFocus).

하지만 여기서 한 가지 중요한 질문이 남습니다. “AI는 정말로 사람의 말을 ‘이해’하는 걸까요?” 설득력이 높다는 것이 곧 맥락과 뉘앙스를 올바르게 파악한다는 의미일까요? 이 물음에 답하려는 시도로, 이번에 분석한 스탠퍼드대와 구글 딥마인드의 공동 연구가 있습니다. 이들은 대형언어모델이 발화의 표면적 의미를 넘어 ‘말 속의 의도’를 파악할 수 있는지를 정밀하게 실험하였습니다.

말귀를 넘어 ‘말뜻’을 읽는 LLM

연구진은 인간 대화에서 중요한 역할을 하는 화용론적 추론 능력을 측정하기 위해 ‘Pragmatic Inference Benchmark(PIB)’를 고안했습니다. 여기에는 간접화법, 은유, 조언, 경고 등 사회적 맥락이 깊이 얽힌 1,000여 개의 시나리오가 포함되어 있으며, 단순한 정답 찾기나 문장 생성이 아니라, 상황에 맞는 적절한 해석과 반응을 요구합니다.

GPT-4는 이 테스트에서 인간과 유사한 수준의 추론 능력을 보였고, Claude 역시 대부분 문항에서 높은 정합성과 일관성을 기록했습니다. 이는 전에 언급한 설득력 실험에서 드러난 언어적 역량이 단지 겉모습에 그치지 않고, 의미 추론이라는 더 깊은 층위로 연결될 수 있다는 점을 시사합니다.

하지만 모든 모델이 고르게 잘한 것은 아니었습니다. 예컨대 Gemini는 일부 간접표현에서 혼란을 겪는 모습이 관찰됐고, Claude는 설명 생성 과정에서 다소 일반화된 논리를 제시하는 경향이 있었습니다. 인간 사회의 미묘한 대화 규칙, 예를 들어 “이 방 좀 덥지 않아요?”라는 질문에 내포된 ‘에어컨을 켜달라’는 의도를 정확히 파악하고 반응하는 능력은 아직 완전하지 않습니다.

‘말 알아듣는 AI’ 시대를 맞이하며

앞선 설득력 연구와 이번 화용론 연구를 나란히 놓고 보면, LLM은 이제 단순한 언어 생성기에서 ‘의미 조작자’로 진화하고 있음을 분명히 알 수 있습니다. AI가 단지 말의 껍데기만 흉내 내는 것이 아니라, 말 속에 담긴 목적, 의도, 사회적 기대까지 점점 더 잘 읽어내고 있다는 것입니다.

이는 실생활에서 AI가 차지할 수 있는 역할의 폭을 획기적으로 넓혀줍니다. 교육 상담, 고객 지원, 협상 중재, 심리 코칭 등 고차원적 상호작용이 필요한 분야에서도 LLM의 잠재력을 기대할 수 있습니다. 동시에, AI가 인간의 언어를 잘못 해석하거나 사회적 신호를 오해할 경우 발생할 수 있는 문제도 진지하게 고려해야 합니다.

결국 핵심은, AI가 사람의 말을 더 잘 ‘이해’하고, 사람답게 ‘반응’할 수 있을 때 우리는 진정한 인간-AI 협력 시대를 맞이할 수 있다는 점입니다. 설득력과 이해력, 이 두 축이 함께 자랄 때 비로소 우리는 AI를 언어적 파트너로 받아들일 준비가 되어 있는 셈입니다.

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤