AI, 규칙을 이해하는 척만 한다?

RELIC 실험이 드러낸 대형 언어 모델의 허점

[AI 추론력 벤치마크 RELIC의 등장]

뉴욕대학교 연구진이 최근 발표한 새로운 벤치마크 RELIC(REcognition of Languages In-Context)은 대형 언어 모델(LLM)의 복잡한 규칙 추론 능력을 정밀하게 측정하기 위해 설계된 실험 도구입니다. RELIC은 인공지능이 처음 접하는 인공 언어의 규칙을 얼마나 잘 이해하고, 설명만으로 그 규칙을 적용할 수 있는지를 평가합니다. 여기서 ‘Recognition’은 단순한 식별을 넘어서, 문맥 속에서 주어진 규칙을 해석하고 그에 따라 판단을 내리는 능력을 뜻합니다. 이는 마치 게임 설명서를 한 번만 읽고도 그 규칙대로 게임을 제대로 진행할 수 있는지를 보는 시험과도 같습니다.

이 연구는 기존의 단순한 정답 맞히기식 테스트를 넘어, AI에게 생소한 문법 규칙을 제시하고 주어진 문자열이 그 규칙에 부합하는지를 판단하게 만듭니다. 사전 학습이나 예시 없이, 오직 설명만으로 추론해야 하기 때문에 ‘제로샷 문법 판별’ 능력을 정밀하게 검증할 수 있습니다. 2025년 6월 16일 발표된 이 논문은, 애플이 최근 지적한 ‘LLM의 추론 한계’ 문제를 실험적으로 재확인하면서도, 향후 개선 가능성도 함께 모색하고 있습니다. 이 실험은 AI가 실제 프로그래밍 코드나 자연어 문장을 분석하는 데 필요한 핵심 추론 능력과 직결된다는 점에서 더욱 중요한 의미를 지닙니다.

binary code, binary, binary system, byte, bits, computer, digital, software, code, developer, software development, programming, binary code, binary, binary, binary, binary, computer, digital, digital, digital, digital, software, software, software, code, code, code, code, code, developer, programming, programming, programming
(Pixabay)

[복잡할수록 덜 생각하는 AI의 역설]

RELIC 벤치마크는 GPT-4.1, o3, DeepSeek-R1, Gemma 등 최신 LLM 8종을 대상으로 실험을 진행했으며, 최대 500개의 문법 규칙과 50개 기호 길이의 문자열을 포함하는 RELIC-500 데이터셋을 사용했습니다. 실험 결과는 놀라운 패턴을 드러냈습니다. 간단한 문법과 짧은 문자열에서는 높은 정확도를 보였던 모델들이, 복잡성이 증가할수록 오히려 논리적 추론을 줄이고 피상적인 판단에 의존하는 경향을 보였습니다.

예를 들어, 일부 모델은 규칙을 하나씩 적용해 전체 구조를 분석하는 ‘파스 트리’를 만드는 대신, 단순히 문자열이 길거나 규칙에 나온 기호를 일부 포함한다는 이유만으로 정답을 추정했습니다. 연구팀은 이러한 ‘지름길 전략’을 “underthinking”, 즉 복잡한 문제일수록 덜 생각하는 경향이라고 지적했습니다. 이는 마치 쉬운 수학 문제는 풀이 과정을 쓰면서도, 어려운 문제는 아예 건너뛰고 감으로 답을 찍는 것과 유사한 현상입니다.

특히 GPT-4.1-mini, o3 등의 모델은 문자열 길이가 6~12개를 넘어서면 내부 추론 단계 수가 줄어드는 경향을 보였습니다. 이처럼 난이도가 높아질수록 오히려 추론 활동이 감소하는 현상은, 최근 애플 연구진이 언급한 ‘LLM의 추론 한계’와 정확히 일치합니다. 원래는 문제 난이도가 올라가면 더 많은 사고와 계산이 필요해야 하지만, 현재 모델들은 복잡한 문제 앞에서 오히려 추론을 축소하거나 생략하는 방식으로 대응하고 있다는 것입니다. RELIC은 이 같은 한계를 단순한 게임 형식이 아닌, 실제 적용 가능한 규칙 시스템 추론을 통해 정밀하게 드러냅니다.

[복잡한 추론을 위한 다음 도전]

이 연구는 단순히 현재의 LLM이 부족하다는 비판에 머물지 않고, 해결책의 방향도 함께 제시하고 있습니다. 연구진은 향후 AI가 복잡한 규칙과 지시사항을 제대로 이해하고 따르기 위해선 크게 두 가지 전략이 필요하다고 봅니다. 하나는 더 많은 ‘추론 계산 자원(test-time compute)’을 투입하는 방식이고, 다른 하나는 보다 효율적이고 체계적인 추론 전략을 새롭게 설계하는 것입니다.

이는 특히 교육용 AI, 법률 문서 분석, 프로그래밍 언어 이해 등 규칙 기반 고난도 작업에 AI를 활용하고자 하는 업계에 중요한 시사점을 제공합니다. 단순 정보 검색이 아닌, 복잡한 맥락 추론이 핵심인 응용 분야에서는 지금의 LLM만으로는 한계가 분명하다는 경고로 받아들여질 수 있습니다.

그럼에도 연구진은 이 결과가 LLM의 실패를 뜻하는 것은 아니라고 강조합니다. LLM이 ‘추론을 하지 못한다’는 것이 아니라, ‘복잡한 추론을 할 만큼 충분히 설계되지 않았다’는 것이며, 이는 앞으로 더 나은 모델 개발로 극복할 수 있는 도전 과제라고 평가하고 있습니다. RELIC은 바로 그 개선의 방향을 제시하는 나침반이라 할 수 있습니다.

New study supports Apple’s doubts about AI reasoning, but sees no dead end

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤