우리는 이제 인공지능, 특히 대규모 언어 모델(LLM)과 함께 살아가는 시대에 접어들었습니다. 마치 인간과 대화하듯 질문하고, 복잡한 정보를 요약하거나, 창의적인 글쓰기를 요청하는 일은 더 이상 낯설지 않습니다. 하지만 이 놀라운 기술에도 여전히 풀리지 않는 숙제가 하나 있습니다. 바로 챗봇에게 같은 질문을 조금만 다르게 해도 완전히 다른 답변을 내놓는 현상입니다. 때로는 명쾌한 답을 주다가도, 미묘하게 어조를 바꾸거나 단어를 바꿔 물으면 엉뚱한 소리를 하거나 심지어 오류를 범하기도 합니다.
이러한 현상을 개발자들은 프롬프트 민감성(prompt sensitivity)이라고 부릅니다. 즉, 모델의 성능이나 정확한 답변 제공 능력이 질문을 던지는 방식에 따라 예측 불가능하게 달라지는 것을 의미합니다. 사용자 입장에서는 AI가 마치 ‘변덕’을 부리는 것처럼 느껴질 수 있습니다. 왜 어떤 프롬프트에는 완벽하게 반응하고, 다른 프롬프트에는 헤매는 걸까요? 이처럼 미묘한 차이가 엄청난 결과의 변화로 이어지는 것은 LLM을 실제 서비스에 적용하고 신뢰성 있는 AI를 구축하는 데 있어 큰 걸림돌이 되어왔습니다. 개발자들은 수많은 시행착오를 거쳐 최적의 프롬프트를 찾아야 했고, 사용자들은 AI의 ‘마음’을 읽기 위해 노력해야 했습니다. 이 복잡한 수수께끼를 풀기 위한 심층적인 연구가 최근 진행되었습니다.
이러한 LLM의 예측 불가능한 행동 뒤에 숨겨진 내부 메커니즘을 밝히기 위해, 최근 Zhuonan Yang, Jacob Xiaochen Li, Francisco Piedrahita Velez, Eric Todd, David Bau, Michael L. Littman, Stephen H. Bach, 그리고 Ellie Pavlick 연구팀은 흥미로운 연구를 수행했습니다. 이들 연구진은 LLM의 프롬프트 민감성을 깊이 파고들어, 두 가지 매우 다른 방식의 프롬프트 스타일을 비교 분석했습니다. 하나는 자연어로 작업 내용을 설명하는 지시 기반 프롬프트(instruction-based prompts)였고, 다른 하나는 맥락 내에서 몇 가지 예시 쌍을 제공하여 작업을 시연하는 예시 기반 프롬프트(example-based prompts)였습니다.
연구팀은 모델이 프롬프트에 따라 성능에 큰 차이를 보임에도 불구하고, 실제로는 같은 작업을 수행할 때 서로 다른 프롬프트 전반에 걸쳐 일부 공통된 내부 메커니즘을 활용한다는 사실을 밝혀냈습니다. 특히, 그들은 모델 내부의 어텐션 헤드(attention heads) 중 특정 작업에 특화된 헤드들을 식별했습니다. 이 헤드들은 놀랍게도 모델의 내부에서 작업 내용을 문자 그대로 설명하는(literally describe the task) 역할을 수행했으며, 연구팀은 이를 어휘적 작업 헤드(lexical task heads)라고 명명했습니다.
결정적으로, 이 어휘적 작업 헤드는 프롬프트 스타일에 관계없이 공유되었으며, 이 헤드들이 활성화될 때 모델이 다음 답변을 생성하기 시작한다는 점이 관찰되었습니다. 이는 마치 모델이 어떤 작업을 수행해야 하는지 내부적으로 ‘이해’하고, 그 이해를 바탕으로 답변을 구성한다는 것을 시사합니다. 더욱 흥미로운 점은, 프롬프트 간의 행동적 변화(behavioral variation), 즉 특정 프롬프트에서 모델의 성능이 더 좋거나 나쁜 이유가 바로 이 어휘적 작업 헤드들의 활성화 정도로 설명될 수 있다는 사실이었습니다. 이 헤드들이 강하게 활성화될수록 모델은 해당 작업을 더 잘 수행하는 경향을 보였습니다.
또한, 모델이 특정 프롬프트에서 실패하는 원인 중 적어도 일부는 경쟁하는 작업 표현(competing task representations) 때문이라는 점도 밝혀졌습니다. 이는 모델이 여러 가지 작업에 대한 내부적 ‘개념’을 동시에 가지고 있는데, 특정 프롬프트가 모호하거나 혼란스러울 경우, 목표 작업에 대한 명확한 신호가 다른 불필요한 작업 표현들에 의해 희석되어버릴 수 있다는 것을 의미합니다. 이러한 발견들은 LLM의 내부 표현이 사용자나 개발자에게는 다소 변덕스럽게 보였던 행동들을 어떻게 설명할 수 있는지에 대한 점점 더 명확한 그림을 제시합니다.
이 연구 결과는 대규모 언어 모델의 ‘블랙박스’ 내부를 들여다보는 중요한 통찰을 제공합니다. 단순히 프롬프트 엔지니어링의 팁을 넘어서, LLM이 정보를 처리하고 작업을 수행하는 근본적인 방식에 대한 이해를 높였습니다. 어휘적 작업 헤드의 발견은 모델의 내부 상태와 외부 행동 사이의 직접적인 연결 고리를 제시하며, 이는 LLM의 해석 가능성(interpretability)을 크게 향상시킬 수 있습니다. 이제 우리는 모델이 왜 특정 방식으로 행동하는지, 어떤 내부 요소가 성공과 실패를 결정하는지 보다 구체적으로 추적할 수 있는 단서를 얻게 된 것입니다.
이러한 이해는 향후 LLM 개발과 활용에 있어 광범위한 파급력을 가질 것입니다. 예를 들어, 프롬프트 엔지니어는 더 이상 무작정 다양한 프롬프트를 시도하는 대신, 모델 내부의 어휘적 작업 헤드의 활성화 패턴을 분석하여 어떤 프롬프트가 모델의 ‘의도’와 가장 잘 부합하는지 진단하고 개선할 수 있게 될 것입니다. 나아가, 모델 설계자들은 특정 작업을 더 잘 수행하도록 이 어휘적 작업 헤드를 명시적으로 강화하거나, 경쟁하는 작업 표현이 발생하는 것을 줄이는 방향으로 모델 아키텍처를 최적화할 수 있을 것입니다. 이는 결국 더욱 견고하고, 예측 가능하며, 사용자 의도에 덜 민감한 LLM을 만드는 데 기여할 것입니다. 이 연구는 AI가 어떻게 ‘생각’하는지에 대한 인류의 오랜 궁금증에 한 발짝 더 다가선 중요한 진전이라 할 수 있습니다.
결국 이 연구는 대규모 언어 모델이 단순히 입력된 텍스트를 통계적으로 처리하는 것을 넘어, 내부적으로 특정 작업을 ‘인지’하고 ‘표현’하는 복잡한 메커니즘을 가지고 있음을 보여줍니다. 우리가 AI와 상호작용하며 겪는 수많은 시행착오와 때로는 답답함의 이면에, 나름의 논리적인 내부 구조가 존재한다는 사실은 우리에게 큰 통찰을 줍니다. 이는 AI가 때때로 예측 불가능하게 느껴질지라도, 그 행동에는 과학적인 설명이 가능하다는 희망을 제시합니다.
앞으로 우리는 이러한 내부 메커니즘에 대한 이해를 바탕으로, 더욱 직관적이고 신뢰할 수 있는 AI 시스템을 구축할 수 있을 것입니다. 사용자는 AI의 ‘마음’을 더 잘 이해하고, 개발자는 AI의 ‘뇌’를 더 정교하게 설계할 수 있게 되는 것이죠. 이처럼 LLM의 행동을 설명하는 내부 표현에 대한 연구는 AI 기술의 다음 단계를 열어갈 핵심 열쇠가 될 것입니다. 앞으로 AI가 우리 삶에 더욱 깊이 통합되면서, 이러한 심층적인 이해는 필수적인 요소가 될 것입니다.
참고문헌
Yang, Z., Li, J. X., Velez, F. P., Todd, E., Bau, D., Littman, M. L., Bach, S. H., & Pavlick, E. (2026). Shared Lexical Task Representations Explain Behavioral Variability In LLMs. arXiv preprint arXiv:2604.22027. https://arxiv.org/abs/2604.22027
AI FOCUS에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.