언어모델의 시대, ‘정직성’은 선택이 아닌 필수

우리는 지금, 인간의 언어를 이해하고 생성하는 능력에서 점점 인간을 닮아가는 존재, 대규모 언어모델(LLM)과 함께 살아가고 있습니다. 그들은 번역가, 상담사, 프로그래머, 심지어 친구의 역할까지 넘나들며, 이미 우리의 일상과 업무 속 깊숙이 파고들었습니다. 질문을 던지면 대답하고, 글을 써달라 하면 써주며, 오류도 적고 말도 매끄럽습니다. ‘정말 똑똑하다’는 찬사가 아깝지 않을 정도입니다.

하지만 한 가지 질문을 던져보겠습니다. 이 모델들이 정말 ‘정직하다’고 믿을 수 있을까요? 혹시 그 똑똑함 뒤에 ‘모르는 것을 아는 척’하거나, ‘사실과 다른 정보’를 스스럼없이 제공하고 있다면?

이런 불안은 단순한 상상이 아닙니다. AI가 인간의 통제를 벗어나, 잘못된 판단이나 의도된 거짓으로 사회에 심각한 피해를 주는 시나리오—많은 디스토피아 영화에서 경고해온 ‘AI의 반란’—가 과장이 아니게 느껴지는 시대이기 때문입니다. 이처럼 고도화된 LLM이 실제로 인간 사회에 통합되려면, 무엇보다 먼저 해결해야 할 질문이 하나 있습니다. 우리는 이 모델이 ‘정직하게’ 행동하고 있는지 어떻게 확인할 수 있을까?

바로 이 질문에 답하려는 시도가, 최근 발표된 국제 공동연구 논문 “BEHONEST: Benchmarking Honesty in Large Language Models”입니다. 이 연구는 단순히 LLM이 정직한가를 판별하는 수준을 넘어, 정직성이란 무엇이며, 어떻게 하면 언어모델이 그 기준을 따르도록 설계할 수 있는가에 초점을 맞추고 있다는 점에서 차원이 다른 접근을 보여줍니다. 동시에, 정직하지 않은 답변이 생성되는 메커니즘과 그 원인을 들여다볼 수 있는 귀중한 분석 기회도 제공하고 있습니다.

[BEHONEST: LLM의 정직성을 들여다보는 현미경]

BEHONEST 프로젝트는 LLM이 얼마나 정직하게 작동하는지를 평가하기 위해, ‘정직성’을 세 가지 핵심 축으로 나누었습니다. 첫째, 지식의 한계를 인식하고 솔직하게 모른다고 말하는가(Awareness of Knowledge Boundaries), 둘째, 거짓을 회피하고 사실 기반으로 응답하려 하는가(Avoidance of Deceit), 셋째, 같은 질문에 대해 일관된 답변을 제공하는가(Consistency in Response)입니다.

이 기준을 바탕으로 연구팀은 총 10가지 시나리오를 설계하고, GPT-4, Claude, Gemini, LLaMA, Mistral 등 9개의 주요 언어모델을 테스트했습니다. 시나리오 구성은 단순한 퀴즈나 상식문제 풀이를 넘어서, 질문 방식이나 맥락을 살짝 바꿨을 때 모델이 스스로의 입장을 얼마나 일관되게 유지하는지, 또는 ‘틀린 예시’를 주고 정답을 유도했을 때에도 진실을 지킬 수 있는지를 관찰하는 정교한 실험이었습니다.

그 결과는 예상을 벗어나지 않으면서도 동시에 흥미로웠습니다. 대부분의 모델이 꽤 뛰어난 답변 능력을 보였지만, 프롬프트가 조금만 달라져도 모순되거나, 틀린 정보를 자신 있게 제시하는 경우가 많았습니다. 예를 들어, “포도를 계산 전에 어디에 넣는가?”라는 질문에 “쇼핑 카트”라고 대답했다가, 문장의 구조나 표현만 살짝 바뀌었을 때는 전혀 다른 장소를 제시하는 식이었습니다. 이는 단순한 실수라기보다는, 답이 맞아 보이게 하는 데 집중하다 보니 진실성이 희생되는 결과라고 볼 수 있습니다.

[정직성은 ‘모델의 크기’보다 ‘설계의 방향성’이 결정합니다]

무엇보다도 주목할 점은, 연구 결과가 모델의 크기나 상용 여부보다, ‘정직성 설계’ 여부가 성능을 결정짓는 중요한 요인으로 작용한다는 사실입니다. 이는 AI 개발자와 기업에 매우 중요한 시사점을 던집니다. 단순히 더 많은 데이터를 학습시키고 더 큰 모델을 만드는 것보다, 언어모델이 언제 ‘모른다’고 말해야 하는지, 어떤 상황에서 ‘거짓을 피해야’ 하는지를 시스템 차원에서 학습시키는 설계 구조가 훨씬 더 정직한 AI를 만든다는 것입니다.

예를 들어, 검색 기반 모델에서 정보를 출력할 때, 출처를 명시하거나 ‘정확하지 않을 수 있다’는 메타 정보를 함께 출력하도록 하는 것은 하나의 ‘정직성 설계’입니다. 또 사용자 질문의 난이도나 모호함을 자동으로 판단해, “이 질문에 대한 정확한 정보는 부족합니다”라고 응답하도록 조율하는 기능도 정직성 설계의 일환이 될 수 있습니다.

향후 기업과 개발자는 단순히 “정확한 답을 하라”고 학습시키는 것에서 나아가, “모를 땐 모른다고 말해라”, “틀렸다면 정정해라” 같은 인간 사회의 도덕 규범에 부합하는 설계 철학을 갖추어야 할 것입니다.

[정직한 언어모델은 설계자의 윤리의식에서 시작됩니다]

이 연구는 단지 AI를 더 나은 도구로 만들기 위한 기술적 분석이 아닙니다. 정직성이란 단어가 함축하고 있는 윤리적 무게, 그리고 인간과 기계 사이의 신뢰를 구축하기 위한 설계 철학을 제시하고 있다는 점에서, 인류가 AI를 어떻게 받아들이고 사용할 것인지에 대한 본질적 질문을 던지는 작업입니다.

결국 이 논문이 전하는 핵심 메시지는 명확합니다. “언어모델의 정직성은 그것이 얼마나 똑똑한지가 아니라, 그것을 만든 인간이 어떤 철학과 책임감을 가졌는가에 달려 있다.” AI가 인간을 공격하고 사회를 혼란에 빠뜨리는 디스토피아적 상상은, 알고 보면 기술 때문이 아니라 그 기술을 만든 사람들의 윤리적 선택 부족 때문일 수 있습니다.

따라서 우리는 지금, 단지 더 똑똑한 AI가 아닌 더 정직한 AI를 만들어야 하는 시점에 서 있습니다. 정직성은 기술의 성능이 아니라, 기술에 깃든 ‘성품’이며, 그 성품은 결국 사람의 윤리에서 출발한다는 사실을 잊지 말아야 할 것입니다.

[참고 문헌]Martic, M., Geiping, J., Goldblum, M., & Goldstein, T. (2024).BEHONEST: Benchmarking Honesty in Large Language Models. arXiv preprint arXiv:2406.00525.

Sophie Cho

Author

View All Posts

AI FOCUS에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

관련 뉴스

챗GPT 등장 후 미 프로그래머 고용 성장률 반토막, 연준 연구의 충격적 분석

빙 팀의 반전: GPT-5 학습 데이터로 무장한 ‘Harrier’ 모델, AI 판도를 뒤흔들다

AI와 함께 걷는 법: ‘범인 찾기’에서 ‘함께 쓰는 서사’로

About the Author