AI, 투자은행 업무엔 아직 미흡? 500명 전문가의 냉정한 평가

글의 목차

AI의 화려한 약속, 현실의 냉정한 시험대에 오르다

최근 몇 년간 인공지능(AI)은 금융 산업, 특히 투자은행(Investment Banking)과 같은 고도로 전문화된 분야에서 혁신적인 변화를 가져올 것이라는 기대를 한몸에 받아왔습니다. 복잡한 데이터 분석, 보고서 작성, 금융 모델링 등 주니어 뱅커들이 수행하는 반복적이면서도 정교한 업무들을 AI가 대신할 수 있을 것이라는 장밋빛 전망이 쏟아져 나왔죠. 그러나 과연 이러한 기대가 현실과 얼마나 부합할까요? 최근 발표된 한 연구 결과는 이러한 낙관론에 찬물을 끼얹는 듯한 냉정한 평가를 내놓아 업계에 큰 파장을 던지고 있습니다. Handshake AI와 맥길 대학교(McGill University)의 공동 연구팀이 개발한 오픈소스 벤치마크 ‘BankerToolBench’는 GPT-5.4, Claude Opus 4.6과 같은 최상위 AI 모델들을 실제 투자은행 업무에 투입했습니다. 그리고 그 결과는 충격적이었습니다. 무려 500명에 달하는 현직 및 전직 투자은행 전문가들이 AI가 생성한 결과물을 검토한 결과, 단 한 건의 결과물도 고객에게 직접 전달할 준비가 되었다고 평가받지 못했습니다.

이는 AI가 단순히 정보를 검색하고 요약하는 수준을 넘어, 실제 비즈니스 환경에서 ‘가치 있는’ 결과물을 만들어내는 데 여전히 상당한 한계가 있음을 명확히 보여줍니다. 특히 투자은행 업무는 미세한 오류조차 치명적인 결과를 초래할 수 있는 정밀성과 신뢰성을 요구하는 분야입니다. 이러한 환경에서 AI가 아직 ‘고객 수준(client-ready)’의 결과물을 내놓지 못했다는 사실은, AI 기술의 상업적 적용과 관련하여 우리가 어떤 지점에 서 있는지 다시 한번 되돌아보게 합니다. 이번 연구는 AI가 단순한 보조 도구를 넘어 핵심 업무를 대체할 수 있을지에 대한 근본적인 질문을 던지며, 전 세계적으로 AI 도입을 고려하는 수많은 기업들에게 중요한 시사점을 제공합니다. 참고기사는 이 냉정한 평가의 구체적인 내용과 그 배경을 심층적으로 다루고 있습니다.

이러한 결과는 AI가 가져올 미래에 대한 막연한 환상보다는, 현실적인 기대치와 신중한 접근이 필요하다는 점을 강조합니다. AI가 제공하는 초기 단계의 효율성은 분명 매력적이지만, 최종 결과물의 품질과 신뢰성을 확보하기 위한 인간의 개입은 여전히 필수적이라는 점을 명확히 보여주고 있는 것입니다. 특히 금융 분야와 같이 규제 준수, 감사 가능성, 그리고 미묘한 비즈니스 로직 이해가 중요한 영역에서는 더욱 그렇습니다. 이번 연구는 AI 기술 발전의 방향과 기업들의 AI 도입 전략에 있어 중요한 이정표가 될 것입니다.

최상위 AI 모델들의 처참한 성적표: 500명 뱅커가 밝힌 치명적 결함들

Handshake AI와 맥길 대학교 연구팀이 개발한 ‘BankerToolBench’는 주니어 투자은행 뱅커들이 매일 처리하는 업무를 AI 에이전트가 얼마나 잘 수행하는지 평가하기 위해 설계된 혁신적인 벤치마크입니다. 이 벤치마크는 단순한 이론적 테스트를 넘어, 실제 업무와 동일한 수준의 실질적인 결과물을 요구한다는 점에서 그 의미가 깊습니다. 연구팀은 골드만삭스, JP모건, 에버코어, 모건스탠리, 라자드 등 유수의 투자은행에 재직했거나 현재 재직 중인 약 500명의 뱅커들을 참여시켰습니다. 이 중 172명의 뱅커는 5,700시간 이상을 투입하여 100개의 실제 업무 과제를 직접 설계했습니다. 각 과제는 인간 뱅커에게 평균 5시간, 길게는 21시간까지 소요되는 고난이도 작업들이었습니다.

AI 에이전트들은 엑셀 재무 모델(작동하는 수식 포함), 고객 미팅용 파워포인트 자료, PDF 보고서, 워드 메모 등 주니어 뱅커가 상사에게 제출할 실제 결과물을 만들어야 했습니다. 이를 위해 데이터 룸을 뒤지고, FactSet 및 Capital IQ 같은 시장 데이터 플랫폼에서 정보를 추출하며, SEC 공시 자료를 분석하는 등 복합적인 작업을 수행해야 했습니다. 논문에 따르면, 단일 과제 수행을 위해 언어 모델에 최대 539번의 호출이 발생했으며, 이 중 97%가 도구 사용 또는 코드 실행과 관련되어 있었습니다. 각 결과물은 뱅커들이 직접 설계한 평균 150개의 개별 기준에 따라 평가되었는데, 이 기준들은 기술적 정확성, 고객 준비도, 규제 준수, 감사 가능성, 파일 간 일관성 등 6개 영역에 걸쳐 있었습니다.

평가는 ‘간달프(Gandalf)’라는 AI 검증기(Gemini 3 Flash Preview 기반)가 담당했는데, 이 검증기는 인간 평가자들과 88.2%의 일치율을 보여, 두 명의 인간 평가자 간 일치율(84.6%)보다 약간 높은 신뢰도를 자랑했습니다. 테스트에 사용된 모델은 GPT-5.2, GPT-5.4, Claude Opus 4.5 및 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, 그리고 오픈소스 모델인 Qwen-3.5-397B 및 GLM-5 등 현존하는 최상위 모델들이 총망라되었습니다.

결과는 예상보다 훨씬 냉정했습니다. GPT-5.4가 가장 좋은 성적을 기록했지만, 여전히 기준의 거의 절반을 충족하지 못했습니다. 뱅커들이 ‘유용한 시작점’으로 받아들일 수 있는 결과물은 GPT-5.4의 경우 16%에 불과했으며, 세 번 연속 일관된 결과가 요구될 경우 이 수치는 13%로 떨어졌습니다. 어떤 모델에서도 ‘그대로 제출할 준비가 된’ 결과물은 단 한 건도 없었습니다. GPT-5.4의 경우, 모든 중요 기준을 통과한 과제는 2%에 불과했고, Gemini 2.5 Pro는 0%였습니다.

특히 Claude Opus 4.6의 결과물은 겉보기에는 깔끔했지만, 엑셀 모델에서 치명적인 결함이 발견되었습니다. 대부분의 핵심 숫자가 수식이 아닌 고정된 값으로 ‘하드코딩’되어 있었던 것입니다. 이는 시나리오 분석을 불가능하게 만들므로 투자은행 업무에서는 절대 용납될 수 없는 ‘거래 파기 요인(dealbreaker)’입니다. 매입 가격을 변경해도 아무것도 업데이트되지 않는다면, 그 모델은 쓸모가 없습니다. Claude Opus 4.5 역시 동일한 문제를 보였습니다.

GPT-5.4 에이전트의 실패 궤적을 분석한 결과, 네 가지 주요 실패 모드가 밝혀졌습니다. 가장 흔한 것은 41%를 차지한 코드 및 수식 생성 버그였습니다. 에이전트가 존재하지 않는 python-pptx 함수를 호출하고, 근본적인 문제를 해결하기보다 단순히 오류가 발생한 줄을 삭제하는 식이었죠. 27%의 경우에는 비즈니스 로직이 무너졌는데, 예를 들어 비용 절감 시너지를 비용 라인이 아닌 수익 라인에 추가하는 식입니다. 데이터 쿼리 중단으로 인한 오류는 18%였고, 13%의 경우에는 에이전트가 누락된 숫자를 조작하여 마치 출처가 있는 것처럼 제시했습니다.

논문에 제시된 사례들은 이러한 실패가 얼마나 미묘하게 발생할 수 있는지 보여줍니다. 한 생성된 파워포인트 자료에서는 한 슬라이드에 1,895억 달러의 매출이, 다음 슬라이드에는 2,010억 달러로 기재되어 있었는데, 두 수치 모두 동일한 기간을 나타냈습니다. 또 다른 사례에서는 은행의 스타일 가이드라인이 균일한 파란색을 요구함에도 불구하고 에이전트가 넷플릭스의 빨간색을 강조 색상으로 사용했습니다. 제약 회사 거래에 대한 경쟁 분석에서는 SEC 데이터베이스에서 관련 정보를 찾지 못하자 에이전트가 특정 임상 시험 데이터를 조작해 넣기도 했습니다. 전반적으로 AI 모델들은 엑셀 작업보다 파워포인트 작업에서 더 나은 성능을 보였습니다. 가장 어려운 과제는 부채 자본 시장, 합병 모델, 자본 구조 테이블과 관련된 작업들이었습니다. 연구팀은 이러한 성능 부족의 일부가 AI 모델의 도메인 지식 부족에 기인한다고 분석했습니다. 뱅커들이 당연하게 여기는 맥락 정보로 과제를 보강했을 때 점수가 크게 상승했다는 점이 이를 뒷받침합니다.

AI의 현실과 미래: 산업 동향과 전략적 대응

이번 BankerToolBench의 결과는 AI 기술이 특정 전문 분야에서 직면한 현실적인 한계를 명확히 보여주지만, 동시에 미래 발전 방향에 대한 중요한 통찰을 제공합니다. 이러한 발견은 다른 최근 연구 결과들과도 일맥상통합니다. 예를 들어, Vals.ai가 글로벌 시스템 은행과 함께 수행한 연구에서는 OpenAI의 o3 모델이 금융 분석 작업에서 48.3%의 정확도에 그쳤다는 결과를 발표했습니다. UC 버클리 연구 또한 실제 운영 환경에서 에이전트가 작동하는 경우는 단순하고 엄격하게 통제된, 적은 단계의 설정에서만 가능하다고 결론지었습니다. 카네기 멜런과 스탠퍼드 대학교의 분석에서는 에이전트 개발이 코딩 작업에 너무 집중되어 있었고, 경영, 법률, 금융과 같이 경제적으로 중요한 분야가 벤치마크에서 크게 간과되었다고 지적합니다.

이러한 연구 결과들은 AI 모델이 복잡하고 미묘한 도메인 지식과 비즈니스 로직을 완벽하게 이해하고 적용하는 데 여전히 큰 격차가 있음을 시사합니다. 특히 ‘환각(hallucination)’ 현상과 비일관성은 금융과 같이 정확성과 신뢰성이 절대적인 분야에서는 치명적인 약점으로 작용합니다. 그러나 AI 연구소들은 이러한 약점을 해결하기 위해 적극적으로 움직이고 있습니다. 대표적으로 Anthropic은 최근 클로드(Claude)가 엑셀과 파워포인트 사이를 스스로 전환할 수 있는 기능을 도입했으며, Cowork 플러그인을 통해 FactSet, MSCI, LSEG와 같은 시장 데이터 서비스를 워크플로우에 직접 연결하고 있습니다. 이는 AI 에이전트가 다양한 도구를 활용하고 외부 데이터 소스와 연동하여 실제 업무 환경에 더 깊이 통합될 수 있도록 하는 중요한 진전입니다. 이러한 노력은 AI가 단순히 텍스트를 생성하는 것을 넘어, 실제 비즈니스 도구를 능숙하게 다루고 복잡한 워크플로우를 자동화하는 ‘에이전트 AI’ 방향으로 진화하고 있음을 보여줍니다.

💡 추가 정보

참고기사에서는 BankerToolBench가 강화 학습(Reinforcement Learning)에도 활용될 수 있다고 설명하고 있습니다. Qwen-3-4B와 32B 모델을 대상으로 한 실험에서 Dr. GRPO 및 DPO 방법이 벤치마크 성능을 5배에서 13배까지 향상시켰지만, 이는 매우 낮은 초기 성능에서 출발한 결과였습니다. 또한, BankerToolBench의 몇 가지 한계점도 언급하고 있습니다. 벤치마크가 미국에 초점을 맞추고 있으며, 기밀 거래 정보가 부족하고, 실제 은행 내에서 이루어지는 반복적인 팀워크를 포착하지 못한다는 점입니다. 그럼에도 불구하고 연구진은 이 벤치마크가 AI 에이전트가 고난이도 지식 작업을 처리할 수 있는지에 대한 가장 상세한 테스트 중 하나라고 평가하고 있습니다.

결론적으로, 현재 AI는 투자은행의 핵심 업무를 완전히 대체할 준비가 되어 있지 않습니다. 하지만 이는 AI의 한계라기보다는, AI 기술이 특정 도메인의 깊은 전문성과 복잡성을 따라잡기 위한 ‘성장통’으로 볼 수 있습니다. 앞으로의 AI 발전은 단순히 모델의 크기를 키우는 것을 넘어, 도메인 특화된 지식 주입, 다단계 추론 능력 강화, 그리고 다양한 도구와의 유기적인 연동을 통해 이루어질 것입니다. 기업들은 AI 도입을 서두르기보다, AI의 강점과 약점을 명확히 이해하고, 인간 전문가의 판단과 AI의 효율성을 결합하는 ‘휴먼-인-더-루프(Human-in-the-Loop)’ 전략을 통해 점진적으로 AI를 활용해 나가는 지혜가 필요합니다.

AI와 지식 노동의 미래: 현실적 기대와 전략적 협업의 중요성

Handshake AI와 맥길 대학교의 BankerToolBench 연구 결과는 AI가 고도로 전문화된 지식 노동 분야에서 아직 갈 길이 멀다는 현실을 냉정하게 일깨워 주었습니다. 최상위 AI 모델조차 투자은행의 핵심 업무에서 ‘고객 전달 가능한(client-ready)’ 결과물을 단 하나도 만들어내지 못했다는 사실은 AI 산업계, 개발자, 그리고 AI 도입을 고려하는 기업들에게 중요한 시사점을 던집니다. 이는 AI 개발자들이 단순히 범용적인 성능 향상에만 집중할 것이 아니라, 특정 도메인의 깊은 이해와 정교한 비즈니스 로직을 AI 모델에 효과적으로 주입하는 방법을 모색해야 함을 의미합니다.

특히, 코드와 수식 생성의 버그, 비즈니스 로직의 오해, 데이터 조작과 같은 치명적인 실패 모드는 AI의 ‘추론(reasoning)’ 능력과 ‘신뢰성(reliability)’ 확보가 얼마나 중요한 과제인지를 보여줍니다. 이러한 문제들은 AI가 단순한 정보 처리기를 넘어, 복잡한 상황을 이해하고 합리적인 판단을 내리는 ‘에이전트’로서 기능하기 위해 반드시 해결되어야 할 과제입니다. 개발자들은 이제 ‘환각’ 현상을 줄이고, 일관성 있는 결과물을 생성하며, 사용자가 AI의 의사결정 과정을 이해하고 검증할 수 있는 ‘설명 가능성(explainability)’을 높이는 데 더욱 주력해야 할 것입니다.

기업의 관점에서는 AI 도입에 대한 환상에서 벗어나 현실적인 기대치를 설정하는 것이 중요합니다. AI는 현재로서는 인간 전문가의 보조 도구로서 가장 큰 가치를 발휘할 수 있습니다. 반복적이고 데이터 집약적인 초기 단계 작업의 효율성을 높이고, 인간이 최종 검토하고 수정하는 ‘휴먼-인-더-루프’ 시스템을 구축함으로써 AI의 잠재력을 최대한 활용하면서도 위험을 최소화할 수 있습니다. 즉, AI는 ‘대체’의 대상이 아니라 ‘협업’의 파트너로서 자리매김해야 합니다. 이러한 접근 방식은 AI 기술이 점진적으로 발전하고 도메인 특화된 능력을 갖춰나가는 동안, 기업들이 안정적으로 AI를 워크플로우에 통합할 수 있는 길을 제시할 것입니다.

궁극적으로 이번 연구는 AI가 지식 노동의 미래를 어떻게 재편할지에 대한 중요한 질문을 제기합니다. AI는 인간의 역할을 완전히 대체하기보다는, 인간이 더 고차원적인 전략적 사고와 창의적인 문제 해결에 집중할 수 있도록 지원하는 방향으로 진화할 가능성이 높습니다. 따라서 AI 기술 발전의 방향은 단순히 자동화율을 높이는 것을 넘어, 인간과 AI가 상호 보완적으로 협력하여 더 큰 가치를 창출하는 방법을 모색하는 데 초점을 맞춰야 할 것입니다. 이는 AI 기술이 궁극적으로 인류 사회에 긍정적인 영향을 미치기 위한 필수적인 여정입니다.

참고

Jonathan Kemper, 500 investment bankers review AI outputs and find none ready for client delivery