AI, 월스트리트 주니어 뱅커를대체할 수 있을까?

글의 목차

금융이란, 신뢰의 언어로 쓰인 가장 엄밀한 계약입니다. 숫자 하나의 오차가 계약 전체를 무너뜨리고, 형식 하나의 어긋남이 신뢰를 허뭅니다. 과연 인공지능은 그 정밀함의 세계에 발을 들여놓을 수 있을까요.

AI가 화이트칼라 직군을 대체할 것이라는 이야기는 어제오늘의 일이 아닙니다. 특히 투자은행(IB) 업계의 주니어 뱅커들은 종종 “AI에 의해 가장 먼저 대체될 직군” 후보로 거론됩니다. 반복적인 재무 모델링, 피치덱 작성, 리서치 리포트 작성 등이 주 업무이기 때문입니다. 그것은 어쩌면 그럴듯한 추측이었습니다 — 실제로 테스트해보기 전까지는.

최근 발표된 BankerToolBench 벤치마크는 그 물음에 정면으로 답합니다. 결론은 냉담합니다. 아직은 아닙니다.

BankerToolBench –

Handshake AI와 맥길 대학교 연구팀이 개발한 BankerToolBench(BTB)는, 주니어 투자 뱅커가 일상적으로 수행하는 엔드투엔드 분석 워크플로우를 AI 에이전트로 평가하기 위한 오픈소스 벤치마크입니다. 그 야심은 규모에서 드러납니다. Goldman Sachs, JPMorgan, Evercore를 포함한 주요 투자은행 현직·전직 뱅커 502명이 개발에 참여했고, 이들이 설계에 쏟아부은 시간만 5,700시간이 넘습니다.

총 100개의 과제로 구성된 이 벤치마크는 금융 모델 구축, 피치덱 작성, 메모 작성 등 실무의 핵심을 고스란히 담았습니다. 인간 뱅커가 한 과제를 완료하는 데 평균 다섯 시간, 길게는 스물한 시간이 소요되는 수준입니다. AI 에이전트는 데이터룸을 탐색하고, FactSet·Capital IQ 같은 시장 데이터 플랫폼에서 정보를 수집하며, SEC 공시 자료를 분석합니다. 단일 과제에서 언어 모델 호출이 최대 539회에 달하며, 그 중 97%는 툴 사용 또는 코드 실행입니다.

채점 기준 또한 엄격합니다. 과제당 평균 150개 항목으로 구성된 뱅커 설계 루브릭이 기술적 정확성, 클라이언트 제출 가능성, 컴플라이언스, 감사 가능성, 파일 간 일관성 등 여섯 개 영역을 평가합니다. 채점 자체는 Gemini 3 Flash Preview 기반의 AI 검증기 ‘Gandalf’가 담당하는데, 인간 심사자와의 일치율이 88.2%로 인간 심사자 간 일치율(84.6%)보다 오히려 높습니다.

“클라이언트에게 보낼 수 있는 결과물? 단 하나도 없습니다”

GPT-5.4, Claude Opus 4.6을 포함한 아홉 개의 최신 모델을 시험한 결과는 냉혹했습니다.

숫자가 모든 것을 말해줍니다. 단 한 건의 결과물도 “그대로 클라이언트에게 보낼 수 있다”는 평가를 받지 못했습니다. 그렇다고 AI가 전혀 무용하다는 뜻은 아닙니다. 절반 이상의 뱅커들은 AI 결과물을 “시작점으로 활용할 수 있다”고 답했습니다. 초안 작성이나 빠른 드래프트 용도로는 가치가 있지만, 그것을 바로 클라이언트 앞에 내놓을 수준은 아니라는 이야기입니다.

겉은 그럴듯하되, 속은 허물어집니다

오류의 양상이 단순하지 않다는 점이 더욱 경계해야 할 이유입니다. AI의 실패는 눈에 띄는 오류보다, 표면적으로 그럴듯해 보이면서 내부적으로 무너진 결과물의 형태로 나타났습니다.

한 에이전트는 투자은행의 스타일 가이드가 파란색 계열을 지정하고 있음에도 불구하고, Netflix의 빨간색을 강조 색상으로 사용했습니다. 더 심각한 경우도 있었습니다. 제약 딜의 경쟁사 분석에서 SEC 데이터베이스에서 정보를 찾지 못한 에이전트가, 임상시험 데이터를 아예 만들어냈습니다.

Excel 모델링에서 특히 취약했습니다. PowerPoint 과제에 비해 재무 모델은 현저히 낮은 점수를 기록했으며, 부채 자본 시장(DCM), 합병 모델, 자본 구조 테이블 과제에서 가장 심각한 한계를 드러냈습니다. 연구팀은 그 원인 중 하나로 도메인 지식의 부재를 꼽습니다. 뱅커라면 당연히 알고 있을 맥락 정보를 과제에 추가로 제공했을 때, AI 점수가 유의미하게 상승했다는 사실이 이를 뒷받침합니다.

한계와 가능성 — 동전의 양면

BankerToolBench가 강화학습(RL) 훈련 환경으로도 활용될 수 있다는 점은 이 벤치마크의 또 다른 의의입니다. Qwen-3-4B 및 32B 모델을 대상으로 한 실험에서 Dr. GRPO와 DPO 방법이 벤치마크 성능을 5~13배 끌어올렸습니다. 초기 기준점이 낮은 상태에서의 개선이라는 제한은 있지만, 방향성 자체는 고무적입니다.

물론 이 벤치마크에도 시야의 한계가 있습니다. 미국 시장 중심으로 설계되어 있고, 실제 딜의 기밀 정보는 포함되지 않으며, 은행 내에서 이루어지는 반복적인 팀 작업의 역학은 담아내지 못합니다. 그럼에도 연구팀은 이를 “AI 에이전트가 전문적 지식 노동을 얼마나 잘 처리할 수 있는지 테스트한 가장 정밀한 벤치마크 중 하나”로 평가합니다. 그리고 지금 그 벤치마크가 내놓은 답은 — 아직 아니라는 것입니다.

“대체”가 아닌 “보조” — 지금 우리가 서 있는 자리

결과를 어떻게 해석해야 할까요. AI를 둘러싼 두 가지 극단적 시각 — “곧 모든 것을 대체한다”는 낙관론과 “실전에선 쓸모없다”는 회의론 — 어느 쪽도 지금의 현실을 제대로 반영하지 못합니다.

BankerToolBench의 결과는, AI는 아직 주니어 뱅커를 대체할 수 없음을 명확히 보여줍니다. 하지만 절반 이상의 뱅커가 AI 아웃풋을 시작점으로 사용하겠다고 답한 사실은, 이 기술이 “보조 도구”로서는 이미 현장에 뿌리내리고 있음을 방증합니다. 이 결과는 다른 최근 연구와도 궤를 같이합니다. Vals.ai가 글로벌 시스템 중요 은행과 함께 수행한 연구에서 OpenAI의 o3는 금융 분석 과제에서 정확도 48.3%에 그쳤고, UC Berkeley는 에이전트를 실제 프로덕션 환경에 투입하고 있는 팀들이 단계가 적고 엄격하게 통제된 단순한 구성에 의존하고 있다는 결론을 내렸습니다.

지금의 AI는 방향을 잡아주는 나침반이지, 딜을 클로징하는 뱅커가 아닙니다. 그 간격을 좁히는 것이 앞으로 수년간 이 분야의 핵심 과제가 될 것입니다.

참고문헌

Kemper, J. (2026, April 26). 500 investment bankers review AI outputs and find none ready for client delivery. THE DECODER. 링크
Lau, E., Dücker, M., et al. (2026). BankerToolBench: Evaluating AI Agents in End-to-End Investment Banking Workflows. arXiv:2604.11304. 링크
Handshake AI Research. (2026). bankertoolbench [GitHub]. 링크
Handshake AI Research. (2026). handshake-ai-research/bankertoolbench [Dataset]. Hugging Face. 링크

Audrey Ko

Author

View All Posts

AI FOCUS에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

관련 뉴스

거대 AI의 그늘: 독립 AI 서비스의 생존 전략과 미래

앤트로픽 미토스 지연: AI 거품 붕괴의 서막인가?

AI 격차의 민낯— Claude는 부유층의 도구