구글 제미나이 3.5 플래시, 성능 향상 뒤 숨겨진 '가격 역설'

글의 목차

AI 모델, 성능은 오르는데 비용도 오르는가?

구글의 최신 모델, ‘플래시’라는 이름 뒤의 복잡한 비용 방정식

인공지능 기술의 발전 속도는 눈부십니다. 특히 대규모 언어 모델(LLM)은 이제 단순한 질문 답변을 넘어, 복잡한 다단계 작업을 스스로 계획하고 실행하는 ‘에이전트’의 영역으로 진화하고 있습니다. 이러한 변화의 선두에 서 있는 구글 딥마인드가 최근 새로운 모델인 제미나이 3.5 플래시(Gemini 3.5 Flash)를 공개하며 업계의 이목을 집중시켰습니다. ‘플래시’라는 이름은 일반적으로 ‘빠르고 저렴한’ 대안을 의미하지만, 이번 모델은 성능 향상과 함께 예상치 못한 비용 상승을 동반하며 AI 모델 가격 정책에 대한 새로운 논의를 촉발하고 있습니다.

초고성능 AI 모델의 개발 경쟁이 심화되면서, 기술 기업들은 성능과 효율성 사이에서 미묘한 줄타기를 하고 있습니다. 구글의 제미나이 3.5 플래시는 전작 대비 괄목할 만한 성능 향상을 이루었지만, 벤치마크 테스트 결과 운영 비용은 무려 5.5배나 증가한 것으로 나타났습니다. 특히 에이전트 기반 작업에서 토큰 소비량이 급증하면서, 개별 토큰 가격이 더 비싼 것으로 알려진 제미나이 3.1 프로(Gemini 3.1 Pro) 모델보다도 총비용이 높아지는 역설적인 상황이 발생했습니다. 이는 비단 구글만의 문제가 아닙니다. 앤트로픽(Anthropic)의 오푸스 4.7(Opus 4.7), 오픈AI(OpenAI)의 GPT 5.5 등 주요 경쟁사 모델들 역시 유사한 방식으로 실질적인 비용 상승을 보이며, AI 모델 사용의 새로운 패러다임을 예고하고 있습니다. 이제 개발자와 기업들은 단순히 ‘토큰당 가격’이 아닌, ‘특정 작업을 완료하는 데 필요한 총 토큰 효율성’이라는 새로운 척도를 기준으로 모델을 평가해야 하는 시점에 도달했습니다.

성능은 ‘역대급’, 비용은 ‘예상 밖’

에이전트 작업에 특화된 3.5 플래시, 총비용 75% 상승의 원인과 멀티모달 혁신

인공지능 분석 전문 기업 Artificial Analysis의 초기 분석에 따르면, 제미나이 3.5 플래시는 제미나이 3 플래시 대비 벤치마크 테스트에서 5.5배 높은 운영 비용을 기록했습니다. 토큰 가격만 보더라도, 입력 토큰 100만 개당 0.50달러에서 1.50달러로, 출력 토큰 100만 개당 3.00달러에서 9.00달러로 각각 3배씩 인상되었습니다. 개별 토큰 가격만 보면 여전히 제미나이 3.1 프로(입력 2.00달러, 출력 12.00달러)보다 저렴하지만, 실제 에이전트 기반 작업에서는 상황이 역전됩니다. 제미나이 3.5 플래시는 이러한 작업에서 훨씬 더 많은 토큰을 소비하여, 결과적으로 제미나이 3.1 프로보다 총비용이 75% 더 높아지는 것으로 나타났습니다. 이는 앤트로픽의 오푸스 4.7이 전작 대비 30~40%의 숨겨진 가격 인상을, 오픈AI의 GPT 5.5가 5.4 대비 50~90%의 인상을 보인 것과 궤를 같이하는 업계 전반의 추세입니다. 구글은 토큰 기본 가격과 토큰 소비량, 두 가지 요소를 모두 인상했습니다.

성능 측면에서는 제미나이 3.5 플래시의 약진이 두드러집니다. Artificial Analysis Intelligence Index에서 55점을 기록, 전작 제미나이 3 플래시보다 9점 상승하며 그록 4.3(Grok 4.3)의 53점, 클로드 소넷 4.6(Claude Sonnet 4.6)의 52점을 앞섰습니다. 특히 지식 정확도와 환각 경향을 측정하는 AA Omniscience 지수에서는 11점 향상되어 환각률이 61%로, 제미나이 3 플래시 대비 31%포인트 감소했습니다. 물론, 여전히 25%를 기록하는 MiMo-V2.5-Pro나 그록 4.3 같은 선두 모델에는 미치지 못합니다.

가장 주목할 만한 개선은 ‘에이전트 작업’ 분야입니다. 웹 및 셸 접근 권한을 활용한 실제 에이전트 작업을 테스트하는 GDPval-AA에서 제미나이 3.5 플래시는 1,656점의 엘로(Elo) 점수를 달성했습니다. 이는 제미나이 3 플래시(1,204점)와 제미나이 3.1 프로(1,314점)를 크게 앞서는 수치이며, GPT-5.4(1,674점)에 근접하는 수준입니다. 그러나 이러한 성능 향상에는 대가가 따릅니다. 제미나이 3.5 플래시는 작업당 평균 49번의 상호작용(턴)을 필요로 하는데, 이는 클로드 오푸스 4.7(45턴), GPT-5.4(40턴), 제미나이 3.1 프로(23턴)보다 훨씬 많은 수치입니다. 이 추가적인 상호작용 단계가 입력 토큰 소비량을 급증시키는 주범으로, 개별 토큰 가격이 저렴함에도 불구하고 제미나이 3.1 프로보다 총비용이 높아지는 결과를 초래합니다.

하지만 제미나이 3.5 플래시는 코딩 분야에서는 약점을 보였습니다. Artificial Analysis Coding Index에서 45점에 그쳐 제미나이 3.1 프로 프리뷰(55점), GPT-5.5(59점), GPT-5.4(57점), 클로드 오푸스 4.7(53점) 등 경쟁 모델들에 비해 현저히 낮은 점수를 기록했습니다. 이는 에이전트 AI의 중요한 활용 사례 중 하나인 코딩 분야에서의 한계를 보여주며, 전반적인 지능 지수에서의 강점이 실질적인 가치로 이어지는 데 제약을 줄 수 있습니다.

속도와 멀티모달 능력은 제미나이 3.5 플래시의 또 다른 강점입니다. 초당 280개 이상의 출력 토큰을 생성하여 제미나이 3 플래시보다 약 70% 빠르며, 유사한 지능 수준의 다른 모델 중 이와 같은 속도를 보이는 모델은 거의 없습니다. 또한, 텍스트와 이미지 외에 비디오 및 오디오 입력을 지원하는 독보적인 특징을 가지고 있습니다. 이는 클로드 오푸스 4.7, 그록 4.3, GPT-5.5 등 대부분의 경쟁 모델이 이미지 입력으로 제한되는 것과 대조적입니다. 멀티모달 벤치마크인 MMMU-Pro에서는 84%라는 역대 최고 점수를 기록하며, 82%를 기록한 제미나이 3.1 프로와 함께 구글이 상위 두 자리를 차지했습니다.

AI 경제학의 새로운 전환점

복잡한 에이전트 작업 시대, ROI 측정의 난관과 산업의 재편

현재의 AI 모델 가격 인상은 단순히 기술 발전의 부산물이 아닌, AI 활용 패러다임의 심오한 변화를 반영합니다. 오늘날의 AI 모델은 단순한 챗봇을 넘어, 스스로 계획하고 도구를 사용하며 여러 단계의 상호작용을 통해 복잡한 작업을 수행하는 ‘에이전트’ 역할을 수행하도록 설계되고 있습니다. 이러한 에이전트적 행동은 작업당 더 많은 컴퓨팅 자원을 요구하며, 기저 하드웨어의 추론(inference) 비용이 작업당 컴퓨팅 수요 증가 속도만큼 빠르게 하락하지 않는 한, 더 강력한 모델의 가격은 계속 상승할 것으로 예상됩니다.

이는 기업과 개발자들에게 중요한 시사점을 던집니다. 이제 ‘가장 저렴한 모델’을 찾는 것보다 ‘가장 효율적으로 작업을 완료하는 모델’을 선택하는 것이 중요해졌습니다. OpenClaw의 피터 슈타인베르거(Peter Steinberger) 설립자가 월 130만 달러를 들여 100개의 AI 에이전트를 운영하며 코딩, PR 검토, 버그 찾기 등을 수행하는 사례는 고비용에도 불구하고 에이전트 AI의 효용성에 대한 기대를 보여줍니다. 반면, 커서(Cursor)의 컴포저 2.5(Composer 2.5)가 오푸스 4.7 및 GPT-5.5와 유사한 벤치마크 성능을 훨씬 저렴한 비용으로 제공한다는 소식은 효율성 경쟁의 또 다른 단면을 보여줍니다. 간단한 사용 사례의 경우, 여전히 저렴한 구형 모델이나 제미나이 3.1 플래시-라이트(Gemini 3.1 Flash-Lite)와 같은 소형 모델이 유효한 선택지로 남을 것입니다.

AI 투자 수익률(ROI)을 측정하는 것은 점점 더 어려워지고 있습니다. 코드 생성이나 번역과 같은 고립된 작업은 더 빠른 처리 시간이나 인건비 절감으로 측정하기 비교적 쉽지만, 지식 노동 분야에서는 그 측정이 더욱 모호해집니다. AI의 도움으로 더 나은 의사결정 메모나 전략 보고서를 절반의 시간에 완성했을 때, 그 가치를 어떻게 수치화할 수 있을까요? 또한, AI가 작업을 대신하면서 발생하는 오류 검증 시간이나 인간이 직접 학습할 기회를 잃는 것과 같은 ‘하류 비용(downstream costs)’도 고려해야 합니다. 이러한 생산성 향상은 종종 여러 부서에 걸쳐 분산되어 나타나고, 뒤늦게 확인되며, 다른 요인들과 분리하여 측정하기 어렵기 때문입니다. 결국, 더 비싼 모델에 투자하는 것은 그 효율성 이득이 충분히 가치 있을 것이라는 ‘베팅’이자, AI 지원 작업이 새로운 표준이 될 것이라는 믿음을 반영합니다.

AI 비용 효율성의 시대, 전략적 선택이 중요

성능과 비용의 균형, 그리고 AI 활용의 미래 지향점

구글 제미나이 3.5 플래시의 사례는 AI 모델이 고성능화될수록 비용 또한 상승할 수 있다는 현실을 명확히 보여줍니다. 특히 다단계 에이전트 작업과 같은 복잡한 활용 사례에서 모델의 ‘턴’ 수, 즉 상호작용 횟수가 토큰 소비량과 직결되어 총비용을 크게 끌어올리는 중요한 요인임을 확인했습니다. 이는 비단 구글뿐 아니라 앤트로픽, 오픈AI 등 주요 AI 기업들이 직면하고 있는 공통된 과제이며, 앞으로 AI 모델의 가치를 평가하는 기준이 단순히 ‘최고 성능’을 넘어 ‘비용 효율성’으로 확장될 것임을 시사합니다.

이러한 변화는 AI 산업계 전반에 걸쳐 중요한 질문을 던집니다. 개발자들은 이제 모델 선택 시 원시적인 토큰 가격뿐만 아니라, 특정 애플리케이션에서 요구되는 작업 완료에 필요한 총 토큰 소비량을 면밀히 분석해야 합니다. 기업들은 AI 도입 시 단기적인 생산성 향상뿐만 아니라, 장기적인 ROI와 함께 AI 사용으로 인해 발생할 수 있는 잠재적 하류 비용까지 고려하는 전략적 접근이 필요합니다. 정부 및 연구 기관은 AI 모델의 공정하고 투명한 비용 책정 기준 마련과 함께, 고성능 AI의 접근성을 높이기 위한 방안을 모색해야 할 것입니다.

미래 AI 기술 발전은 단순히 모델의 ‘지능’을 높이는 것을 넘어, 주어진 비용 제약 내에서 ‘최적의 효율성’을 달성하는 방향으로 진화할 것입니다. 이는 모델 아키텍처의 혁신, 프롬프트 엔지니어링의 정교화, 그리고 특정 작업에 특화된 경량 모델의 개발 등 다양한 형태로 나타날 수 있습니다. 결국, AI의 대중화와 광범위한 산업 적용을 위해서는 성능과 비용 사이의 균형점을 찾는 것이 가장 중요한 과제가 될 것입니다. AI는 이제 단순한 기술 도구를 넘어, 비즈니스 전략과 경제학적 관점에서 심도 있게 분석되어야 하는 핵심 요소로 자리매김하고 있습니다.

참고

Matthias Bastian, Google’s Gemini 3.5 Flash follows Anthropic and OpenAI in making newer AI models significantly pricier