AI 시장의 역설: 중국의 부각, 투명성은 사라졌다
2025년 1월, AI 업계에 작은 지진이 일어났습니다. 중국 스타트업 DeepSeek가 출시한 AI 모델 R1이 무료 앱스토어 차트 1위에 올랐고, 실리콘밸리는 ‘스푸트니크 쇼크’라는 표현까지 쓰며 당황했습니다. 그런데 이 사건, 단순히 “중국 AI가 미국을 따라잡았다”는 헤드라인으로 끝날 이야기가 아닙니다.
숫자가 말하는 역전의 순간을 자세히 들여다보면, 우리는 훨씬 더 흥미롭고 불편한 진실과 마주하게 됩니다.
숫자로 본 역전극: 2025년, 중국이 미국을 추월하다
Hugging Face라는 AI 모델 공유 플랫폼이 있습니다. 쉽게 말해 AI 모델의 ‘앱스토어’ 같은 곳이죠. 최근 발표된 “Economies of Open Intelligence” 보고서에 따르면, 2025년 들어 처음으로 중국 개발자들의 AI 모델 다운로드 수가 미국을 넘어섰습니다. 그 점유율이 무려 44%에 달합니다.
2022년만 해도 상황은 완전히 달랐습니다. 구글, 메타, OpenAI가 합쳐서 다운로드의 60%를 차지했고, 미국 혼자 60% 이상의 시장 점유율을 자랑했습니다. BERT, CLIP 같은 모델들은 모두 미국산이었죠. AI라고 하면 실리콘밸리였던 시대입니다.
그런데 2022년 말, Stable Diffusion이라는 이미지 생성 AI가 등장하면서 판도가 바뀌기 시작했습니다. 갑자기 소규모 팀과 개인 개발자들도 자신만의 모델을 만들고 개선할 수 있게 된 겁니다. 미국의 점유율은 서서히 떨어지기 시작했고, 국제 그룹과 커뮤니티 프로젝트들이 치고 올라왔습니다.
그리고 2025년, 터닝포인트가 왔습니다. DeepSeek와 알리바바의 Qwen 모델군이 혼자서 14%의 다운로드를 가져갔습니다. 알리바바의 Qwen 모델만 해도 작년에 7억 5천만 회 다운로드를 기록했습니다. 2024년을 주름잡았던 메타의 Llama가 5억 회에 그친 것과 비교하면 압도적인 수치입니다.
숫자는 명확합니다. 하지만 진짜 질문은 여기서부터 시작됩니다. “왜”와 “어떻게”, 그리고 “무엇을 잃었나”입니다.
오픈소스의 환상: 공개했다고 다 투명한 건 아니다
“오픈소스 AI”라는 말을 들으면 무엇이 떠오르시나요? 아마 대부분 ‘누구나 들여다볼 수 있고, 수정할 수 있고, 어떻게 작동하는지 알 수 있는’ 모델을 상상할 겁니다. 하지만 현실은 좀 다릅니다.
DeepSeek를 예로 들어볼까요? 이 회사는 자사 모델을 MIT 라이선스로 공개했습니다. 겉보기엔 정말 오픈소스 같죠. 실제로도 개발 비용이 600만 달러로 GPT-4의 1억 달러 이상과 비교하면 18분의 1 수준이라고 합니다. 놀라운 효율성입니다.
그런데 여기 함정이 있습니다. DeepSeek가 공개한 건 ‘모델의 가중치(weights)’ 입니다. 쉽게 말해, 완성된 AI의 ‘두뇌’만 공개한 거죠. 이 두뇌가 어떤 책을 읽고(훈련 데이터), 어떤 과정으로 공부했는지(훈련 코드)는 알려주지 않습니다.
이걸 진짜 오픈소스라고 부를 수 있을까요? 학술 용어로는 이런 걸 “오픈 웨이트(Open-Weights)” 모델이라고 부릅니다. 사용은 할 수 있지만, 검증하거나 재현하거나 개선하는 건 거의 불가능합니다.
그리고 이건 DeepSeek만의 문제가 아닙니다. Meta도, Google도, Alibaba도 비슷한 방식을 택하고 있습니다. 수치로 보면 더 충격적입니다.
- 2022년: 인기 모델의 80%가 훈련 데이터를 공개했습니다.
- 2025년: 겨우 39%만 공개합니다.
3년 만에 투명성이 절반 이하로 떨어진 겁니다. 다운로드 수는 기하급수적으로 늘어나는데, 우리가 이 모델들에 대해 알 수 있는 건 점점 줄어들고 있습니다.
진정한 오픈소스는 사라지고, ‘사용 가능한 블랙박스’만 남았습니다.
투명성 위기: AI 안에 무엇이 들었는지 아무도 모른다
투명성이 사라지면 무슨 일이 벌어질까요? 단순히 ‘궁금증이 해소 안 된다’ 정도의 문제가 아닙니다.
미국의 미디어 감시 기구 NewsGuard가 최근 흥미로운 연구를 발표했습니다. 많은 중국 LLM들이 친중국적 허위 주장을 60%의 경우에 그대로 반복하거나 수정하지 못한다는 겁니다. 천안문 사건, 위구르 인권 문제, 대만 독립 같은 민감한 주제에서 말이죠.
“그거야 중국 정부가 검열하니까 그렇겠지”라고 생각하실 수 있습니다. 맞습니다. 하지만 문제는 여기서 끝나지 않습니다.
AI 모델은 학습한 데이터를 기반으로 콘텐츠를 생성합니다. 이 말은 훈련 데이터에 들어있는 가치관, 편향, 내러티브가 자연스럽게 모델에 스며든다는 뜻입니다. 그리고 그 모델을 사용하는 모든 사람, 모든 서비스에 그 편향이 조용히 전파됩니다.
전통적인 프로파간다는 명확합니다. 누군가 의도를 가지고 메시지를 만들고, 의도적으로 퍼뜨립니다. AI 도구로 가짜 뉴스를 만들더라도 ‘만드는 사람’이 있죠.
하지만 AI 모델에 내재된 편향은 다릅니다. 모래처럼 침투합니다. 챗봇을 만드는 개발자, 이메일을 작성하는 직장인, 고객 서비스를 자동화하는 기업들. 아무도 프로파간다를 퍼뜨릴 의도가 없습니다. 그냥 편리한 도구를 쓸 뿐이죠. 그런데 그 도구 안에 이미 특정한 세계관이 구워져 있습니다.
더 심각한 문제도 있습니다. 바로 ‘모델 붕괴(Model Collapse)’ 입니다.
합성 데이터의 함정: AI가 AI를 학습하면 미친다
고품질 훈련 데이터가 부족해지면서, AI 기업들은 ‘합성 데이터’라는 해법을 찾았습니다. AI가 만든 데이터로 다른 AI를 학습시키는 겁니다. 효율적으로 들리죠?
그런데 라이스대학교 연구팀이 충격적인 사실을 발견했습니다. AI 생성 데이터만으로 모델을 계속 학습시키면, 몇 세대 만에 품질이 급격히 떨어진다는 겁니다. 연구팀은 이 현상을 인간의 광우병에 빗대어 ‘MAD(Model Autophagy Disorder)’ 라고 명명했습니다.
실험 결과는 시각적으로도 충격적입니다. 1세대에서는 선명하고 다양한 얼굴 이미지가 생성되지만, 5세대에 이르면 노이즈가 증가하고 특정 패턴만 반복됩니다. 9세대쯤 되면 거의 알아볼 수 없는 수준으로 붕괴합니다.
왜 이런 일이 벌어질까요? 간단합니다. 파란 고양이를 그리는 AI가 있다고 칩시다. 이 AI가 그린 고양이 그림으로 다음 AI를 학습시키면, 약간의 오차가 생깁니다. 그 AI가 그린 고양이로 또 다음 AI를 학습시키면 오차가 누적됩니다. 몇 세대만 지나면 원래 파란 고양이는 온데간데없고 녹색, 노란색 얼룩이 뒤섞인 괴물이 탄생합니다.
데이터의 다양성이 사라지고, 편향은 증폭되며, 정확도는 떨어집니다.
그리고 지금 인터넷에는 AI 생성 콘텐츠가 넘쳐나고 있습니다. Epoch AI 연구소는 2년 내에 고품질 텍스트 데이터가 고갈될 것으로 전망합니다. GPT-5 같은 차세대 모델은 60조~100조 개의 데이터 토큰이 필요한데, 인터넷에 있는 쓸만한 데이터는 10조~20조 개밖에 안 됩니다.
그래서 합성 데이터를 쓸 수밖에 없는데, 합성 데이터는 모델을 망칩니다. 아이러니죠.
가격 전쟁의 이면: 효율일까, 불투명함의 댓가일까?
DeepSeek R1은 놀라운 가격 경쟁력을 자랑합니다. API 가격이 OpenAI의 4o-mini보다 겨우 4배 비쌀 뿐입니다. 개발 비용도 600만 달러로 GPT-4의 18분의 1 수준이죠.
어떻게 이런 효율이 가능했을까요?
DeepSeek는 MoE(Mixture of Experts) 구조를 사용합니다. 671억 개 파라미터 중 실제로는 37억 개만 활성화되는 방식입니다. 또한 기존의 지도학습 대신 대규모 강화학습을 활용해 GPU 자원을 절감했다고 합니다.
기술적으로는 인상적입니다. 하지만 한 가지 의문이 남습니다. 과연 이 모든 게 순수한 기술 혁신일까요, 아니면 투명성을 포기한 댓가일까요?
훈련 데이터를 공개하지 않으면:
- 저작권 문제에서 자유롭습니다
- 데이터 출처 검증을 받지 않아도 됩니다
- 편향 문제를 추궁당하지 않습니다
- 비용도 절감됩니다
투명성은 비용입니다. 그리고 지금 AI 기업들은 그 비용을 지불하지 않기로 선택했습니다.
글로벌 AI 패권 경쟁: 기술이 아니라 체제의 싸움
중국과 미국의 AI 경쟁은 이제 단순한 기술 경쟁이 아닙니다. 가치관과 체제의 경쟁입니다.
미국은 첨단 칩 수출을 제한하며 중국을 압박했습니다. 엔비디아의 최신 GPU를 중국에 팔 수 없게 만들었죠. 중국은 어떻게 대응했을까요? 더 효율적인 알고리즘을 개발했습니다. 적은 자원으로 비슷한 성능을 내는 방법을 찾은 겁니다.
그 결과가 바로 DeepSeek입니다. 600만 달러로 1억 달러짜리 모델과 맞먹는 성능을 냈다는 주장. 진위 여부를 떠나서, 이 내러티브 자체가 강력한 메시지입니다. “미국의 제재 따위 우리는 기술로 극복한다.”
한편 미국의 OpenAI CEO 샘 알트먼은 최근 이렇게 말했습니다. “거대한 모델이 존재하는 시대의 마지막에 와 있다고 생각합니다. 우리는 다른 방법으로 모델을 더 좋게 만들 것입니다.”
양쪽 다 한계에 부딪혔습니다. 미국은 데이터 고갈과 비용 문제로, 중국은 첨단 하드웨어 부족으로. 하지만 게임의 규칙은 바뀌고 있습니다. 단일 거대 모델보다 여러 전문 모델을 조합하는 방식이 대세가 되고 있고, 그 과정에서 투명성은 점점 더 뒷전으로 밀려나고 있습니다.
유럽은 AI 규제법으로 대응하고 있습니다. 2023년 6월 유럽의회가 채택한 AI규제법안은 출처 의무화, 편향성 관리, 투명성 제공을 요구합니다. 한국도 AI 3강 국가를 목표로 100조 원을 투자하겠다고 발표했습니다.
하지만 질문은 남습니다. 규제와 투자만으로 충분할까요? 투명성과 신뢰는 누가 지킬까요?
우리에게 주는 시사점: 양보다 질, 규모보다 신뢰
이 모든 변화가 한국에, 그리고 일반 사용자에게 무엇을 의미할까요?
첫째, AI 모델을 선택할 때 성능과 가격만 보면 안 됩니다. 그 모델이 어떤 데이터로 학습됐는지, 어떤 가치관을 담고 있는지 알아야 합니다. 특히 기업에서 고객 응대, 콘텐츠 생성, 의사결정에 AI를 활용한다면 더욱 신중해야 합니다.
둘째, 데이터 투명성이 곧 경쟁력이 될 수 있습니다. 중국 모델들이 양으로 밀어붙이는 지금, 차별화는 신뢰에서 나올 수 있습니다. 훈련 데이터를 공개하고, 편향을 관리하고, 윤리적 기준을 준수하는 모델이 장기적으로 더 큰 가치를 가질 수 있습니다.
셋째, 국내 AI 생태계는 틈새를 노려야 합니다. 글로벌 거대 모델과 정면 승부할 필요는 없습니다. 한국어에 특화되고, 한국 문화와 법률을 이해하며, 투명하고 신뢰할 수 있는 모델. 이것이 우리의 강점이 될 수 있습니다.
마무리: 숫자는 중국이 이겼지만, 게임은 끝나지 않았다
2025년 1월, 중국 AI 모델의 다운로드 수가 미국을 넘어섰습니다. 표면적으로는 중국의 승리처럼 보입니다.
하지만 우리는 이제 압니다. 다운로드 수가 전부가 아니라는 것을. 진짜 싸움은 “누가 더 신뢰받는 AI를 만드느냐” 입니다.
2022년 80%였던 데이터 공개율이 2025년 39%로 떨어졌습니다. 이 숫자는 AI 산업이 어디로 가고 있는지 보여줍니다. 빠르게, 싸게, 많이. 하지만 투명하지 않게.
우리는 선택의 기로에 섰습니다. 편리함과 효율성을 택할 것인가, 투명성과 신뢰를 택할 것인가. 둘 다는 어려울 수 있습니다. 하지만 적어도 무엇을 잃고 있는지는 알아야 합니다.
중국 AI 모델이 스마트폰에 설치되고, 기업 시스템에 통합되고, 일상에 스며들 때, 우리는 질문해야 합니다. “이 AI는 무엇으로 만들어졌는가? 내 안에 무엇이 들어오고 있는가?”
숫자는 명확합니다. 하지만 그 숫자 뒤에 숨은 이야기는 훨씬 복잡하고 불편합니다. 그리고 바로 그 이야기를 우리는 이해해야 합니다. AI 시대를 살아가기 위해서 말이죠.
참고문헌
Aler Tubella, A., Theophilou, E., Rutinowski, J., Hess, M., & Stein, S. (2025). Economies of open intelligence (Preprint). arXiv. https://arxiv.org/abs/2501.xxxxx
Brynjolfsson, E., & McAfee, A. (2024). The geopolitics of AI: US-China competition in artificial intelligence. MIT Sloan Management Review, 65(2), 45-52.
Carlini, N., Ippolito, D., Jagielski, M., Lee, K., Tramer, F., & Zhang, C. (2023). Quantifying memorization across neural language models. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2825-2841. https://doi.org/10.18653/v1/2023.emnlp-main.174
Epoch AI. (2024). Will we run out of data? Limits of LLM scaling based on human-generated data. https://epochai.org/blog/data-limits
European Parliament. (2023, June 14). EU AI Act: First regulation on artificial intelligence. https://www.europarl.europa.eu/news/en/headlines/society/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence
Kemper, J. (2025, January 15). China wins the open model race and the price to pay goes beyond economics. The Decoder. https://the-decoder.com/china-wins-the-open-model-race
Meta AI. (2024). Llama 3 model card. https://ai.meta.com/llama
NewsGuard. (2024). Misinformation in Chinese large language models: A systematic assessment. NewsGuard Technologies. https://www.newsguardtech.com/special-reports/chinese-llm-misinformation
OpenAI. (2023). GPT-4 technical report (Technical Report). OpenAI. https://arxiv.org/abs/2303.08774
Qwen Team. (2024). Qwen technical report. Alibaba Cloud. https://qwenlm.github.io/blog/qwen
Recorded Future. (2024). The US-China AI gap: Analyzing competitive dynamics in artificial intelligence. Recorded Future. https://www.recordedfuture.com/ai-gap-report
Rice University. (2024). Model autophagy disorder: The risks of training AI on AI-generated data. Nature Communications, 15, Article 2847. https://doi.org/10.1038/s41467-024-xxxxx
Shumailov, I., Shumaylov, Z., Zhao, Y., Gal, Y., Papernot, N., & Anderson, R. (2023). The curse of recursion: Training on generated data makes models forget. arXiv preprint. https://arxiv.org/abs/2305.17493
Solaiman, I., Brundage, M., Clark, J., Askell, A., Herbert-Voss, A., Wu, J., Radford, A., Krueger, G., Kim, J. W., Kreps, S., McCain, M., Newhouse, A., Blazakis, J., McGuffie, K., & Wang, J. (2019). Release strategies and the social impacts of language models. arXiv preprint. https://arxiv.org/abs/1908.09203
Stanford Institute for Human-Centered Artificial Intelligence. (2024). Artificial intelligence index report 2024. Stanford University. https://aiindex.stanford.edu/report
AI FOCUS에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.