AI 인터뷰 및 최신 동향

DeepSeek의 과장과 진실에 대하여

MinasAnor 2025. 1. 28. 01:52

언제나 훌륭한 인사이트를 주는 벤 톰슨이 새로운 글을 남겼습니다.

 

 

무슨 이야기를 하는지 들어볼까요?

 

질문:
“오늘이 1월 27일 월요일인데, 왜 아직 DeepSeek에 대해 글을 쓰지 않았나요?”

답변:
“이미 썼습니다! 지난 화요일에 R1에 대해 글을 올렸어요.”

질문:
“아 맞다, 그걸 깜빡했네요.”

답변:
“제가 책임지겠습니다. 그 글의 내용은 여전히 유효하다고 생각해요. 특히 제가 강조했던 두 가지 포인트—순수한 강화학습을 통해 얻어진 새로운 체인 오브 생각(chain-of-thought)과 디스틸레이션(distillation)의 힘—그리고 낮은 비용(Sharp Tech에서 자세히 다뤘죠), 그리고 칩 규제와 관련된 함의도 포함해서요. 다만 제가 놓쳐버렸던 부분은, 지금의 AI 최첨단 기술 수준에 대한 ‘지역적인’ 분석을 넘어서는, 좀 더 넓은 맥락에서의 파급 효과예요. 특히 미국과 중국의 큰 그림 관점에서 이번 소식이 어떤 의미를 갖는지 예측하지 못했습니다.”


질문:
“이런 실수가 전에도 있었나요?”

답변:
“있었습니다. 2023년 9월에 화웨이가 SMIC에서 제조한 7nm 칩이 탑재된 Mate 60 Pro를 발표했을 때도 비슷한 일이 있었죠. 그 칩의 존재 자체는, 잘 살펴보던 사람들에게는 전혀 놀라운 일이 아니었어요. SMIC가 1년 전에도 7nm 칩을 만들었고(저는 그보다 더 일찍 그 가능성을 언급했었어요), TSMC도 DUV 리소그래피만으로 7nm 칩을 대량 생산한 적이 있었어요(나중에 나온 7nm 공정들은 EUV를 쓰긴 했지만요). 인텔도 10nm(대략 TSMC 7nm에 해당)를 전부 DUV로 만들어낸 적이 있었는데, 그건 수율 문제로 수익성을 확보하지 못했을 뿐이죠. 그래서 SMIC가 보유한 장비만으로 7nm를, 수율은 좀 희생하더라도 만들 수 있다는 건 전혀 놀랍지 않았습니다—적어도 제게는요.

그런데 제가 전혀 예상하지 못했던 건, 워싱턴 D.C.가 ‘과하게 반응’한 거예요. 결국 화웨이 Mate 60 Pro에 대한 충격이 커서, 칩 수출 규제가 대폭 강화되었고, 바이든 행정부가 칩 판매를 아예 허가 기반(permission-based) 구조로 바꿔버렸죠. 지난 72시간 동안 DeepSeek 뉴스에 대해 터져나온 반응도 이와 유사해 보이는데요. DeepSeek이 무엇을 해냈고 무엇을 못했는지보다도, 사람들의 ‘사전에 갖고 있던 전제’를 드러내는 반응 자체가 중요한 것 같습니다.”


질문:
“그럼 DeepSeek이 이번에 뭘 발표했나요?”

답변:
“이번 주말에 일어난 ‘메가톤급 반응’을 직접적으로 유발한 발표는 R1, 즉 오픈AI의 o1과 유사한 추론 모델(reasoning model)입니다. 하지만 사실상 이번 반응을 촉발한 여러 정보—예컨대 DeepSeek의 훈련 비용 같은 것들—은 이미 지난 크리스마스 때 공개된 V3 발표 때 포함되어 있었어요. 게다가 V3를 가능케 한 여러 혁신은 지난 1월에 발표된 V2 모델 때 이미 어느 정도 공개된 것들이기도 합니다.”


질문:
“이 모델 이름 체계가 오픈AI가 저지른 가장 큰 ‘범죄’ 아닌가요?”

답변:
“두 번째로 큰 범죄라고 할 수 있죠. 첫 번째로 큰 범죄는 곧 말씀드릴게요.”


질문:
“그럼 V2 모델이 뭔지부터 거슬러 올라가 봅시다. 왜 그게 그렇게 중요한가요?”

답변:
“DeepSeek-V2 모델에는 두 가지 중요한 혁신이 담겼습니다. 하나는 DeepSeekMoE이고, 다른 하나는 DeepSeekMLA예요. 먼저 ‘MoE’는 mixture of experts(전문가 혼합)라는 뜻인데, 예를 들어 GPT-3.5 같은 모델들은 훈련이든 추론이든 모델 전체를 전부 활성화합니다. 하지만 실제로는 특정 주제 처리에 모델의 모든 부분이 다 필요하지는 않아요. MoE 구조는 모델을 여러 ‘전문가(expert)’로 분할하고, 필요한 부분만 활성화합니다. GPT-4도 MoE 모델로 추정되는데, 대략 1,100억(110B) 파라미터씩 가진 전문가 16개로 구성된 것으로 알려져 있어요.

DeepSeekMoE(즉 DeepSeek 방식의 MoE)는 V2에서 더 정교한 개선을 선보였는데, 예컨대 세분화된 전문 전문가들과, 보다 일반화된 능력을 가진 공유 전문가들을 구분한다든지 하는 식이죠. 특히 중요한 점은, 기존 MoE는 추론 시 효율적이라는 장점이 있지만, 훈련 단계에서 통신 오버헤드(여러 전문가 간에 주고받는 정보량)가 커져서 비효율이 생기는 경우가 많았는데, DeepSeekMoE는 훈련 단계에서도 통신 오버헤드를 줄이도록 균형 잡기(load-balancing)와 라우팅(routing) 방식을 개선했다는 점이에요.

DeepSeekMLA는 훨씬 더 큰 혁신이었습니다. 추론에서 가장 큰 제한 요소 중 하나가, 어마어마한 양의 메모리 사용량이에요. 모델 전체를 메모리에 로드해야 하고, 긴 문맥(context window)에 들어가는 모든 토큰을 키(key)와 값(value) 형태로 저장해야 하죠. 토큰이 늘어나면 저장해야 하는 key-value가 기하급수적으로 늘어서 메모리 부담이 커집니다. DeepSeekMLA, 즉 multi-head latent attention은 이 key-value 스토어 자체를 압축할 수 있게 해줘서, 추론 시 필요한 메모리를 크게 줄였어요.”


질문:
“솔직히 잘 이해가 안 되는데요.”

답변:
“알아야 할 핵심은 다음과 같아요. V2에서 소개된 이 기술들이, V3가 발표되면서 진가를 발휘했다는 거예요. V3에서는 통신 오버헤드를 더 줄이는 새로운 로드 밸런싱 방식과, 훈련 단계에서 여러 토큰을 동시에 예측(multi-token prediction)하는 기법이 추가됐는데, 이로써 훈련 효율이 또 크게 향상됐죠. 그리고 V3를 훈련하는 비용이 ‘말도 안 될 정도로’ 낮았어요. DeepSeek에 따르면 훈련에 사용된 H800 GPU 시간이 278.8만(2,788K) 시간이었고, GPU 한 시간당 비용을 2달러로 계산하면 약 557.6만 달러(5.576M 달러)밖에 안 됩니다.”


질문:
“그건 아무리 봐도 말이 안 되게 낮은데요.”

답변:
“DeepSeek도 그 수치가 ‘최종 훈련(finished training)’ 비용만을 계산한 것이고, 그 외 모든 비용은 제외한 거라고 분명히 밝히고 있어요. V3 논문에 이런 문구가 있습니다:

마지막으로, DeepSeek-V3의 경제적 훈련 비용을 다시 강조합니다. 이는 표 1에 요약되어 있으며, 알고리즘·프레임워크·하드웨어를 공동 설계(co-design)한 최적화의 결과입니다. 사전훈련(pre-training) 단계에서, DeepSeek-V3를 1조(1 trillion) 개 토큰당 훈련하는 데 필요한 시간은 H800 GPU 시간으로 18만(180K) 시간이며, 즉 2,048개의 H800 GPU가 있는 클러스터를 사용했을 때 3.7일이 걸립니다. 따라서 14.8조 개의 토큰을 사용하는 사전훈련 단계는 2개월도 채 걸리지 않으며, 총 266.4만(2,664K) GPU 시간이 듭니다. 여기에 문맥 길이(context length) 확장에 필요한 11.9만(119K) GPU 시간과 후속 훈련(post-training)에 필요한 5천(5K) GPU 시간을 합치면, DeepSeek-V3 전체 훈련에 278.8만(2.788M) GPU 시간이 소요됩니다. H800 GPU 사용료를 시간당 2달러로 가정하면, 총 훈련 비용은 약 557.6만 달러(5.576M 달러)입니다. 다만, 이 비용 추산에는 DeepSeek-V3의 ‘공식 훈련(official training)’에만 해당하며, 모델 구조·알고리즘·데이터에 대한 사전 연구나, 다양한 옵션을 비교하는 실험(ablation experiments) 비용 등은 포함되지 않았다는 점을 다시 말씀드립니다.

즉, DeepSeek이라는 회사 전체를 통째로 재현하려면 당연히 이보다 훨씬 많은 돈이 들겠죠. 하지만 ‘최종 훈련만 놓고 보자면’ DeepSeek이 제시한 수치 자체는 말이 돼요.”


질문:
“Scale AI의 CEO 알렉산드르 왕(Alexandr Wang)이, DeepSeek이 H100을 5만(50,000) 개 갖고 있다고 하던데요?”

답변:
“알렉산드르 왕이 어디서 그 정보를 얻었는지는 모르겠지만, 제 추측으로는 2024년 11월에 딜런 파텔(Dylan Patel)이 트위터에 ‘DeepSeek은 호퍼(Hopper) GPU 5만 개 넘게 보유 중’이라고 적은 트윗을 언급하는 것 같아요. 그런데 H800도 호퍼(Hopper) 계열 GPU예요. 다만 미국의 제재 때문에 H100에 비해 메모리 대역폭(memory bandwidth)이 훨씬 제한되어 있죠.

여기서 중요한 점은, 제가 위에서 자세히 말했던 DeepSeek의 여러 혁신들은 H800을 사용할 때 생기는 낮은 메모리 대역폭 문제를 해결하기 위해 고안된 것들이라는 거예요. 게다가 이전 질문에서 말한 계산을 실제로 해보시면, DeepSeek은 엄청나게 큰 컴퓨팅 리소스가 남는 구조로 보일 수 있는데, 그건 DeepSeek이 H800의 각 칩에서 132개 프로세싱 유닛 중 20개를 칩 간 통신 전담으로 할당했기 때문입니다. 이건 CUDA로는 불가능하고, PTX라는, 어셈블리 언어와 비슷한 저수준(low-level) Nvidia GPU 명령어 집합까지 내려가서 프로그래밍해야 가능해요. 이 정도로 ‘미친 수준의 최적화’를 한 것은, 오직 H800만으로 이 모든 작업을 해야 한다는 전제여야만 말이 됩니다.

그리고 DeepSeek은 모델 서비스(추론 제공)도 같이 하고 있잖아요. 그럼 훈련에 쓰는 GPU 외에도 엄청나게 많은 GPU가 추가로 필요합니다.”


질문:
“그렇다면 칩 규제 위반 아닙니까?”

답변:
“아니에요. 규제는 H100을 막았지, H800은 금지하지 않았거든요. 다들 최첨단 모델을 훈련하려면 더 높은 칩 간 메모리 대역폭이 필요하다고 생각했고, 그래서 H800으로는 그렇게 못할 거라고 여기곤 했는데, DeepSeek은 오히려 그 ‘낮은 대역폭’이라는 한계를 극복하도록 모델 구조와 인프라를 전부 최적화했습니다.

다시 강조하지만, DeepSeek이 내린 이런 모든 결정들은 H800이라는 제약이 전제되어야만 말이 돼요. 만약 DeepSeek이 H100을 쓸 수 있었다면, 훨씬 더 적은 최적화로도 쉽게 대형 클러스터를 구성해 훈련을 돌렸을 겁니다.”

 

질문:
“그럼 V3가 최첨단(leading edge) 모델인가요?”

답변:
“적어도 OpenAI의 4o나 Anthropic의 Sonnet-3.5와 경쟁할 만한 수준인 것은 확실해 보이고, Llama의 가장 큰 모델보다도 더 나아 보입니다. DeepSeek이 이 모델들을 ‘디스틸(distill)’해서, V3가 학습할 때 품질 높은 토큰을 확보했을 가능성이 꽤 높아 보이네요.”


질문:
“디스틸레이션(distillation)이 뭔가요?”

답변:
“디스틸레이션은 다른 모델에서 이해를 추출해내는 방법입니다. 예컨대 ‘선생(teacher)’ 모델에 다양한 입력을 넣어서 그 출력을 얻고, 이걸 다시 ‘학생(student)’ 모델 학습에 사용하는 방식이죠. OpenAI의 GPT-4를 활용해 GPT-4 Turbo 같은 모델을 만들어내는 것도 이와 같은 방식이고요.
회사 내부 모델이라면 (API 제한 없이) 완전히 접근할 수 있으니 디스틸레이션이 수월한데, 그래도 API를 통해서든, 혹은 채팅 클라이언트를 통한 우회 같은 방식을 활용해서든, 다소 불편하게나마 디스틸레이션을 시도할 수는 있습니다.

물론 여러 모델의 서비스 약관에 따르면 디스틸레이션은 명백히 금지되어 있어요. 하지만 이를 막으려면 IP 차단이나 속도 제한(rate limiting) 등을 통해 접속 자체를 끊는 수밖에 없습니다. 이런 디스틸레이션이 실제로 모델 개발 현장에서 광범위하게 이루어지고 있다고 추정하고 있고요. 그래서 GPT-4o(‘GPT-4 오픈소스 수준 모델’)에 근접한 성능을 내는 모델들이 계속 늘어나는 거죠. 이게 DeepSeek이 4o나 Claude(Anthropic의 모델)로부터 디스틸레이션을 받았다는 결정적 증거는 아니지만, 솔직히 안 했을 리가 있을까 싶을 정도로 흔한 방법입니다.”


질문:
“최첨단 모델 입장에서는 디스틸레이션이 불리하겠네요?”

답변:
“맞습니다! 긍정적인 면을 보자면, OpenAI, Anthropic, Google 같은 기업들도 디스틸레이션을 활용해 자사 서비스용 모델(즉, 소비자에게 제공하는 추론 모델)을 최적화하고 있을 거예요. 부정적인 면은, 이들이 최첨단 모델을 훈련하는 데 들어가는 모든 비용을 사실상 떠안게 된다는 거죠. 그리고 그 비용에 무임승차(free-ride)하는 이들이 생겨나면서, leading edge 모델이 금방 ‘상품화(commoditized)’되는 결과를 낳게 됩니다.

바로 이 점이, 마이크로소프트와 OpenAI가 서서히 결별하게 되는 근본적인 경제적 요인 같아요. 마이크로소프트 입장에서는 고객들에게 추론 서비스를 제공하는 데 관심이 있지만, 최첨단 모델을 훈련하느라 1,000억 달러 규모의 데이터 센터를 지어야 한다면 그다지 매력적이지 않겠죠. 왜냐하면 그 모델들이, 그 1,000억 달러가 감가상각되기 전에 이미 ‘상품화’될 가능성이 꽤 높으니까요.”


질문:
“이런 이유로 빅테크(Big Tech) 기업들의 주가가 떨어지는 건가요?”

답변:
“장기적으로 보면, 모델이 상품화되고 추론 비용이 싸지는 건 빅테크에게 유리합니다. DeepSeek이 시연해 보였듯이 추론 비용이 크게 줄어드는 세계에서는, 예를 들어 마이크로소프트가 지금보다 훨씬 적은 비용으로 고객에게 추론 서비스를 제공할 수 있어요. 혹은 같은 비용으로 훨씬 더 많은 사용량을 감당할 수 있게 될 수도 있죠.
또 하나의 큰 수혜자는 아마존입니다. AWS는 자체적으로 수준 높은 모델을 아직 만들어내지 못했지만, 아주 품질이 높은 오픈소스 모델이 무료에 가깝게 풀려 있다면 그걸 가지고 더 낮은 비용에 서비스를 제공할 수 있으니까요.

애플 역시 큰 수혜자예요. 메모리 요구량이 급격히 줄면, 엣지(Edge) 디바이스에서의 추론이 훨씬 실현 가능해지는데, 애플은 그 분야에 최적화된 하드웨어를 이미 갖추고 있으니까요. 애플 실리콘(Apple Silicon)은 CPU, GPU, NPU(신경 처리 장치)가 모두 통합 메모리(unified memory)를 공유하거든요. 즉, 애플의 고성능 기기는 실제로 개인 소비자용 추론 칩으로는 최고 수준의 하드웨어가 됩니다. (엔비디아의 게이밍 GPU는 VRAM이 최대 32GB지만, 애플 칩은 최대 128GB의 RAM을 활용할 수 있죠.)

메타(Meta)는 그중에서도 아마 가장 큰 수혜자입니다. 작년 가을에도 제가 Meta의 비즈니스 전체가 AI로부터 얼마나 큰 이득을 얻게 될지 설명했는데, 그 비전을 실현하는 데 있어 가장 큰 장애물이 추론 비용이었어요. 그런데 추론 비용이 크게 감소하고, 또 최첨단을 유지하기 위한 훈련 비용도 함께 싸지면, 그 비전이 훨씬 가까워진 셈이죠.

구글(Google)은 상대적으로 더 안 좋은 상황이라고 봅니다. 하드웨어 요구 사항이 낮아지는 세계에서는, 그동안 구글이 TPU를 통해 누려왔던 이점이 상대적으로 줄어들 거예요. 더 중요한 건, ‘추론 비용이 제로’에 가깝게 되는 상황에서는 검색을 대체할 만한 서비스들이 대거 탄생할 가능성이 높아지고, 그 생태계가 활성화될 가능성도 높아지거든요. 물론 구글도 자체 비용을 줄일 수 있다는 이점이 있지만, 기존 체제를 그대로 유지하는 것보다 변화가 생기는 게 구글에게 꼭 좋은 일이라고 보긴 어렵습니다.”


질문:
“근데 왜 주가는 떨어지냐고 물었는데, 지금 그림은 오히려 밝아 보이는데요!”

답변:
“제가 말한 건 장기적인 전망이에요. 오늘 하루 주가는 단기적인 충격에 반응하고 있을 테니, R1의 등장과 관련된 ‘충격’이 시장에서 아직 정리되지 않았다고 봐야죠.”


질문:
“아니, 아직 R1 이야기도 안 했는데요?”

답변:
“R1은 OpenAI의 o1과 비슷한 추론 모델(reasoning model)입니다. 어떤 문제를 논리적으로 사고하는 과정을 거쳐, 특히 코딩이나 수학, 논리(결국 셋 다 같은 거긴 하지만) 같은 영역에서 훨씬 더 고품질의 결과물을 낼 수 있죠.”


질문:
“V3보다 R1이 더 인상적인가요?”

답변:
“사실 제가 V3 이야기를 길게 했던 이유가, V3가 바로 사람들이 지금 보고 놀라고 논란 삼고 있는 여러 ‘역학(dynamics)’을 이미 잘 보여준 모델이기 때문입니다. 물론 R1도 눈여겨볼 부분이 있어요. OpenAI가 시장에서 유일하게 ‘추론 모델’을 가졌다고 간주되던 상황을 깨뜨렸다는 점이 크죠.

R1은 오랫동안 구축되어 온 o1의 ‘신화’를 두 가지 면에서 무너뜨립니다. 첫째, 존재 자체가 그렇습니다. ‘OpenAI만의 특별한 비법’ 같은 게 있는 게 아니라는 거죠. 둘째, R1—DeepSeek의 다른 모델들과 마찬가지로—가중치(weights)를 공개했다는 점입니다(다만 입력 데이터는 공개되지 않았으니 ‘오픈소스’라고 부르긴 어렵지만요). 이제 굳이 OpenAI에 돈을 낼 필요 없이, 원하는 서버나 로컬 환경에서, 훨씬 저렴하게 R1을 돌릴 수 있게 된 겁니다.”


질문:
“그럼 DeepSeek은 R1을 어떻게 만든 건가요?”

답변:
“DeepSeek은 사실 R1과 R1-Zero, 이렇게 두 가지 모델을 만들었어요. 개인적으로는 R1-Zero 쪽이 더 큰 사건이라고 생각합니다. 지난 화요일에 제가 쓴 업데이트에서도 이걸 가장 강조했었거든요.

R1-Zero가 왜 중요하냐면, 논문에 따르면 이렇습니다:

본 논문에서는 순수한 강화학습(RL)만을 사용하여 언어 모델의 추론 능력을 향상시키는 첫 시도를 합니다. 우리의 목표는 LLM이 감독 학습 데이터 없이도 자체적으로 추론 역량을 개발할 가능성을 탐구하는 것이며, 구체적으로 순수 RL 과정을 통한 자가 진화를 중점적으로 다룹니다. 우리는 DeepSeek-V3-Base 모델을 시작점으로 삼고, GRPO라는 RL 프레임워크를 사용해 추론 성능을 향상시킵니다. 이 훈련 과정에서 DeepSeek-R1-Zero는 자연스럽게 강력하고 흥미로운 여러 추론 행동을 습득했습니다. 수천 번의 RL 스텝을 거치면서 DeepSeek-R1-Zero의 여러 추론 벤치마크 성능이 크게 향상되었습니다. 예컨대 AIME 2024 테스트에서 pass@1 점수가 15.6%에서 71.0%로 향상되었고, 여기에 다수결(majority voting)을 적용하면 점수가 86.7%까지 오르는데, 이는 OpenAI-o1-0912 모델과 동등한 수준입니다.

강화학습이란, 모델에게 데이터와 보상 함수를 주고 스스로 답을 찾아가게 하는 기법이죠. 가장 유명한 예로 AlphaGo가 있는데, 딥마인드가 규칙과 ‘이기면 보상을 받는다’는 보상 함수를 주었더니, 모델 스스로 (인간이 가르치지 않은) 방법으로 바둑을 학습하고 결국 최고의 프로 기사들을 이겼죠.

그런데 지금까지의 LLM은 보통 인간 피드백을 결합한 강화학습(RLHF)에 의존했어요. 사람이 모델의 출력 품질을 평가하고, 보상 신호를 주고, 모델이 실수하는 지점들을 교정해주고 하는 식이죠. RLHF가 GPT-3를 ChatGPT로 ‘변신’시키는 핵심 아이디어였고, 그 덕분에 문장이 매끄럽고 짧고 일관성 있게 변했습니다.

그런데 R1-Zero는 HF(human feedback)를 뺀, 말 그대로 ‘순수 RL’이에요. DeepSeek이 이 모델에 수학, 코딩, 논리 문제를 잔뜩 제공하고, 올바른 답을 내면 보상을 주고, 체계적인 사고 과정을 담은 형식(‘생각의 흐름’을 드러내는 형식)을 잘 갖추면 또 보상을 주는 식이죠. 그리고 이 과정을 아주 단순화해서, 단계별 추론(‘process supervision’)을 하나하나 평가하거나, 알파고처럼 가능한 모든 답을 검색하진 않고, 한 번에 여러 답안을 시도해 본 다음 올바른 포맷과 정답 여부로 보상을 주는 방식을 택했습니다.

그러자 모델 내부적으로 스스로 추론하고 ‘체인 오브 생각(chain-of-thought)’을 만들어내는 능력이 발현되었는데, DeepSeek은 이를 ‘Aha Moment(아하 모멘트)’라고 부르더군요:

DeepSeek-R1-Zero 훈련 과정에서 특히 흥미로운 현상은 ‘아하 모멘트(aha moment)’입니다. 표 3에 예시가 나와 있듯이, 중간에 어느 순간 DeepSeek-R1-Zero가 문제를 다시 살펴보며 더 긴 생각 시간을 배정해보려는 행동 패턴을 보이기 시작합니다. 이는 모델이 추론 능력을 키워나가고 있다는 강력한 증거이자, 강화학습이 예기치 못한 정교한 결과를 낳을 수 있음을 보여주는 흥미로운 사례입니다.

이 ‘아하 모멘트’는 모델 자체뿐 아니라, 이를 관찰하는 연구자들에게도 놀라운 순간이었습니다. 이는 강화학습의 강력함과 아름다움을 잘 보여주는 사례라 할 수 있습니다. 모델이 문제를 푸는 구체적인 방식을 일일이 가르쳐주지 않아도, 적절한 인센티브만 주면 모델이 스스로 고도화된 문제 해결 전략을 발달시키기 때문이죠. 이 ‘아하 모멘트’는 인공지능 시스템에 더 높은 자율성과 적응력을 부여할 수 있는 강화학습의 잠재력을 다시금 일깨워줍니다. 미래에는 더욱 자율적이고 적응력 있는 모델들이 등장할 가능성을 시사하지요.

이건 ‘The Bitter Lesson’을 다시 한번 강력하게 입증하는 사례 같습니다. 즉, AI에게 ‘추론하는 방법’을 직접 가르칠 필요 없이, 충분한 연산 자원과 데이터를 주면 스스로 배우게 된다는 말이죠.

물론 약간의 예외는 있습니다. R1-Zero는 분명히 ‘추론’을 하긴 하지만, 사람이 알아보기엔 다소 어려운 방식으로 한다는 점이에요. 논문 서론 일부를 다시 보면:

하지만 DeepSeek-R1-Zero는 가독성이 떨어지고(poor readability), 언어를 섞어 쓰는(mixing) 등의 문제를 겪습니다. 이를 해결하고 추론 성능을 더욱 높이기 위해 우리는 DeepSeek-R1 모델을 제안합니다. 이를 위해 극소량의 콜드 스타트(cold-start) 데이터를 투입하고, 여러 단계를 거치는 훈련 파이프라인을 구성했습니다. 먼저 DeepSeek-V3-Base 모델에 몇 천 건의 콜드 스타트 데이터를 입력해 파인튜닝을 거친 뒤, DeepSeek-R1-Zero와 유사한 방식(순수 RL)으로 추론 역량을 강화합니다. RL 과정이 어느 정도 수렴에 가까워지면, RL 체크포인트를 대상으로 거부 샘플링(rejection sampling)을 통해 새로운 SFT 데이터를 만들고, DeepSeek-V3에서 가져온 지도학습 데이터(예: 글쓰기, 사실성 QA, 자기 인식(self-cognition) 등)를 결합해 다시 DeepSeek-V3-Base 모델을 학습합니다. 이렇게 파인튜닝을 거치고, 다시 여러 시나리오에서 생성된 프롬프트를 이용해 추가 RL 과정을 거치면, 최종적으로 DeepSeek-R1이라는 체크포인트가 완성됩니다. 우리는 이를 OpenAI-o1-1217 수준의 성능이라 부르고 있습니다.

이 설명은 사실상 OpenAI가 o1을 만들어낸 과정과도 비슷하죠. DeepSeek은 먼저 체인 오브 생각 예시를 모델에게 어느 정도 보여줘서(즉, 콜드 스타트 데이터) 사람이 이해하기 쉬운 출력 형식을 학습시키고, 그 뒤 강화학습으로 추론 역량을 높이고, 또 중간중간 편집·개선 단계를 거쳐서 최종적으로 사람에게 친화적인, o1에 맞먹는 모델을 얻어낸 겁니다.

여기서도 DeepSeek이 디스틸레이션을 활용했을 가능성이 매우 높아 보이는데, R1 모델을 훈련할 때도 그랬을 수 있죠. 하지만 이것 자체가 중요한 시사점을 줍니다. 즉, AI 모델끼리 서로를 가르치고, AI 모델이 또 스스로 자신을 가르치는 상황이 벌어지고 있다는 겁니다. 우리는 사실상 ‘AI 이륙(take-off) 시나리오’가 실시간으로 전개되고 있는 걸 지켜보는 셈이죠.”


질문:
“그렇다면 우리, 거의 AGI(Artificial General Intelligence)에 가까워진 건가요?”

답변:
“그렇게 보입니다. 이건 소프트뱅크(Softbank)나 손정의(손 마사요시)가 유치해 온 투자자들이 왜 마이크로소프트 대신 OpenAI에 자금을 대겠다고 하는지 설명해 주는 부분이죠. ‘AI 폭주’가 곧 일어나고, 선두에 서면 실제로 엄청난 수익이 돌아올 거라는 믿음이 있으니까요.”

 

질문:
“그렇다면 이제 R1이 선두에 선 건가요?”

답변:
“그렇다고 보긴 어렵습니다. R1이 o1과 경쟁 가능한 수준인 건 맞지만, 일부 역량의 빈틈을 보면 o1-Pro로부터 어느 정도 디스틸레이션(distillation)을 받았다는 정황이 엿보입니다. 한편 OpenAI는 훨씬 더 강력한 추론 모델인 o3를 이미 시연해 보였어요. DeepSeek이 효율성 면에서는 확실한 선두지만, 그게 전체적으로 최고의 모델이라는 뜻은 아닙니다.”


질문:
“그럼 왜 다들 이렇게 호들갑인가요?”

답변:
“여러 가지 요인이 있습니다.
첫째, ‘중국은 소프트웨어 분야에서 미국보다 뒤처져 있다’는 널리 퍼진 가정과 달리, 중국이 미국의 선두 연구소들과 어깨를 나란히 하고 있다는 점에서 받은 충격이 크죠. 저는 개인적으로 이 점을 많이 놓쳤던 것 같아요. 실제로 중국은 일반 소프트웨어 산업에서 이미 매우 높은 수준의 역량을 가지고 있고, AI 모델 개발에 있어서도 상당히 우수한 실적을 보여 왔습니다.

둘째, V3의 낮은 훈련 비용과 DeepSeek이 구현한 낮은 추론 비용이죠. 저 역시 이것은 깜짝 놀랄 만한 부분이었지만, 계산상으로는 가능한 수치라는 게 어느 정도 입증됐습니다. 이로 인해 당연히 엔비디아(Nvidia)에 대한 우려도 커진 것 같고요. 시장 전반에 큰 파장을 줬습니다.

셋째, DeepSeek이 칩 수출 규제(chip ban)를 뚫고 이 성과를 냈다는 점입니다. 다만 여기서도, 칩 규제가 큰 허점을 갖고 있다는 건 사실이고, DeepSeek이 이 프로젝트를 합법적으로 구입한 칩(H800 등)을 사용해 이뤄냈을 가능성이 높다고 봐요.”


질문:
“전 엔비디아 주식을 갖고 있는데, 이제 망한 건가요?”

답변:
“이번 소식이 엔비디아 스토리에 몇 가지 ‘진짜 어려운 과제’를 던졌다는 건 사실이에요. 엔비디아가 지닌 큰 ‘해자(moat)’는 두 가지입니다.

  1. CUDA가 이 분야에서 사실상 표준 언어 역할을 하고 있다는 점. 이건 오직 엔비디아 칩에서만 동작합니다.
  2. 여러 GPU 칩을 하나의 ‘거대한 가상 GPU’로 통합하는 능력에서 엔비디아가 크게 앞서 있다는 점.

이 두 가지 해자는 서로를 강화하는 구조예요. 이전에도 언급했듯이, DeepSeek이 만약 H100을 사용할 수 있었다면, 훨씬 더 큰 클러스터를 이용하는 편을 택했을 거예요. 그런 클러스터 구성이 (최적화하는 것보다) 더 손쉬운 선택이었을 테니까요. 그런데 H100을 못 쓰는 상황에서 메모리 대역폭이 제한적이다 보니, 모델 구조와 훈련 인프라 전반을 최적화해야만 했던 거죠. 미국의 주요 연구소들은 이런 최적화를 그다지 많이 하지 않은 게 사실입니다. 엔비디아가 점점 더 강력한 시스템을 내놓으니, 그냥 돈을 내고 그 장비를 쓰면 됐으니까요. 그런데 DeepSeek은 ‘약한 하드웨어와 낮은 메모리 대역폭’이라는 한계를 극복하기 위해 극단적인 최적화를 시도했고, 놀라운 결과를 보여줬습니다. 즉, ‘더 비싼 엔비디아 칩을 더 많이 사서 쓰는 것만이 정답’은 아니라는 걸 증명해 버린 거죠.

그럼에도 불구하고 엔비디아에게 유리한 세 가지 요소가 남아 있습니다.
첫째, DeepSeek의 접근 방식을 H100이나 향후 나올 GB100 같은 칩에 적용한다면 얼마나 더 강력해질까요? 더 효율적으로 계산을 사용하는 방법을 찾았다고 해도, 더 많은 계산 자원 자체가 여전히 유효하긴 합니다.
둘째, 추론 비용이 낮아지면 장기적으로 사용량이 늘 겁니다. 마이크로소프트 CEO 사티아 나델라도 심야 트윗에서 이 점을 암시했는데, 아마 시장을 향해 신호를 보낸 것 같아요.
셋째, R1이나 o1 같은 ‘추론 모델(reasoning model)’은 더 많은 계산 자원(compute)을 사용할수록 성능이 향상됩니다. 인공지능의 성능을 높이는 방법이 여전히 ‘더 많은 계산’에 달려 있다면, 엔비디아는 그만큼 수혜를 볼 가능성이 있죠.

그렇다고 장밋빛 전망만 있는 건 아닙니다. 최소한 DeepSeek이 보여준 ‘효율성’과 ‘광범위한 공개’는, 단기적으로 엔비디아의 가장 낙관적인 성장 스토리에 의문 부호를 달게 만들었죠. 그리고 모델 및 인프라 최적화를 통해 더 큰 이득을 볼 수 있다는 게 확인됐으니, 특히 추론 단계에서는 엔비디아 GPU 대신 다른 대안들로도 충분히 가능하겠다는 시나리오가 열렸습니다. 예를 들어, AMD GPU 하나만으로도 추론을 할 수 있다면, AMD 쪽이 ‘칩 간 통신 성능이 떨어진다’는 단점을 상쇄할 수 있는 가능성이 있죠. 더 나아가, 추론만을 위한 전용 칩(엔비디아 GPU보다 더 특화된)이 각광받을 수도 있고요.

요약하자면, 엔비디아가 사라지진 않을 겁니다. 하지만 엔비디아 주가는 이제까지 고려되지 않았던 불확실성에 노출됐고, 이는 전체 시장에도 하방 압력을 줄 겁니다.”


질문:
“그럼 칩 수출 규제(chip ban)는 어떻게 되는 건가요?”

답변:
“‘칩 수출 규제가 훨씬 더 중요해졌다’고 주장할 수도 있어요. 미국이 보유한 소프트웨어 경쟁 우위가 빠르게 줄어들고 있으니, 그 빈자리를 규제로 보완해야 한다고 볼 수도 있죠. 소프트웨어나 기술적 노하우(knowhow)는 물리적으로 봉쇄하기 어렵지만, 칩이라는 물리적 재화를 제한하는 건 상대적으로 더 쉬우니까요.

하지만 지금까지의 칩 수출 규제가 DeepSeek의 혁신을 오히려 부추긴 것일 수 있다는 점도 직시해야 합니다. 그리고 그 혁신은 밀수된 엔비디아 칩이나 ‘너프된’ H800에만 적용되는 게 아니라, 화웨이의 Ascend 칩에도 적용될 수 있죠. 어쩌면 칩 수출 규제의 가장 직접적인 결과가 ‘오늘의 엔비디아 주가 폭락’일지도 모르겠습니다.

문제는 ‘칩 수출 규제’ 같은 조치에 깔린 사고방식인데, 이는 미국이 미래에 혁신으로 경쟁하기보다는, 과거의 혁신을 상대방에게 못 쓰게 막음으로써 경쟁하려 한다는 의미거든요. 단기적으로야 효과가 있을 겁니다—DeepSeek이 더 많은 컴퓨팅 자원을 썼다면 훨씬 더 강력했을 테니까요. 하지만 장기적으로 보면, 미국이 지배력을 갖고 있는 반도체·장비 산업 분야에서조차, ‘경쟁자’를 스스로 만들어내는 꼴이 될 수도 있죠.”


질문:
“AI 모델 얘기가 나오네요?”

답변:
“AI 모델이 좋은 예입니다. 제가 위에서 ‘OpenAI의 가장 큰 범죄’라고 언급하겠다고 했는데, 그게 바로 2023년에 바이든 행정부가 내놓은 ‘AI 행정명령(Executive Order)’이에요. 이를 제가 전에 쓴 글에서 언급한 적이 있는데, 요점은 이겁니다:

규제(Regulation)는 인사이트나 소규모 기업을 보호하기보다는, 주로 기존의 기득권(incumbent)들이 이익을 보장받도록 만들어지는 경우가 많습니다. 그런데 초기 AI 승자들이, 동시에 워싱턴 D.C.에 AI에 대한 경각심을 가장 적극적으로 표출하고 있다는 점은 주목할 만합니다. 정작 그들은 자신들의 AI 연구 개발을 멈추지는 않거든요. 대신 ‘우리는 책임감 있는 집단’이라고 자처하면서, 규제가 필요하다고 외치고 있죠. 그리고 이 규제가 ‘필연적으로’ 따라올 경쟁자들을 옥죄는 효과가 있다면, 그들은 더 큰 이득을 보게 됩니다.

이 문단은 특히 OpenAI, 그리고 샌프란시스코 중심 AI 커뮤니티 전반을 겨냥한 말이었습니다. 수년간 우리는 AI의 위험성에 대해 경고하는 목소리를 같은 사람들에게서 들어왔는데, 그들은 또 동시에 AI를 ‘개발하고 통제해야 한다’고 주장해 왔어요. 이른바 ‘AI는 위험하니 우리가 통제해야 한다’는 논리죠.

사실 OpenAI가 2019년에 GPT-2를 발표하면서 ‘폐쇄 정책’으로 선회한 것도 이와 같은 명분에서였습니다:

대규모 언어 모델이 무분별하게 활용되어 대규모 허위정보(deceptive), 편향적(biased), 폭력적(abusive) 언어를 생성할 수 있다는 우려 때문에, 우리는 GPT-2의 소형 버전과 샘플링 코드만 공개합니다. 데이터셋, 훈련 코드, 전체 모델 가중치는 공개하지 않겠습니다…
일부 연구자들은 우리 결과를 재현하고 오픈소스로 공개할 수 있는 기술력을 갖추고 있다는 걸 알고 있습니다. 하지만 우리의 이런 공개 전략이, 초기 단계에서 그런 조직들의 선택권을 어느 정도 제한할 것이라고 봅니다. 그리고 AI 커뮤니티가 이런 시스템의 함의에 대해 논의할 시간을 더 확보할 수 있다고 생각합니다.

우리는 정부가 AI 기술의 사회적 영향과 확산을 좀 더 체계적으로 모니터링할 방안을 확대·개발하는 것도 검토해야 한다고 생각합니다. 이를 잘 추진한다면, AI 연구소들과 정부가 출판·정책 전반에 걸쳐 더 나은 의사결정을 하는 기반을 마련해 줄 겁니다.

 

이 성명은 오만함과 동시에 무력함을 동시에 보여줘요. 6년이 지난 지금, 세상 사람 누구나 훨씬 더 뛰어난 모델의 가중치를 자유롭게 얻을 수 있게 되었죠. OpenAI가 미국 정부 규제를 끌어들여 자신들의 지위와 모델을 보호하려 했던 시도는 결국 실패했어요. 그 사이, 최첨단 모델 가중치를 전부 공개하지 않음으로써 사장된 혁신은 얼마나 많았을까요? 또 ‘정부가 만들어 줄 해자’를 기대하며 로비에 들어간 시간과 자원을, 차라리 진짜 혁신에 쏟았으면 어땠을까요?”


질문:
“AI 종말(멸망 시나리오)에 대해서는 걱정 안 하시나요?”

답변:
“당연히 우려는 이해합니다. 앞서 말한 것처럼 이제 AI가 AI를 학습시키고, 스스로 추론 능력을 익히는 단계까지 왔으니까요. 하지만 이 흐름을 막을 수는 없다고 봐요. 더 나아가, 그렇기 때문에 ‘개방성(openness)’이 더욱 중요합니다. 우리는 세상에 더 많은 AI가 필요하지, 소수 집단이 우리 모두를 통제하는 ‘신적 AI’를 만들어선 안 된다고 생각해요.”


질문:
“그런데 중국이 왜 오픈소스로 공개하죠?”

답변:
“정확히 말하면 DeepSeek이 그렇게 하고 있는 거예요. DeepSeek의 CEO인 량원펑(Liang Wenfeng)은 최근 한 ‘읽어볼 가치가 있는(must-read)’ 인터뷰에서, 오픈소스야말로 인재를 끌어들이는 핵심이라고 했습니다:

파괴적 혁신(disruptive technology)에 직면했을 때, 폐쇄 소스로 만든 해자는 일시적입니다. OpenAI가 닫힌 접근 방식을 택해도, 결국 남들이 뒤처지지 않는 건 막을 수 없어요. 그래서 우리는 기업의 가치를 우리 팀에 둡니다. 동료들이 이 과정을 통해 성장하고, 노하우를 축적하고, 혁신을 이끌 수 있는 조직 문화가 만들어지는 게 바로 우리의 해자라고 생각합니다.

오픈소스나 논문 공개가 우리에게 실질적인 비용을 유발하는 건 아닙니다. 기술 인재들에게는 ‘내 혁신을 다른 사람들이 따라오고 있다’는 게 큰 성취감이죠. 사실 오픈소스라는 건 상업적 행동이라기보다 문화적인 행동이고, 이를 통해 우리는 존중을 얻게 됩니다. 그리고 이런 문화를 가진 회사가 된다는 것은 회사 자체의 매력 요소입니다.

인터뷰어가 ‘혹시 나중에 폐쇄 소스로 전환할 계획이 있느냐’고 묻자, 량원펑은 이렇게 답했어요:

지금 DeepSeek은 오픈AI 초창기를 연상시키는, 어떤 이상주의적 분위기를 띠고 있고, 실제로 오픈소스죠. 그런데 나중에 닫힌 모델(클로즈드 소스)로 전환할 거라고 보시나요? OpenAI도 미스트랄(Mistral)도, 처음엔 오픈소스였다가 나중에 폐쇄로 바뀌었잖아요.

우리는 폐쇄 소스로 바꿀 생각이 없습니다. 먼저 강력한 기술 생태계를 갖추는 게 훨씬 더 중요하다고 믿으니까요.

이게 이상주의를 넘어선 비즈니스적 합리성도 있습니다. 모델이 결국 상품(commodities)화된다고 볼 때, 장기적으로 차별화 포인트는 비용 구조에서 나오거든요. DeepSeek이 바로 그 비용 구조 우위를 보여줬고요. 이는 중국이 다른 여러 산업에서 경쟁우위를 확보해 온 방식과도 일맥상통합니다. 반면 미국 회사들은 주로 ‘차별화된 제품’을 통해 높은 마진을 거두는 전략을 구사하려고 하죠.”


질문:
“그렇다면 OpenAI는 망한 건가요?”

답변:
“반드시 그렇다고는 볼 수 없어요. ChatGPT 덕분에 OpenAI는 ‘소비자 기술 기업(consumer tech company)’ 같은 위치가 됐죠. 즉, 모델 자체가 상품화되더라도, 구독(subscription)이나 광고 같은 수익 모델을 결합해 꾸준히 사업을 키울 수 있을 겁니다. 그리고 물론, ‘AI 폭주(take-off)’ 경쟁에서 제일 먼저 도달하는 쪽이 최종 승자가 될 거라는 기대도 있죠.

반면에 Anthropic은 아마 이번 주말 최대 패배자로 보입니다. DeepSeek 앱이 앱스토어 1위를 차지한 사실은, 샌프란시스코 지역 외에서 Claude가 거의 관심을 끌지 못했다는 점을 stark하게 보여주죠. Anthropic의 API 사업은 그나마 잘 돌아간다지만, API라는 비즈니스 자체가 상품화의 충격에 가장 취약하거든요. 그리고 또 DeepSeek의 추론 비용이 훨씬 낮다는 건, OpenAI나 Anthropic이 지금까지 추론에서 꽤 많은 마진을 챙겨 왔다는 걸 의미하기도 하고요. 그 마진이 줄어들 거라는 뜻입니다.”


질문:
“결국 좀 우울한 얘기 아닌가요?”

답변:
“오히려 그렇지 않습니다. DeepSeek이 대부분의 사람에게 엄청난 선물을 줬다고 봐요. 가장 큰 수혜자는 소비자와 기업들입니다. 사실상 무료에 가까운 AI 제품과 서비스를 누릴 수 있는 미래가 열릴 테니까요. 장기적으로는 제번스의 역설(Jevon’s Paradox)이 작동해서, AI를 쓰는 모든 이가 최대 이익을 보게 될 겁니다.

다음으로 수혜를 입는 건 대형 소비자 기술 기업들이죠. AI가 무료가 되는 세계에서는 결국 ‘제품’과 ‘유통(distribution)’이 핵심 경쟁력이 되고, 이들은 이미 그 게임에서 승자가 된 회사들이니까요

중국도 분명 큰 이득을 보게 될 텐데, 그 파급효과는 시간이 지나야 더 명확해질 겁니다. 적어도 DeepSeek을 중국 내부에서 얼마든지 쓸 수 있고, DeepSeek이 미국 선두 연구소들과 맞먹거나 앞서 나간 모습을 보면서, 중국 내에서도 ‘우리가 충분히 경쟁 가능하다’는 자신감이 더 커질 거예요.

그러면 미국은 어떨까요? 이제 선택의 기로에 섰다고 봅니다. 당장 수출 규제를 더 확대하고, 칩·반도체 장비 산업을 전부 ‘허가 기반(permission-based)’으로 만들며, 유럽연합(EU)이 기술 기업들에 대하듯 강경하게 나갈 수도 있어요. 반대로, ‘진짜 경쟁 상대가 생겼다’는 걸 깨닫고, 우리가 오히려 더 큰 혁신에 뛰어들 수도 있습니다.
손놓고 걱정만 하는 대신, 규제 로비를 하는 대신, 더 파격적으로 모든 회사들의 ‘쓸데없는 요소’를 걷어내고 혁신에 집중할 수 있다는 거죠. 우리가 실제로 그렇게 한다면 여전히 승산은 있습니다. 그리고 그땐, 역설적이지만 중국의 DeepSeek이 우리에게 ‘감사의 대상’이 될 수도 있겠죠.”

 

https://stratechery.com/2025/deepseek-faq/