저자: Lily Yu, 출처: Dark Surge Waves
중국 7대 모델 스타트업 중 한 곳입니다. 딥서치(深度求索)는 가장 인지도가 낮지만, 예상치 못한 방식으로 항상 기억되는 기업입니다.
1년 전에는 퀀트 사모펀드인 팬텀 스퀘어가 대기업을 제외하고 유일하게 A100 칩 1만 개를 비축한 회사라는 사실에서, 1년 후에는 중국에서 대형 모델을 둘러싼 가격 전쟁의 발원지였다는 사실에서 그 놀라움이 나왔습니다.
AI의 공습이 계속되던 5월 한 달 동안 딥시크는 유명세를 탔습니다. 이는 전례 없는 가격 대비 성능을 제공하는 오픈 소스 모델인 DeepSeek V2의 출시로 시작되었습니다. 추론 비용을 백만 토큰당 1달러로 낮췄는데, 이는 Llama3 70B의 약 7분의 1, GPT-4 터보의 약 7분의 1에 불과한 가격입니다.
딥시크릿은 빠르게 "AI 파운드 랜드"로 선정되었으며, 바이트, 텐센트, 바이두, 알리 및 기타 대형 제조업체는 저항 할 수 없으며 가격을 인하했습니다. 중국의 대형 모델 가격 전쟁은 이렇게 시작되었습니다.
공기를 채우는 연기는 실제로 보조금을 위해 돈을 태우는 많은 대형 제조업체와 달리 DeepSeek가 수익성이 있다는 사실을 숨기고 있습니다.
그 이면에는 모델 아키텍처에 대한 DeepSeek의 포괄적인 혁신이 있습니다. 딥시크는 비디오 메모리 공간을 과거에 가장 일반적으로 사용되던 MHA 아키텍처의 5~13% 수준으로 줄이는 새로운 MLA(다중 잠재 주의에 대한 새로운 메커니즘) 아키텍처와 계산을 극도로 줄여 궁극적으로 비용 절감에 기여하는 독자적인 DeepSeekMoESparse 구조를 제안합니다.
실리콘밸리에서 DeepSeek는 "동방에서 온 신비한 힘"으로 알려져 있으며, SemiAnalysis의 수석 애널리스트는 DeepSeek V2 논문이 "올해 최고의 논문"이라고 생각합니다. OpenAI의 전 직원인 앤드류 카는 이 논문이 "놀라운 지혜로 가득 차 있다"고 생각하며 자신의 모델에 이 논문의 학습 설정을 적용했습니다. 그리고 OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 Jack Clark은 DeepSeek가 "이해할 수 없는 마법사 그룹을 고용하고 있다"고 생각하며 중국에서 만든 대형 모델이 "드론과 전기차만큼이나 무시할 수 없는 힘이 될 것"이라고 덧붙였습니다. 세력이 될 것입니다."
실리콘밸리가 주도하고 있는 AI 물결에서 이런 상황은 드문 경우입니다. 복수의 업계 소식통은 이런 강력한 반응은 아키텍처 차원의 혁신에서 비롯된 것으로, 국내 빅모델 기업은 물론 글로벌 오픈소스 기반 빅모델에서도 보기 드문 시도라고 전했습니다. 한 인공지능 연구자는 어텐션 아키텍처는 수년 전부터 제안되어 왔지만 대규모로 검증은커녕 성공적으로 변경된 사례도 거의 없었다고 말했습니다. "대부분의 사람들이 자신감이 부족하기 때문에 결정을 내릴 때조차도 주춤하는 아이디어입니다."
다른 한편으로 국내 대기업들은 아키텍처 수준의 혁신에 거의 손을 대지 않았는데, 이는 0~1의 기술 혁신은 미국이, 1~10의 애플리케이션 혁신은 중국이 더 잘한다는 고정관념을 깨기 위해 주도적으로 나선 사람이 거의 없었기 때문이기도 합니다. 이런 방식은 수익성이 매우 낮다는 사실은 말할 것도 없고, 몇 달 안에 자연스럽게 새로운 세대의 모델이 만들어질 것이고 중국 기업은 이를 잘 따라 적용하기만 하면 됩니다. 모델 구조를 혁신한다는 것은 따라야 할 길이 없고, 겪어야 할 실패가 많으며, 시간과 경제적 비용이 막대하다는 것을 의미합니다.
딥시크는 분명히 반대입니다. 빅모델 기술은 융합할 수밖에 없고, 추격이 더 현명한 지름길이라는 주장 속에서 DeepSeek는 '우회'의 축적된 가치를 중시하며, 중국의 빅모델 기업가들이 애플리케이션 혁신뿐 아니라 전 세계적인 기술 혁신의 홍수에 합류할 수 있다고 믿습니다.
딥시크의 선택은 다양합니다. 지금까지 중국의 7개 대형 모델 스타트업 중 유일하게 '원하고 필요 없는' 노선을 포기하고 지금까지 투씨 애플리케이션을 하지 않고 연구와 기술에 집중해 왔으며, 상업화를 종합적으로 고려하지 않고 자본 조달도 하지 않은 채 오픈소스 노선을 확고하게 선택한 유일한 기업이기도 합니다. 이 때문에 포커 테이블 밖에서는 종종 잊혀지지만, 다른 한편에서는 사용자 '탭' 방식의 전파를 통해 커뮤니티에 널리 퍼지는 경우가 많습니다.
딥시크는 어떻게 탄생하게 되었나요? 좀처럼 보기 힘든 딥시크의 창립자, 렁만 펑을 만나 이야기를 들어보았습니다.
팬텀 큐브 시절부터 막후에서 기술을 연구해온 80세의 창립자는 딥시크 시대에도 여느 연구원처럼 논문을 읽고 코드를 작성하고 그룹 토론에 참여하는 등 소탈한 스타일을 이어가고 있습니다.
해외 헤지펀드 경험이 있고 대부분 물리학 및 수학 전공자 출신인 많은 퀀트 펀드 설립자들과 달리 량원펑은 항상 현지 배경을 가지고 있었고, 초기에는 저장대학교 전기공학과에서 인공지능을 전공하기도 했습니다.
많은 업계 관계자와 딥시크 연구원들은 현재 중국 AI 커뮤니티에서 "강력한 인프라 엔지니어링 및 모델링 역량과 자원 동원 능력을 겸비한" 매우 드문 인물이라고 말합니다, 그는 "강력한 인프라 엔지니어링 및 모델 연구 능력과 자원 동원 능력을 결합"하고, "높은 곳에서 정확한 판단을 내릴 수 있으며, 세부적인 부분에서 일선 연구원보다 강할 수 있으며", "무서운 학습 능력"을 갖춘 동시에 "전혀 보스 같지 않고 괴짜에 더 가까운" 중국 AI 업계에서 보기 드문 인물입니다! "
이 인터뷰는 특히 드문 인터뷰입니다. 이 인터뷰에서 기술 이상주의자는 중국 기술계에서 특히 드문 목소리를 들려줍니다. 그는 '손익'보다 '옳고 그름'을 앞세우고 시대의 관성을 일깨우며 '혁신'보다 '독창적 혁신'을 앞세우는 몇 안 되는 사람 중 한 명입니다. 그는 '손익'보다 '옳고 그름'을 앞세우고 시대의 관성을 일깨우며 '혁신'보다 '독창적 혁신'을 의제로 삼은 몇 안 되는 사람 중 한 명입니다.
1년 전, 딥시크가 처음 시장에 출시되었을 때 저희는 "미친 팬텀 큐브: 스텔스 AI 거인을 위한 대형 모델로 가는 길"이라는 제목으로 렁만 펑과 처음 인터뷰를 진행했습니다. "미친 듯이 야심차고 미친 듯이 성실하게"라는 문구가 아름다운 슬로건이었다면, 1년이 지난 지금 이 문구는 행동이 되고 있습니다.
이것이 대화입니다
가격 전쟁의 첫 포문은 무엇이었나요?
"언더커런츠": 딥시크 V2 모델이 출시되자마자 대형 모델들의 가격 전쟁이 촉발되었고, 일부 사람들은 당신이 업계에서 메기라는 말을 하기도 합니다.
Wenfeng Liang: 메기가 되려고 한 것이 아니라 우연히 메기가 된 것뿐입니다.
Dark Surge: 이 결과가 놀랍지 않으셨나요?
렁만펑: 매우 예상치 못한 결과였습니다. 가격 때문에 사람들이 그렇게 민감하게 반응할 줄은 몰랐어요. 저희는 저희의 속도에 맞춰 일을 진행한 다음 가격 책정 비용을 고려합니다. 저희의 원칙은 돈에 집착하지 않고 과도한 이윤을 남기지 않는 것이죠. 이 가격도 원가보다 약간 높은 수준입니다.
"다크 서지": 5일 후 Wisdom Spectrum AI가 뒤를 이었고, 바이트, 알리, 바이두, 텐센트 및 기타 대형 업체들이 그 뒤를 따랐습니다.
웬펑 량: Wisdom Spectrum AI가 출시한 제품은 보급형 제품이고, 저희와 같은 수준의 모델도 여전히 많은 비용을 청구하고 있습니다. 바이트가 실제로 가장 먼저 그 뒤를 따랐습니다. 플래그십 모델이 저희와 같은 가격으로 내려가자 다른 대형 업체들도 가격을 내리는 계기가 되었습니다. 대형 업체의 모델은 우리보다 훨씬 비싸기 때문에 누구도 손해를 볼 것이라고 생각하지 않았고, 결국 보조금을 위해 돈을 태우는 인터넷 시대의 논리로 이어졌습니다.
"언더커런츠": 외부에서 보면 인터넷 시대의 가격 전쟁이 늘 그렇듯 가격 인하는 사용자를 빼앗는 것처럼 보입니다.
Wenfeng Liang: 사용자를 빼앗는 것은 우리의 주요 목표가 아닙니다. 가격을 낮춘 이유는 한편으로는 차세대 모델의 구조를 탐색하는 과정에서 비용이 먼저 내려갔고, 다른 한편으로는 API나 AI가 무엇이든 누구나 보편적으로 접근 가능하고 저렴해야 한다고 생각했기 때문입니다.
다크서지: 이전에는 대부분의 중국 기업들이 현 세대 라마 구조를 직접 베껴서 애플리케이션을 만들었는데, 왜 모델 구조부터 시작하게 되셨나요?
Wenfeng Liang: 앱을 만드는 것이 목표라면 라마 구조를 따라 짧고 빠르게 제품을 만드는 것이 합리적인 선택이 될 수 있습니다. 하지만 우리의 목표는 AGI이기 때문에 한정된 자원으로 더 강력한 모델 기능을 구현하기 위해 새로운 모델 구조를 연구해야 합니다. 이는 더 큰 모델로 확장하기 위해 수행해야 하는 기초 연구 중 하나입니다. 모델 구조 외에도 데이터를 어떻게 구성할지, 모델을 어떻게 하면 더 인간과 비슷하게 만들지 등 다양한 연구를 진행했고, 이는 이번에 출시한 모델에 반영되었습니다. 또한, 학습 효율과 추론 비용 측면에서 라마의 구조와 해외 선진 수준은 두 세대 정도 차이가 나는 것으로 추정됩니다.
"다크 서지": 이러한 세대 격차는 주로 어디에서 비롯된 것일까요?
Leung Man Fung: 첫째, 교육 효율성의 격차가 있습니다. 국내 최고 수준과 해외 최고 수준을 비교했을 때 모델 구조와 훈련 역학에서 2배의 격차가 있을 수 있으며, 동일한 효과를 얻기 위해서는 2배의 컴퓨팅 파워가 필요할 것으로 추정됩니다. 또한 데이터 효율성에서도 두 배의 격차가 있을 수 있는데, 동일한 효과를 얻기 위해 두 배의 학습 데이터와 컴퓨팅 파워를 소비해야 합니다. 이를 모두 합치면 컴퓨팅 파워가 4배 더 필요합니다. 우리가 하고자 하는 것은 이러한 격차를 계속 좁히는 것입니다.
DeepSeek: 대부분의 중국 기업이 모델과 애플리케이션을 모두 선택하고 있는데, 딥시크는 왜 지금 연구와 탐사만 하고 있나요?
Wenfeng Liang: 지금 가장 중요한 것은 글로벌 혁신의 물결에 동참하는 것이라고 생각하기 때문입니다. 지난 수년 동안 중국 기업들은 기술 혁신은 다른 사람들이 하고 우리는 그것을 이어받아 앱을 만들어 돈을 번다는 생각에 익숙해져 있었지만, 이제는 더 이상 당연한 일이 아닙니다. 이 물결 속에서 우리의 출발점은 돈을 벌기 위한 기회가 아니라 전체 생태계의 발전을 촉진하기 위해 기술의 최전선으로 나아가는 것입니다.
다크 서지: 인터넷과 모바일 인터넷 시대가 남긴 관성은 미국은 기술 혁신에 능하고 중국은 애플리케이션 제작에 더 뛰어나다는 것입니다.
원펑 량: 경제가 발전함에 따라 중국이 히치하이킹을 하는 것이 아니라 점차 기여자가 되어야 할 것이라고 생각합니다. 지난 30년간의 IT 물결 속에서 우리는 기본적으로 실질적인 기술 혁신에 관여하지 않았습니다. 우리는 무어의 법칙이 하늘에서 떨어지고 18개월 만에 더 나은 하드웨어와 소프트웨어가 우리 집에서 나오는 것에 익숙해져 있는데, 스케일링 법칙은 그런 식으로 취급되고 있습니다.
그러나 사실 이것은 서구 중심의 기술 커뮤니티가 여러 세대에 걸쳐 연구해 온 것이며, 우리는 그 과정에 참여하지 않았기 때문에 무시해 왔던 부분입니다.
진짜 격차는 1~2년이 아니라 오리지널과 모조품의 차이입니다
'어두운 면': DeepSeek V2는 왜 많은 사람들을 놀라게 했나요? 가 실리콘밸리의 많은 사람들을 놀라게 한 이유는 무엇일까요?
Wenfeng Liang: 미국에서 매일 일어나는 수많은 혁신 중 매우 흔한 일입니다. 중국 기업이 혁신에 기여하고 있는 게임에 참여하고 있기 때문에 그들은 놀라워합니다. 결국 대부분의 중국 기업은 혁신이 아닌 추종에 익숙합니다.
다크 서지: 하지만 중국 상황에서는 이러한 선택도 너무 사치스러운 일입니다. 대형 모델은 막대한 투자가 필요한 게임이며, 모든 기업이 상용화를 먼저 생각하지 않고 연구와 혁신에만 집중할 수 있는 자본을 가지고 있는 것은 아닙니다.
렁만펑: 혁신의 비용이 결코 낮지 않으며, 과거 물신주의의 관성 또한 과거의 국가적 맥락과 관련이 있습니다. 하지만 지금은 중국의 경제 규모나 바이트, 텐센트, 이들 대기업의 이익이 세계에서 결코 낮지 않다는 것을 알 수 있습니다. 우리가 혁신에서 부족한 것은 자본이 아니라 자신감이 부족하고 효과적인 혁신을 달성하기 위해 고밀도의 인재를 조직하는 방법을 모른다는 점입니다.
다크 서지: 자금이 부족하지 않은 대기업을 포함한 중국 기업들이 빠른 상용화를 최우선 과제로 삼는 이유는 무엇일까요?
Wenfeng Liang: 지난 30년 동안 우리는 모두 돈 버는 것을 강조해왔고 혁신은 소홀히 여겨왔습니다. 혁신은 전적으로 비즈니스 중심이 아니라 호기심과 창의성이 필요합니다. 우리는 과거의 관성에 얽매여 있지만 이 또한 단계적으로 이루어지고 있습니다.
Dark Surge: 하지만 공익 연구 기관이 아닌 영리 기관에서 혁신을 선택하고 오픈 소스를 통해 공유한다면 어떤 점에서 해자를 형성해야 할까요? 5월의 MLA 아키텍처와 같은 혁신은 다른 사람들에 의해 빠르게 모방될 것 같지 않나요?
Wenfeng Liang: 파괴적 기술에 직면하면 폐쇄형 소스로 형성된 해자는 수명이 짧습니다. OpenAI가 클로즈드 소스라고 해도 다른 사람이 따라잡는 것을 멈추지 않을 것입니다. 그래서 우리는 팀에 가치를 부여하고, 그 과정에서 동료들이 성장하고 많은 노하우를 축적하며 혁신할 수 있는 조직과 문화를 형성하는 것이 우리의 해자입니다.
오픈소스, 논문 발표, 실제로 아무것도 잃지 않았습니다. 기술자에게는 팔로우를 받는다는 것은 매우 보람 있는 일입니다. 사실 오픈소스는 상업적 행위라기보다는 문화적 행위에 가깝습니다. 기부는 사실 추가적인 영광입니다. 또한 기업이 이러한 일을 하는 데에는 문화적 매력도 있습니다.
다크 서지: 주 샤오후 같은 시장 신봉자에 대해 어떻게 생각하시나요?
원펑 량: 주샤오후는 양심적이지만 그의 플레이 스타일은 빠르게 돈을 버는 기업에 더 적합한 반면, 미국에서 가장 수익성이 좋은 기업을 보면 모두 주머니가 두둑한 하이테크 기업들입니다.
"다크 서지": 하지만 큰 모델, 순수한 기술 리더십도 절대적인 우위를 형성하기는 매우 어렵습니다, 여러분은 그 더 큰 것에 베팅하는 것이 ?
Wenfeng Liang: 우리가 보는 것은 중국 AI가 영원히 추격하는 위치에 있을 수 없다는 것입니다. 우리는 흔히 중국 AI와 미국 사이에 1~2년의 격차가 있다고 말하지만, 진짜 격차는 독창성과 모방성의 차이입니다. 이것이 바뀌지 않는다면 중국은 항상 추종자가 될 것이기 때문에 어떤 탐험에서 벗어날 수 없습니다.
NVIDIA의 선두는 한 회사의 노력이 아니라 서구 기술 커뮤니티와 업계 전체가 함께 노력한 결과입니다. 그들은 차세대 기술 트렌드를 파악하고 로드맵을 가지고 있습니다. 중국의 AI 개발에도 이러한 생태계가 필요합니다. 국내 칩 개발이 많이 이루어지지 않았고, 기술 커뮤니티를 지원하는 것도 부족하고, 간접적인 뉴스만 있기 때문에 중국은 기술의 최전선에 서기 위해 누군가가 필요할 수밖에 없습니다.
더 많은 투자가 반드시 더 많은 혁신을 낳는 것은 아니다
"언더커런트": DeepSeek는 이제 OpenAI를 보유하게 되었습니다. 초기의 이상주의적 분위기는 오픈소스이기도 합니다. 나중에 클로즈소스로 전환할 것인가? OpenAI와 미스트랄 모두 오픈소스에서 클로즈소스로 전환하는 과정을 거쳤습니다.
Wenfeng Liang: 저희는 클로즈 소스로 전환하지 않을 것입니다. 강력한 기술 생태계를 먼저 구축하는 것이 더 중요하다고 생각합니다.
Dark Surge: 자금 조달 계획이 있나요? 일부 언론 보도를 보면 팬텀 스퀘어가 딥시크를 독립적으로 분리해 상장할 계획이 있다고 하는데, 실리콘밸리의 AI 스타트업은 결국 모두 대기업에 종속될 수밖에 없는 구조입니다.
Wenfeng Liang: 단기적으로 자금 조달 계획이 없으며, 우리가 직면한 문제는 돈이 아니라 하이엔드 칩에 대한 금수 조치입니다.
Dark Surge: 많은 사람들이 AGI를 하는 것과 양적인 것은 완전히 다른 일이라고 생각하는데, 양적인 것은 할 수 있지만 AGI는 더 높이 날아야 할 수도 있고, 투입을 더 크게 만들기 위해 연합해야 할 필요가 있을 수 있습니다.
Wenfeng Liang: 더 많은 투입이 반드시 더 많은 혁신을 낳는 것은 아닙니다. 그렇지 않다면 대기업이 모든 혁신을 마무리할 수도 있습니다.
Dark Surge: 운영 유전자가 없어서 지금 앱을 만들지 않는 건가요?
Wenfeng Liang: 현재 단계는 앱의 폭발이 아니라 기술 혁신의 폭발이라고 생각합니다. 장기적으로는 업계가 우리의 기술과 결과물을 직접 사용하고, 우리는 기본 모델과 첨단 혁신만 담당하고 다른 기업이 딥시크를 기반으로 B2C 비즈니스를 구축하는 생태계를 형성하기를 희망합니다. 업스트림과 다운스트림에서 완전한 산업을 형성할 수 있다면 우리가 직접 애플리케이션을 만들 필요가 없습니다. 물론 필요하다면 앱을 만들지 못할 이유는 없지만, 연구와 기술 혁신이 항상 최우선 순위가 될 것입니다.
DeepSeek: 하지만 API를 선택한다면 왜 대형 업체들이 아닌 DeepSeek를 선택해야 하나요?
Wenfeng Liang: 미래의 세계는 전문화된 분업이 될 것이며, 기본이 되는 대형 모델은 지속적으로 혁신되어야 하고, 대형 플레이어는 역량에 한계가 있기 때문에 반드시 적합하지 않을 수 있습니다.
"다크 서지": 하지만 과연 기술이 그 격차를 해소할 수 있을까요? 또한 절대적인 기술적 비밀은 없다고 말씀하셨잖아요.
Wenfeng Liang: 기술에는 비밀이 없지만 리셋하는 데는 시간과 비용이 필요합니다. 이론적으로 엔비디아의 그래픽 카드는 기술적 비밀이 없고 복제하기 쉽지만, 팀을 재구성하고 차세대 기술을 따라잡는 데 시간이 걸리기 때문에 실제 해자는 여전히 매우 넓습니다.
Dark Surge: 바이트가 가격을 낮춘 후 가장 먼저 따라붙은 것으로 보아 여전히 위협을 느끼고 있음을 알 수 있습니다. 대기업과 경쟁하는 스타트업을 위한 새로운 솔루션에 대해 어떻게 생각하시나요?
Wenfeng Liang: 솔직히 저희는 이에 대해 크게 신경 쓰지 않고 그냥 지나가는 대로 하고 있습니다. 클라우드 서비스를 제공하는 것이 우리의 주요 목표는 아닙니다. 우리의 목표는 여전히 AGI입니다.
현재 새로운 솔루션은 보이지 않지만 대형 업체들도 뚜렷한 우위를 점하지 못하고 있습니다. 대형 업체는 이미 사용자를 확보하고 있지만, 현금 유동성이 높은 비즈니스도 부담으로 작용하여 파괴의 표적이 될 수 있습니다.
"다크 서지": 딥시크를 제외한 6개의 대형 모델 스타트업의 최종 게임은 어떻게 생각하시나요?
Wenfeng Liang: 아마 2~3개 정도는 살아남을 것 같습니다. 아직은 돈을 버는 단계이기 때문에 자기 포지셔닝이 명확하고 운영을 개선할 수 있는 회사가 살아남을 확률이 높습니다. 다른 회사들도 살아남을 수 있을 것입니다. 가치 있는 것은 연기로 사라지지 않고 다른 방식으로 존재하게 될 것입니다.
다크 서지:
팬텀 큐브 시대에는 경쟁에 맞서는 자세가 "내 방식대로 하고 있다"고 평가되었고, 나란히 비교하는 것에 대한 고민이 거의 없었습니다. 경쟁에 대한 생각의 기원은 무엇인가요? 렁만펑: 저는 어떤 것이 사회를 더 효율적으로 운영할 수 있는지, 산업 분업 사슬에서 뛰어난 위치를 찾을 수 있는지 자주 생각하곤 합니다. 최종 목적이 사회를 더 효율적으로 만드는 것이라면, 그 목적이 달성된 것이죠. 그 사이의 많은 부분은 하나의 단계이며, 지나치게 집중하는 것은 눈을 깜빡이게 할 수밖에 없습니다.
'미스터리한' 일을 하는 젊은이들
Dark Surge
"언더커런트": 전 OpenAI 정책 책임자이자 Anthropic 공동 창립자인 Jack Clark은 DeepSeek가 "수많은 심층 마법사"를 고용하고 있다고 말하는데, 어떤 사람들이 DeepSeek v2를 만들고 있을까요?
Wenfeng Liang: 정교한 마법사는 없었고, 최고 대학을 갓 졸업한 신입생, 미졸업 인턴, 몇 년 전에 졸업한 젊은이들만 모였습니다.
"다크 서지": 많은 대형 모델 기업들이 해외에서 인재를 발굴하는 데 집착하고 있으며, 많은 사람들이 이 분야의 상위 50위권 인재가 중국 기업에 없을 수도 있다고 생각하는데, 그렇다면 인재는 어디에서 오는 것일까요?
원펑 량: V2 모델링에는 해외에서 들어오는 사람이 없고 모두 현지인입니다. 상위 50위 안에 드는 인재는 중국에 없을지 모르지만, 그런 인재는 우리가 직접 만들 수 있을지도 모르죠.
"다크 서지": 이 MLA 혁신은 어떻게 이루어졌나요? 젊은 연구원의 개인적인 관심에서 처음 아이디어가 나왔다고 들었는데요?
Wenfeng Liang: 그는 Attention 아키텍처의 일반적인 변화 패턴을 요약한 후 대안을 설계하고 싶은 충동을 느꼈습니다. 하지만 아이디어에서 구현까지 오랜 시간이 걸렸습니다. 이를 위해 팀을 구성했고, 이를 실행하는 데 몇 달이 걸렸습니다.
다크 서지: 이런 종류의 확산적 영감은 완전히 혁신적인 조직의 구조와 많은 관련이 있습니다. 팬텀 큐브 시대에는 위에서 아래로 목표나 과제를 부여하는 경우가 거의 없었습니다. 하지만 불확실성이 가득한 AGI와 같은 최첨단 탐사에는 더 많은 관리 조치가 필요할까요?
Wenfeng Liang: DeepSeek도 모두 상향식입니다. 그리고 우리는 일반적으로 분업을 전면에 내세우지 않고 자연스러운 분업을 추구합니다. 각자의 고유한 성장 경험이 있고 자신만의 아이디어를 가지고 있기 때문에 강요할 필요가 없습니다. 탐구 과정에서 문제를 발견하고 사람들을 끌어들여 스스로 논의합니다. 하지만 아이디어가 잠재력을 보이면 하향식으로 리소스를 배치하기도 합니다.
DeepSeek: DeepSeek는 카드와 인력을 매우 유연하게 배치한다고 들었습니다.
Leung Man Fung: 각자가 동원할 수 있는 카드와 사람 수에는 제한이 없습니다. 아이디어가 있으면 각 사람은 언제든지 승인 없이 훈련 클러스터 카드를 호출할 수 있습니다. 동시에 위계나 부서 간 경계가 없기 때문에 상대방도 관심이 있다면 누구에게나 요청할 수 있는 유연성도 있습니다.
"언더커런트": 느슨한 관리 스타일은 강한 애사심을 가진 사람들로 필터링하는 데에도 달려 있습니다. 디테일한 부분부터 채용하는 데 매우 능숙하고, 전통적인 평가 지표가 아닌 부분에서도 뛰어난 인재를 선발할 수 있다고 들었습니다.
Wenfeng Liang: 저희의 선발 기준은 항상 사랑과 호기심이었기 때문에 많은 사람들이 이상하고 흥미로운 경험을 해봤을 것입니다. 많은 사람들이 돈에 대한 관심보다 연구에 대한 열망이 훨씬 더 큽니다.
다크서지: 트랜스포머는 구글의 AI 랩에서, ChatGPT는 오픈AI에서 탄생했는데, 대기업의 AILab과 스타트업의 혁신 가치의 차이는 무엇이라고 생각하시나요?
Wenfeng Liang: 구글 랩이든, 오픈AI든, 심지어 중국 대기업의 AI 랩이든 모두 매우 가치 있는 곳입니다. 결국 이 일을 해낸 것은 OpenAI였고, 역사적 우연도 있었습니다.
다크 서지: 혁신은 주로 우연에 의한 것일까요? 사무실 한가운데에 있는 회의실 줄에 좌우에 마음대로 밀어서 열 수 있는 문이 있는 것을 보았습니다. 동료들은 그것이 우연의 여지를 남겨두기 위한 방법이라고 말합니다. 트랜스포머는 우연히 지나가던 사람이 이 이야기를 듣고 동참하여 결국 보편적인 틀이 되는 그런 종류의 이야기에서 탄생했습니다.
Leung Man Fung: 혁신은 무엇보다도 신념의 문제라고 생각합니다. 실리콘밸리는 왜 그렇게 혁신적일까요? 첫 번째는 과감함입니다. Chatgpt가 나왔을 때 투자자부터 대형 제조업체까지 모두 첨단 혁신을 할 수 있다는 자신감이 부족했고, 격차가 너무 크다고 생각하거나 애플리케이션을 할 수 없다고 생각했습니다. 하지만 혁신에는 먼저 자신감이 필요합니다. 이러한 자신감은 보통 젊은이들에게서 더 분명하게 드러납니다.
다크서지: 하지만 펀딩에 참여하지도 않고, 목소리를 내는 일도 거의 없어서 펀딩에 적극적인 회사들만큼 사회적으로 목소리를 내지 않는데, 어떻게 하면 대형 모델을 하는 사람들이 딥시크를 가장 먼저 선택하게 만들 수 있을까요?
Wenfeng Liang: 저희가 가장 열심히 하고 있기 때문입니다. 최고 인재들에게 가장 큰 매력은 당연히 세상에서 가장 어려운 문제를 해결하는 것입니다. 사실 중국에서 최고 인재는 저평가되어 있습니다. 사회 전체 차원에서 하드코어 혁신이 너무 적어서 인정받지 못하기 때문입니다. 우리가 가장 어려운 일을 하고 있다는 사실이 그들에게 매력적입니다.
다크 서지: OpenAI의 출시가 GPT5를 기다리지 않았고 많은 사람들이 기술 곡선의 명백한 둔화라고 느끼고 있으며, 많은 사람들이 스케일링 법칙에 의문을 제기하기 시작했는데 어떻게 생각하세요?
Wenfeng Liang: 우리는 낙관적이며 전체 업계가 기대에 부합하는 것 같고 OpenAI는 신이 아니며 항상 선두에 있을 수는 없습니다.
Dark Surge: AGI가 실현되기까지 얼마나 걸릴 것으로 생각하십니까? DeepSeek V2를 출시하기 전에 코드 생성 및 수학을 위한 모델을 출시했고, 밀도 모델에서 MOE로 전환했는데 AGI 로드맵의 좌표는 어떻게 됩니까?
Wenfeng Liang: 2년, 5년, 10년이 될 수도 있지만 어쨌든 우리 생애 안에 달성할 것입니다. 로드맵에 관해서는 회사 내부에서도 만장일치가 있는 것은 아닙니다. 하지만 세 가지 방향에 베팅하고 있습니다. 하나는 수학과 코드, 다른 하나는 멀티모달, 세 번째는 자연어 자체입니다. 수학과 코드는 자가 학습만으로 매우 높은 수준의 지능을 달성할 수 있는 잠재력을 가진 폐쇄적이고 검증 가능한 시스템인 바둑처럼 AGI를 위한 자연스러운 시험대입니다. 다른 한편으로, 멀티모달의 가능성과 인간의 실제 학습 세계에 참여할 수 있는 가능성도 AGI에 필요합니다. 우리는 모든 가능성을 열어두고 있습니다.
다크 서지: 큰 모델의 최종 모습은 어떻게 될 것이라고 생각하시나요?
렁만펑: 기본 모델과 기본 서비스를 제공하는 전문 회사가 있을 것이고, 전문화 연쇄가 길게 이어질 것입니다. 전체 사회의 다양한 요구를 충족시키기 위해 더 많은 사람들이 전문화의 긴 사슬을 형성하게 될 것입니다.
모든 루틴은 이전 세대의 산물
기류: 지난 1년 동안 중국의 대형 모델 스타트업에는 많은 변화가 있었습니다. 예를 들어 작년 초에 활발하게 활동하던 왕후이웬이 그만두었고, 이후 합류한 기업들이 차별화를 보이기 시작했습니다.
원펑 량: 왕은 모든 손실을 혼자서 감당하고 다른 사람들은 모두 떠나게 했습니다. 그는 자신에게는 가장 불리하지만 모두에게 좋은 선택을 했기 때문에 매우 너그러운 사람이고 존경스럽습니다.
다크 서지: 지금 가장 많은 에너지를 집중하는 분야는 어디인가요?
Wenfeng Liang: 차세대 대형 모델 작업에 집중하고 있습니다. 아직 해결되지 않은 문제가 많이 있습니다.
"다크 서지":다른 여러 대형 모델 스타트업은 결국 기술이 영구적인 선두를 가져다주지는 않을 것이고, 기술 우위를 제품으로 가져올 시간적 여유를 잡는 것도 중요하며, 모델 역량이 충분하지 않아 딥식이 감히 모델 연구에 집중하고 있다고 주장하고 있죠?
Leung Man Fung: 모든 세트는 이전 세대의 산물이며 미래가 반드시 정해진 것은 아닙니다. 인터넷의 비즈니스 논리를 가지고 AI의 미래 수익 모델을 논의하는 것은 마치 마화텅이 사업을 시작할 때 제너럴 일렉트릭과 코카콜라를 논의하러 가는 것과 같습니다. 그것은 개척이 될 가능성이 높습니다.
다크 서지: 과거 미라지는 강력한 기술력과 혁신 유전자를 가지고 있었고 성장도 비교적 순조로웠는데, 그래서 낙관적으로 보시는 건가요?
Wenfeng Liang: 미라지는 기술 중심의 혁신에 대한 자신감을 어느 정도 높였지만 항상 순탄한 길만 걸어온 것은 아니었습니다. 우리는 오랜 축적의 과정을 거쳤습니다. 외부에서는 팬텀 큐브의 2015년 이후를 보고 있지만, 사실 우리는 16년 동안 이 일을 해왔습니다.
"언더커런트": 다시 오리지널 스타일의 혁신이라는 주제로 돌아와서. 이제 경제가 하강 국면에 접어들고 자본이 냉각기에 접어들면서 독창적인 혁신에 대한 동기가 약화되고 있나요?
원펑 량: 저는 그렇게 생각하지 않습니다. 중국 산업의 구조조정은 하드코어 기술 혁신에 더 많이 의존할 것입니다. 많은 사람들이 과거에 빠르게 돈을 버는 것이 운이 좋아서였다는 것을 깨닫게 되면 진정한 혁신을 위해 더 기꺼이 몸을 굽힐 것입니다.
다크 서지: 그래서 이것도 낙관하시나요?
Leung Man Fung: 저는 1980년대 광둥의 5선 도시에서 자랐습니다. 아버지는 초등학교 교사였는데, 90년대에는 광둥성에서 돈을 벌 기회가 많았고, 당시에는 공부가 쓸모없다고 생각해서 저희 집에 오는 부모님들이 꽤 많았어요. 하지만 지금 다시 생각해 보면 개념이 모두 바뀌었습니다. 더 이상 돈을 벌기가 쉽지 않기 때문에 택시를 운전할 기회조차 사라질 수 있습니다. 세대가 바뀌었죠.
하드코어 혁신이 점점 더 많아질 것입니다. 지금은 쉽게 이해되지 않는 이유는 사회 구성원 전체가 사실적으로 교육받아야 하기 때문입니다. 이 사회가 하드코어 혁신가들의 이름을 알릴 수 있게 되면 집단사고가 바뀔 것입니다. 우리는 여전히 많은 사실과 과정이 필요합니다.