저자: teafox; 출처: teafox watch the world
정보 폭발의 시대인 동시에 심각한 정보 공해의 시대이기도 합니다. 따라서 저는 어떤 정보에도 속지 않으며, 특히 호의적이고 '의심스러운' 주요 정보에 대해서는 더욱 그렇습니다. 저에게 정보 공해를 배제하는 가장 좋은 방법은 상호 참조하고 양쪽을 모두 살펴보는 것입니다.
지난 48시간 동안 저는 거의 항상 X를 사용하면서 영어권에서는 기본적으로 압도적으로 긍정적인 딥 시크에 대한 모든 종류의 뉴스를 검색했고, 특히 부정적인 리뷰를 보고 싶어서 잠깐 둘러본 결과, 제가 실제로 얻은 부정적인 리뷰가 있었습니다.
두 가지 주요 범주가 있습니다.
한 가지 범주는 반중, 특히 일부 해외 반중 인사들을 위해 중국에 대한 뉴스가 나오면 부정적인 댓글을 달며 이런 종류의 정보는 단순히 쓰레기입니다. 하지만 적어도 쓰레기가 어떻게 생겼는지 알 수 있으니 보는 것이 좋습니다.

또 다른 유형의 부정적인 댓글은 업계 종사자들이 남기는 댓글입니다. 첫 번째이자 가장 매파적인 의견은 중국계 미국인 업계 내부자 알렉산더 왕이 남겼습니다.
먼저, 그의 이름이 조금 이상합니다. 일반적으로 알렉산더는 영어에서 가장 일반적인 철자법이며 국제적으로도 널리 쓰이는 이름입니다. 반면에 알렉산드르는 특정 동유럽 언어(예: 러시아어, 체코어 등)의 철자법입니다. 중국계 미국인이 동유럽 이름을 사용하는 것은 약간 어색합니다. 하지만 제가 살펴보니 정말 알렉산드라였습니다.
둘째, 이 왕 씨는 이름도 이상할 뿐 아니라 배경도 특이합니다. 1997년생인 알렉산드르 왕은 스케일 AI의 창립자이자 CEO로, 24살의 나이에 '무에서 출발'한 세계 최연소 억만장자가 되었습니다. 포브스에 따르면 2024년 7월 현재 그의 가치는 20억 달러에 달합니다.
왕은 중국 이민자의 아들로, 부모 모두 핵무기가 탄생한 로스알라모스 국립연구소에서 물리학자로 일했습니다. 중국인이 그런 조직에서 일하는 것은 매우 드문 일입니다.
Alexandr는 어렸을 때부터 수학과 컴퓨터 프로그래밍에 대한 열정을 가지고 있었습니다. 그는 2013년에 미국 수학 올림피아드에 출전했습니다. 10대 시절에는 미국 버전의 Knowledge Quora에서 소프트웨어 프로그래머로 일했습니다. 그 후 매사추세츠 공과대학에서 컴퓨터 공학을 전공했지만 중도에 그만두고 Scale AI를 창업하여 실리콘밸리의 AI 신동이 되었습니다.
Alexandr: Deep Seek에는 최소 50,000개의 NVIDIA H100 그래픽 카드가 있지만, 제재 때문에 이에 대해 이야기하는 것이 불편할 뿐입니다. 그 후 CNBC TV 인터뷰를 여러 번 시청했는데, 그의 말은 확실한 증거 없이 제가 이해한 대로, 즉 '제가 이해하는 대로' 말한 것이었습니다.
딥 시크에 따르면, H100의 거세 버전인 H800 그래픽 카드 2,048개만 이 모델 훈련에 사용되었으며, 가격은 H100의 3분의 1 가격(3만 달러)에 불과했습니다. 로우 프로파일 하드웨어를 사용했기 때문에 딥 시크의 혁신의 가치가 입증된 것입니다.

그렇다면 왜 알렉산드르 왕은 패닉에 빠진 건가요?
나는 AI 전문가는 아니지만, 지난 며칠 동안 읽은 방대한 정보를 바탕으로 이해한 바로는 딥 시크는 거대한 블랙 스완일 수 있으며, 실리콘 밸리 상공을 배회하고 있습니다.
1/ 현재 최고 수준의 AI 빅 모델을 훈련하는 데 드는 비용은 매우 높습니다. OpenAI와 같은 거대 기업은 수만 개의 H100 그래픽 카드를 갖춘 대규모 데이터 센터를 필요로 합니다. 블록당 최소 3만 달러, 총 비용은 10억 달러가 넘고 전력 소비량도 엄청나서 발전소 한 개가 전력을 공급해야 할 정도입니다. 모델 훈련에만 수억 달러를 지출하고 있는 셈입니다.
2/ Deep Seek는 "하하, 여기에 5백만 달러를 쓰면 어떨까요?"라고 말하며 급히 뛰어들었습니다. 그들은 말만 한 것이 아니라 실제로 실행에 옮겼고, 딥 시크의 모델은 여러 과제에서 GPT-4와 클로드까지 이겼습니다.실리콘밸리의 인공지능 세계는 순식간에 당황했고, 인공지능 천재 알렉산드르 왕은 당혹감을 감추지 못했습니다.
3/ 딥시크는 어떻게 해냈을까요? 그들은 모든 것을 처음부터 다시 생각했습니다. 기존의 AI는 모든 숫자를 32비트 십진수로 쓰는 것과 같습니다. DeepSeek는 "소수점 이하 8자리만 사용하면 어떨까요?"라고 생각했습니다. 그 결과 여전히 충분히 정확했습니다! 즉시 필요한 메모리가 75% 감소했습니다.
4/ 그리고 '다중 태그' 시스템도 있습니다. 평균적인 AI는 초등학교 1학년 학생처럼 'Goose ....... Goose ...... Goose ...... Qu ...... Item ...... Xiang ...... Sky ...... '노래'는 단어 하나하나를 읽어야 합니다. 하지만 DeepSeek는 전체 구절을 한 번에 읽습니다. 2배 더 빠르고 90% 더 정확하며, 이는 수십억 개의 단어를 다룰 때 중요합니다.
5/ 하지만 정말 똑똑한 점은 모든 것을 알고자 하는 거대한 AI를 사용하는 대신(한 사람을 의사, 변호사, 엔지니어, 목수로 동시에 만드는 것처럼), 필요할 때만 특정 전문가를 활성화하는 '전문가 시스템'을 구축하여 많은 매개변수를 절약한다는 점입니다.
6/ 그리고 기존 모델은? 1조 8천억 개의 파라미터가 모두 항상 활성화되어 있습니다. 반면, 총 6,710억 개의 매개변수가 있는 DeepSeek는 한 번에 370억 개만 활성화됩니다. 마치 거대한 팀을 구성하되 각 작업에 꼭 필요한 전문가만 부르는 것과 같습니다.
7/ 훈련 비용: 수억 달러 → 5백만 달러, 필요한 GPU: 10만 개 → 2천 개, API 비용: 95% 저렴, 데이터센터 하드웨어가 아닌 일반 게이밍 그래픽 카드에서 실행할 수 있는 등 놀라운 결과를 얻었습니다.
8/ 가장 놀라운 부분 - DeepSeek는 오픈 소스입니다(완전 무료). 누구나 사용할 수 있으며 코드가 공개되어 있습니다. 기술 문서에 모든 것이 설명되어 있으며, 마술이 아니라 믿을 수 없을 정도로 영리한 엔지니어링입니다. 요즘 가장 인기 있는 줄기 중 하나인 Open AI → Closed AI(폐쇄형 AI)가 진정한 Open AI(오픈 소스 AI)인 DeepSeek로 대체되었습니다.
9/ 딥시크가 중요한 이유는 무엇인가요? '대기업만 AI에 손을 댈 수 있다'는 통념을 깨뜨리기 때문입니다. 더 이상 수십억 달러 규모의 데이터 센터나 몇 개의 좋은 게임용 그래픽 카드가 필요하지 않습니다.
10/ NVIDIA에게는 무서운 일입니다. 그들의 전체 비즈니스 모델은 최대 3만~4만 달러에 판매되는 H100과 같이 이윤율이 90%에 달하는 고가의 그래픽 카드를 기반으로 하며, 돈으로도 살 수 없을 정도로 이국적인 제품이기 때문입니다. 모든 사람이 일반 게이밍 그래픽 카드로 갑자기 인공지능 ...... 을 할 수 있다면 문제가 있다는 것을 알 수 있습니다.
11/ 여기서 중요한 점은 DeepSeek의 팀은 200명 미만이지만 Meta의 팀 급여만 해도 DeepSeek의 전체 교육 예산 ...... 을 초과한다는 점입니다.
12/ 이것은 전형적인 혁신 사례입니다. 기존 기업은 기존 프로세스를 최적화하는 반면 혁신가는 근본적인 접근 방식을 재고합니다.
13/ 딥시크는 여진이 너무 많은 지진과 같았습니다: AI 개발이 더 쉬워지고, 경쟁이 치열해지고, 대기업의 '해자'가 배수로처럼 보였고, 하드웨어 요구 사항(및 비용)이 급격히 떨어졌습니다
14/ 전형적인 파괴 사례입니다: 기존 기업은 기존 프로세스를 최적화하고 파괴자는 근본적인 접근 방식을 재고합니다. 왼쪽;">14/ 물론 OpenAI와 같은 거대 기업은 가만히 있지는 않을 것입니다. 그러나 모든 것이 파괴될 것이며, 더 이상 활발한 기적의 모델은 아닙니다.
블랙스완 딥시크가 날개를 펴면서 실리콘밸리 전체가 영향을 받게 될 것이며, 그 영향은 다음과 같이 요약할 수 있습니다.
AI 스타트업 위기: 딥시크의 높은 성능은 엔비디아 그래픽 카드를 구매한 수많은 AI 스타트업의 파산으로 이어질 수 있으며, 대량의 중고 GPU를 방출할 수 있습니다. Scale AI의 CEO 겸 창업자 알렉산드르 왕에게 이것은 생존을 위한 사활을 건 투쟁이며, 그가 이런 말을 하는 것은 충분히 이해할 수 있습니다.
데이터센터 사업 차질: NVIDIA 그래픽 카드를 임대하는 비즈니스 모델을 사용하는 대형 데이터센터 운영자는 타격을 받을 것입니다.
기술 대기업의 구매 둔화: 기술 대기업은 재고 축적으로 인해 NVIDIA 그래픽 카드의 구매를 줄일 수 있습니다.
NVIDIA에 대한 우려스러운 전망: 이러한 요인들이 복합적으로 작용하여 NVIDIA의 비즈니스가 전반적으로 하락할 수 있습니다.
한 금융 블로거는 X에서 다음과 같이 말했습니다. (딥시크가 진짜가 아니었으면 좋겠다 ......) 그리고 소름 끼치는 이미지와 함께 말이죠.

75년 만의 최고치: 차트에서 확인할 수 있습니다. strong>: 이 차트는 미국 주식 시장이 75년 만에 최고치를 기록했음을 보여줍니다.
매그니피센트 7: 이 용어는 현재 미국 주식 시장의 대부분을 주도하고 있는 가장 실적이 좋은 7개의 기술 대기업을 의미합니다.
두 개의 버블: 1960년대의 Nifty 50 버블과 1990년대의 인터넷 버블. 두 거품 모두 주식 시장 폭락으로 이어졌고, 이번에는 딥시크가 찾아옵니다. 미국 증시가 폭락할까요?

마지막으로, 우리는 Deep&... Seek 팀은 방금 코넬에서 논문을 발표했는데, 모든 저자가 기억할 가치가 있으며, 대부분은 중국 최고의 대학에서 30 세 미만의 젊은이들이며 일부는 여전히 박사 학위를 위해 공부하고 있으며 그중 해외 학력이없는 사람은 아무도 없습니다. 이는 중국이 대학교육의 질적 측면에서 미국을 따라잡았으며, 향후 수십 년 동안 STEM 졸업생 수에서 절대적인 우위를 점하게 될 것이라는 또 다른 징후입니다.
딥시크의 설립자 Liang Wenfeng은 "우리의 가치는 팀에 있으며, 그 과정을 통해 성장하고 전문성을 축적하는 것입니다. 혁신을 지속할 수 있는 팀을 구축하는 것이 우리의 진정한 해자입니다.