출처: Silicon Planet Pro
"서버가 바쁩니다, 나중에 다시 시도하세요"라는 딥시크의 잦은 응답은 전 세계 사용자들을 미치게 만들고 있습니다.
이전에는 일반 대중에게 잘 알려지지 않았던 DeepSeek는 2024년 12월 26일에 GPT 4o를 벤치마킹한 언어 모델인 V3를 출시하면서 유명세를 얻었습니다. 딥씽킹 모드에서 생성되는 답변의 높은 품질과 혁신으로 인해 모델 학습에 드는 초기 비용이 급격히 감소할 수 있다는 긍정적인 신호로 인해 딥씽크는 1월 20일에 OpenAI o1을 벤치마킹한 언어 모델인 R1을 출시하며 회사 및 앱의 이름을 알리기 시작했습니다. 그 이후로 DeepSeek R1은 인터넷 검색 기능의 간헐적인 고장과 딥씽킹 모드에서 '서버 사용 중' 경고가 자주 발생하는 등 혼잡을 겪으며 많은 사용자들을 괴롭혔습니다.
10년 전부터 서버 장애가 발생하기 시작한 딥시크는 1월 27일 정오에 딥시크의 공식 웹사이트에 "딥시크 웹페이지/API를 사용할 수 없습니다"라는 메시지가 여러 번 표시되었으며, 딥시크는 주말 동안 아이폰에서 가장 많이 다운로드된 앱이 되었습니다.
<그림 style="text-align: 가운데;">

그림>< p>딥시크의 모바일 출시 26일 후인 2월 5일, 일일 활동이 4천만 건을 돌파했으며, ChatGPT의 모바일 일일 활동은 5,495만 건, 딥시크는 ChatGPT의 74.3%를 기록했습니다. 딥시크가 가파른 성장 곡선에서 벗어나는 것과 거의 동시에 서버가 바쁘다는 트윗이 쏟아졌고, 전 세계 사용자들이 몇 가지 질문을 하고 다운타임을 경험하는 불편을 겪기 시작했으며, 모든 주요 클라우드 제공업체, 칩 제조업체, 인프라 회사에서 딥시크의 핑타이 웹사이트가 가동되고 개인 배포 자습서가 등장하는 등 모든 종류의 대체 접속 경로가 생겨나기 시작했습니다. 하지만 전 세계 거의 모든 주요 공급업체가 딥시크 배포를 지원한다고 주장했지만, 여전히 전 세계 사용자들은 서비스의 불안정성에 대해 불만을 토로하고 있습니다.
무대 뒤에서 무슨 일이 일어나고 있을까요?
1.ChatGPT에 익숙한 사람들은 딥시크를 견딜 수 없다
사용자들의 '바쁜 딥시크 서버'에 대한 불만은 이전의 ChatGPT 기반 AI 최고 스트리밍 앱이 거의 랙을 경험하지 않았다는 사실에서 비롯됩니다. 지연이 거의 발생하지 않는 앱이었기 때문입니다.
OpenAI 서비스 출시 이후 ChatGPT는 P0 수준(가장 심각한 사고 수준)의 다운타임 사고를 몇 차례 경험했지만 전반적으로 비교적 안정적이었으며 혁신과 안정성 사이의 균형을 찾았고 점차 유사한 기존 클라우드 서비스의 핵심 구성 요소로 자리잡아가고 있습니다.
<그림 style="text-align: 가운데;">

ChatGPT의 광범위한 다운타임은 많지 않다
ChatGPT의 추론 과정은 비교적 안정적이며 인코딩과 디코딩 두 단계, 인코딩 단계는 입력 텍스트를 벡터로 변환하고 벡터에는 입력 텍스트의 의미 정보를 포함하며, 디코딩 단계, ChatGPT는 이전에 생성 된 텍스트를 컨텍스트로 사용하여 트랜스포머 모델을 통해 다음 단어 또는 구문을 생성하여 요구 사항을 충족하는 완전한 문장이 생성 될 때까지 큰 모델 자체는 디코더 (디코더) 아키텍처 인 디코딩 단계에 속합니다. 디코딩 단계는 하나의 토큰(텍스트 처리 시 빅모델의 가장 작은 단위)을 출력하는 과정으로, ChatGPT에 질문이 들어올 때마다 추론 과정이 시작됩니다.
예를 들어 "오늘 기분이 어때요"라는 질문을 ChatGPT에 보내면, ChatGPT는 이 문장을 인코딩하고 각 계층의 주의 표현을 생성한 후 이전 모든 토큰의 주의 표현을 기반으로 첫 번째 출력 토큰 '나'를 예측한 후 이를 디코딩합니다. 디코딩 후 "나"는 "오늘 기분이 어때요?"로 연결됩니다. 그 후, "나"를 디코딩하고 "나"를 "오늘 기분 어때요?"로 스플라이스합니다. I"로 새로운 주의 표현을 얻은 다음 다음 토큰인 "yes"를 예측하고 첫 번째 단계, 두 번째 단계 사이클을 따라 "오늘 기분이 어때요?"를 얻습니다. 기분이 좋아요."라는 결과를 얻습니다.
컨테이너를 오케스트레이션하는 도구인 Kubernetes는 서버 리소스를 예약하고 할당하는 ChatGPT의 '총사령관'입니다. Kubernetes 컨트롤 플레인이 처리할 수 있는 것보다 많은 사용자가 유입되면 ChatGPT 시스템이 완전히 종료될 수 있습니다.
ChatGPT가 다운된 총 횟수는 그리 많지 않지만, 그 이면에는 이를 지원하는 데 의존하는 강력한 리소스가 있으며 안정적인 운영을 유지하는 데는 사람들이 간과하는 영역인 강력한 산술이 있습니다.
일반적으로 추론 처리의 데이터 크기는 작은 경향이 있기 때문에 컴퓨팅 성능에 대한 요구 사항은 학습만큼 높지 않습니다. 일부 업계 추산에 따르면 일반적인 대규모 모델 추론 프로세스에서 메모리 모델 파라미터 가중치가 차지하는 비중이 80% 이상으로 큰 비중을 차지한다고 합니다. 실제로 ChatGPT의 내장 모델은 DeepSeek-R1의 671B보다 작고, ChatGPT의 GPU 성능이 DeepSeek보다 훨씬 높기 때문에 당연히 DS-R1보다 더 안정적인 성능을 보입니다.
DeepSeek-V3와 R1은 모두 671B 모델이며, 모델 시작 프로세스는 추론 프로세스이며, 산술 예비의 추론은 사용자 수에 맞춰야하며, 예를 들어 1 억 명의 사용자는 1 억 명의 그래픽 카드를 장착해야하는 등 방대 할뿐만 아니라 산술 예비의 훈련과 프로세스와 무관하게 관련되지 않습니다. 모든 정보에서 DS의 그래픽 카드와 산술 준비금은 분명히 충분하지 않으므로 자주 지연됩니다.
이 비교는 ChatGPT의 매끄러운 경험에 적응한 사용자, 특히 R1에 대한 관심이 커지고 있는 시점에서 익숙하지 않은 비교입니다.
2.카드, 카드, 카드
그리고 면밀히 비교해보면 OpenAI와 DeepSeek는 매우 다른 상황에 직면하게 됩니다.
전자는 OpenAI의 독점 플랫폼으로서 Microsoft의 지원을 받고 있으며, ChatGPT, Dalle-E 2 이미지 생성기, GitHub Copilot 자동 코딩 도구가 장착 된 Microsoft Azure 클라우드 서비스 이후이 조합은 클라우드 + AI의 고전적인 패러다임이되었으며 빠르게 확산되어 업계 표준이되었습니다. 후자는 신생 기업이지만 대부분의 경우 다음과 같습니다. 는 타사 클라우드 제공업체에 의존하지 않고 Google과 마찬가지로 자체 구축한 데이터 센터에 의존합니다. 실리콘 플래닛이 공개 정보를 검토한 결과, 딥시크는 클라우드 공급업체 칩 제조업체와 어떤 수준에서도 협력을 개시하지 않았습니다(클라우드 공급업체가 춘절 기간 동안 딥시크 모델을 실행할 수 있다고 발표했지만 실제로 의미 있는 협력을 수행한 적은 없습니다).
그리고 딥시크가 전례 없는 사용자 증가를 경험하고 있다는 사실은 ChatGPT보다 스트레스 상황에 대한 리드 타임도 적다는 것을 의미합니다.
딥시크의 좋은 성과는 하드웨어와 시스템 수준에서 전반적인 최적화를 이뤄낸 결과이며, 딥시크의 모회사인 팬텀 퀀티튜티브는 2019년에 2억 달러를 들여 파이어플라이 I 슈퍼컴퓨팅 클러스터를 구축했고, 22년까지 10,000개의 A100 그래픽 카드를 조용히 저장했으며, 보다 효율적인 병렬 훈련을 위해 딥시크는 자체 HAI LLM 훈련 프레임워크를 개발했다. 업계에서는 파이어플라이 클러스터가 강력한 병렬 컴퓨팅 기능을 제공하기 위해 수천에서 수만 개의 고성능 GPU(예: 엔비디아 A100/H100 또는 국산 칩)를 사용했을 것으로 추정하고 있습니다. 현재 파이어플라이 클러스터는 수학 및 코드와 같은 복잡한 작업에서 GPT-4 수준에 가까운 성능을 발휘하는 딥시크-R1, 딥시크-MoE 및 기타 모델 트레이닝을 지원합니다.
파이어플라이 클러스터는 새로운 아키텍처와 접근 방식에 대한 딥시크의 발견 여정을 대표하며, 이러한 혁신을 통해 DS는 훈련 비용을 절감하고 서구 최첨단 모델 산술의 일부만으로 최고 수준의 AI 모델 성능과 비슷한 R1을 훈련할 수 있다는 믿음으로 이어졌다.SemiAnalysis는 추정 결과 딥시크가 실제로 다음과 같이 지적한다. 딥시크는 A100 10,000개, H100 10,000개, "스페셜 에디션" H800 10,000개, "스페셜 에디션" H20 30,000개 등 60,000개의 NVIDIA GPU 카드가 쌓여 있습니다.
이것은 R1에 충분한 양의 카드가 있다는 것을 암시하는 것처럼 보입니다. 그러나 실제로는 추론 모델인 R1은 응답을 위해 더 많은 컴퓨팅 파워를 배치해야 하는 OpenAI의 O3와 벤치마킹되지만, DS의 학습 비용 측면에서 절약된 컴퓨팅 파워와 추론 비용 측면에서 갑자기 증가한 컴퓨팅 파워 중 어느 것이 더 높은지는 명확하지 않습니다.
딥시크-V3와 딥시크-R1은 모두 대규모 언어 모델이지만 작동 방식에 차이가 있다는 점을 언급할 필요가 있습니다. 딥시크-V3는 프롬프트를 받아 응답할 텍스트를 생성하는 ChatGPT와 유사한 명령형 모델입니다. 하지만 DeepSeek-R1은 추론 모델로, 사용자가 R1에게 질문을 하면 먼저 많은 추론 과정을 거친 후 최종 답변을 생성합니다. R1이 생성하는 토큰의 첫 번째는 많은 일련의 사고 과정으로, 모델이 질문을 설명하고 질문을 분해한 후 답변을 생성하며 이러한 모든 추론 과정이 빠르게 토큰 형태로 생성됩니다.
유튜브 캐피탈의 부사장 웬팅칸은 앞서 언급한 딥시크의 거대한 산술 예비는 훈련 단계를 의미하며, 훈련 단계의 산술 팀은 계획적이고 예측 가능하며 산술 부족이 발생하지 않지만 추론 산술은 주로 사용자의 규모와 사용량에 따라 달라지기 때문에 더 불확실하며, "추론 산술은 일정한 규칙에 따라 성장하지만 추론 산술이 일정한 패턴에 따라 성장함에 따라 사용자의 규모와 사용량이 쉽지 않을 것이다"고 말했습니다. 일정한 법칙에 따라 성장하는데, 딥씽크가 경이로운 제품이 되면서 단기간에 사용자 규모와 사용량이 폭발적으로 증가했고, 추론 단계의 연산 수요가 폭발적으로 늘어나면서 시차가 생긴 것"이라고 설명했습니다.
활동적인 모델 제품 디자이너 인 독립 개발자 Gui Zang은 카드의 양이 DeepSeek 지연의 주요 원인이라는 데 동의했으며, 그는 모바일 애플리케이션의 다운로드 수가 가장 많은 세계 140 개 시장에서 현재 DS로 현재 카드가 어떤 경우에도 견딜 수 없으며 새로운 카드가 있더라도 "클라우드를 수행하는 새 카드는 시간이 필요하기 때문에 시간이 필요하지 않습니다. "
"NVIDIA A100, H100 및 기타 칩은 공정한 시장 가격의 비용의 한 시간을 실행하는 데, 출력 토큰 추론 비용에서 DeepSeek는 OpenAI 유사 모델 o1보다 90 % 이상 저렴하므로 모든 사람의 계산 편향이 많지 않으므로 모델 아키텍처 MOE 자체가 주요 문제는 아니지만 DS에는 GPU가 있습니다. 하지만 DS가 보유한 GPU의 수에 따라 분당 생산하고 제공할 수 있는 최대 토큰 수가 결정되며, 사전 학습 연구 대신 사용자에게 서비스를 제공하기 위한 추론을 수행하는 데 더 많은 GPU를 사용할 수 있다고 해도 상한선이 존재합니다." AI 네이티브 앱인 Kitten Fill Light의 개발자인 Yunfei Chen도 비슷한 견해를 가지고 있습니다.
일부 업계 관계자들도 실리콘 스타 피플과의 인터뷰에서 딥시크의 지연이 프라이빗 클라우드가 제대로 작동하지 않기 때문이라고 언급했습니다.
1월 30일 이 매체는 사이버 보안 업체 QinetiQ로부터 딥시크의 온라인 서비스에 대한 공격 강도가 갑자기 높아졌으며 공격 명령이 1월 28일에 비해 수백 배 증가했다는 사실을 알게 되었습니다. 최소 두 개의 봇넷이 첸슨의 Xlab 연구소에서 공격에 관여한 것으로 관찰되었습니다.
R1의 자체 서비스 지연에 대한 한 가지 확실한 해결책은 서드파티가 서비스를 제공하는 것입니다. 춘절 기간 동안 가장 활발하게 목격된 풍경은 바로 이러한 공급업체들이 딥시크에 대한 수요를 감당하기 위해 서비스를 배포하고 있다는 점입니다.
1월 31일, 딥시크 덕분에 하룻밤 사이에 엔비디아의 시장 가치가 6천억 달러 가까이 증발한 후, 엔비디아는 딥시크-R1을 엔비디아 NIM에서 사용할 수 있게 되었다고 발표했습니다. 같은 날, 아마존 클라우드 AWS 사용자들은 AI 플랫폼인 아마존 베드락과 아마존 세이지메이커 AI에 딥시크의 최신 R1 기본 모델을 배포할 수 있게 되었습니다. 그 뒤를 이어 퍼플렉시티, 커서, 딥시크 대량 액세스 등 AI 애플리케이션을 처음 접하는 사용자들도 딥시크를 사용할 수 있게 되었습니다. 반면, 마이크로소프트는 아마존과 엔비디아에 앞서 자사의 클라우드 서비스인 Azure와 Github에 딥시크-R1을 가장 먼저 배포했습니다.
중국 춘절 넷째 날인 2월 1일부터는 화웨이 클라우드, 알리 클라우드, 바이트댄스의 볼케이노 엔진, 텐센트 클라우드가 합류하여 일반적으로 딥시크의 풀 시리즈, 풀 사이즈 모델 배포 서비스를 제공했습니다. 그 후 Wallen Technology, 한보 반도체, Rise, MuXi와 같은 AI 칩 공급업체들이 오리지널 DeepSeek 또는 더 작은 크기의 증류 버전을 채택했다고 주장했습니다. 소프트웨어 회사, UFIDA, 킹디 등은 제품 파워를 강화하기 위해 일부 제품에 딥시크 모델에 액세스하고 있으며, 마지막으로 레노버, 화웨이, 글로리 등 단말기 제조업체는 개인 비서 및 자동차 지능형 콕핏의 최종 측면으로 사용되는 일부 제품에 딥시크 모델에 액세스하기 위해 자사 제품 중 일부에 액세스하고 있습니다.
지금까지 DeepSeek는 자체 가치에 의존하여 국내외 클라우드 공급 업체, 운영자, 중개 회사 및 국가 플랫폼 국가 슈퍼 컴퓨팅 인터넷 플랫폼을 포함한 포괄적이고 큰 친구를 끌어 들이고 있습니다. DeepSeek-R1은 완전한 오픈 소스 모델이기 때문에 여기에 액세스하는 서비스 제공업체는 모두 DS 모델의 수혜자가 되었습니다. 이로 인해 DS의 명성이 크게 높아졌지만 동시에 더 빈번한 지연 현상이 발생하고 서비스 제공업체와 DS 자체는 점점 더 많은 사용자 유입에 갇혀 있지만 트릭의 안정적인 사용 문제를 해결할 열쇠를 찾지 못했습니다.
원래 딥시크 V3와 R1 모델이 클라우드에서 실행하기에 적합한 최대 6710억 개의 파라미터를 보유하고 있고, 클라우드 벤더 자체가 충분한 컴퓨팅 파워와 추론 능력을 갖추고 있다는 점을 고려하면, 기업 사용의 문턱을 낮추는 온라인 딥시크 관련 배포 서비스이며, DS 자체에 비해 외부 API를 제공하는 딥시크 모델의 배포는 DS 모델에 비해 훨씬 더 효율적이라고 할 수 있습니다. API를 제공하면 DS 공식 사용보다 더 나은 경험을 제공할 수 있을 것으로 생각했습니다.
그러나 현실은 DeepSeek-R1 모델이 자체적으로 실행되는 서비스의 경험 문제가 해결되지 않았고, 서비스 제공 업체가 카드가 부족한 것이 아니라 실제로 R1을 배포 한 외부 세계, 불안정한 피드백의 경험에 대한 응답에 대한 개발자, R1과 정확히 동일한 빈도는 추론을 위해 R1에 할당 할 수있는 카드의 양이 너무 많지 않은 것에 더 많이 놓여있다는 것이 현실입니다.
"R1의 열기가 높고, 서비스 제공업체는 다른 모델에 대한 액세스를 저글링해야 하며, R1에 제공할 수 있는 카드가 매우 제한적이며, R1의 열기가 너무 높아 상대적으로 낮은 가격으로 제공하는 사람은 누구나 R1에 올라갈 수 있습니다." 모델 제품 디자이너이자 인디 개발자인 고우조우는 실리콘 스타 피플과의 인터뷰에서 그 이유를 설명했습니다.
모델 배포 최적화는 교육 완료부터 실제 하드웨어 배포까지 다양한 측면을 포괄하는 광범위한 영역이며 여러 단계의 작업이 필요하지만, 딥시크의 지연 사건의 경우 너무 큰 모델과 출시 전 최적화 준비 부족 등 원인이 더 단순했을 수 있습니다.
인기 있는 대형 모델을 가동하기 전에는 학습 데이터와 운영 환경 데이터의 일관성, 모델 추론 효과에 영향을 미치는 데이터 지연 및 실시간, 온라인 추론 효율 및 리소스 소비가 너무 높거나 모델 일반화 능력이 부족하고 서비스 안정성, API 및 시스템 통합과 같은 엔지니어링 측면 등 기술, 엔지니어링 및 비즈니스와 관련된 여러 문제에 직면하게 됩니다.
온라인 이전의 많은 빨간색 큰 모델은 추론 최적화를 잘 수행하는 데 높은 평가를 받고 있으며, 이는 계산 시간이 많이 걸리고 메모리 문제로 인해 전자는 추론 지연이 너무 길어 사용자 경험이 좋지 않고 지연 수요, 즉 지연 및 기타 현상을 충족 할 수 없으며 후자는 모델 매개 변수 수가 크고 메모리를 많이 소비하며 단일 GPU 카드도 넣을 수 없으며 지연으로 이어질 수 있음을 나타냅니다.
원 팅칸은 실리콘 스타 사람들에게 그 이유를 설명하면서, 그는 언급 할 서비스 제공 업체가 R1 서비스를 제공하는 데 어려움을 겪었고, 본질은 DS 모델 구조가 특별하고 모델이 너무 크고 MOE (전문가 하이브리드 구조, 효율적인 컴퓨팅 방식) 아키텍처, "(서비스 제공 업체) 최적화는 시간이 필요하지만 시장 열은 시간 창이므로 먼저 켜고 최적화하는 것이 아니라 최적화하고 최적화합니다. 완전히 최적화한 다음 가동하는 것이 좋습니다."
R1이 안정적으로 운영되기 위해 현재 핵심은 준비금의 추론 측면과 최적화 능력에 있으며, 딥시크가 해야 할 일은 추론 비용, 카드의 출력, 단일 출력 토큰 수를 낮추는 방법을 찾는 것이다.
동시에 지연은 또한 DS의 자체 산술 준비금이 SemiAnalysis에서 설명한 것만 큼 크지 않을 수 있으며 팬텀 펀드 회사가 카드를 사용해야하고 DeepSeek의 교육 팀이 카드를 사용해야하며 사용자에게 배출 할 수있는 카드가 많지 않다는 것을 나타냅니다. 현재 개발 상황에 따르면, 단기적으로 딥시크는 서비스를 임대하기 위해 돈을 쓸 인센티브가 없을 수 있으며, 사용자에게 더 나은 경험을 제공하기 위해 무료로 비즈니스 모델의 첫 번째 물결이 명확하게 정리 될 때까지 기다린 다음 서비스 임대 문제를 고려할 가능성이 높으며 이는 카드가 단기간이 아닌 계속 될 것이라는 의미이기도합니다.
"1) 무료 사용자 모델 사용량을 제한하는 결제 메커니즘을 만들고, 2) 클라우드 서비스 공급업체와 협력하여 다른 사람의 GPU 리소스를 사용하는 2단계 조치가 필요할 것입니다." 개발자 첸윈페이가 제시한 임시 해결책은 업계에서 상당한 공감대를 형성하고 있습니다.
그러나 현재로서는 딥시크는 '바쁜 서버' 문제에 대해 크게 걱정하지 않는 것 같습니다. AGI를 쫓는 회사로서 딥시크는 사용자 유입에 너무 집중하는 것을 꺼려하는 것 같습니다. 사용자들은 조만간 "서버 사용 중" 화면에 익숙해져야 할 것 같습니다.