출처: 텐센트 테크놀로지
춘제 이후 딥씽크의 인기는 계속 상승하고 있으며, 많은 오해와 논란과 함께 어떤 사람들은 "오픈AI를 이길 국가의 빛"이라고 말하고, 어떤 사람들은 "스마트의 숙제라는 외국의 큰 모델을 모방한 것에 불과하다"고 말합니다.
이러한 오해와 논란은 주로 다섯 가지 측면에 초점을 맞추고 있습니다.
1, 과도한 신화와 두뇌없는 폄하, 결국 DeepSeek는 근본적인 혁신이 아닌가? 소위 ChatGPT의 증류는 결국 근거가 없다고 말했습니까?
2, DeepSeek의 비용은 정말 550만 달러에 불과합니까?
3, 딥시크가 정말 그렇게 효율적으로 할 수 있다면 세계 주요 대기업의 막대한 AI 자본 지출은 모두 돈 낭비가 아닌가요?
4, 딥시크는 PTX 프로그래밍을 사용하며, 정말 엔비디아 CUDA에 대한 의존성을 우회할 수 있을까요?
5, 딥시크가 전 세계적으로 폭발적으로 성장했지만 규정 준수, 지정학 및 기타 문제로 인해 해외에서 잇달아 금지될까요?
I. 과도한 신화와 무뇌아적 감가상각 결국 딥시크는 근본적인 혁신이 아니다?
인터넷 실무자 카오즈는 산업 발전 촉진의 가치를 긍정하는 것은 가치가 있지만 전복을 이야기하기에는 너무 이르다고 말합니다. 일부 전문 평가는 솔루션의 일부 주요 문제에서 ChatGPT를 초과하지 않았습니다.
예를 들어, 일부 사람들은 테스트, 바운싱 코드의 닫힌 공간에서 일반적인 공을 시뮬레이션하고, 프로그램 성능에서 작성된 DeepSeek 및 후속 정도 관점의 물리학에 비해 ChatGPT o3-mini는 여전히 격차가 있습니다.
과도하게 신화화하지도 말고, 그렇다고 무턱대고 폄하하지도 마세요.
딥시크의 기술적 성과에 대해 극단적인 두 가지 견해가 있는데, 하나는 딥시크의 기술적 혁신을 '파괴적 혁명'이라고 부르는 반면, 다른 하나는 외국 모델을 모방한 것에 불과하며 심지어 오픈AI 모델을 모방하여 발전했다는 추측도 있습니다.
마이크로소프트는 딥시크가 ChatGPT의 결과를 증류했다고 밝혔지만, 일부 사람들은 이러한 상황을 이용해 딥시크를 쓸모없는 것으로 폄하하고 있습니다.
진실은 두 가지 견해 모두 너무 일방적이라는 것입니다.
더 정확히 말하자면, 딥시크의 혁신은 업계의 문제점에 대한 엔지니어링 패러다임의 업그레이드이며, AI 추론에 있어 "적은 것이 더 많다"는 새로운 길을 열어준 것입니다.
딥시크는 크게 세 가지 수준의 혁신을 이뤄냈습니다.
첫째, 학습 아키텍처를 슬림화함으로써, 예를 들어 GRPO 알고리즘은 기존 강화 학습에 필요한 크리틱 모델(즉, '이중 엔진' 설계)을 생략하여 복잡한 알고리즘을 현장에서 구현 가능한 엔지니어링 솔루션으로 단순화할 수 있습니다.
딥시크 알고리즘은 업계 고충을 해결하는 AI 추론을 위한 새로운 엔지니어링 패러다임의 업그레이드입니다.
둘째, GRPO 알고리즘은 코드 생성 시나리오에서 수동 채점을 컴파일 결과와 단위 테스트 통과율로 직접 대체하는 등 간단한 평가 기준을 채택해 AI 학습의 주관적 편향 문제를 효과적으로 해결하는 결정론적 규칙 기반 시스템이며, 마지막으로 GRPO 알고리즘은 순수 알고리즘 진화 모델인 제로 모드와 수천 개의 수동 라벨링 데이터만 필요한 R1 모드 사이에서 미묘한 균형을 찾았습니다. 순수 알고리즘으로 자율적으로 진화하는 제로 모델과 수동으로 주석을 단 수천 개의 데이터만 필요한 R1 모델의 조합은 자율적인 모델 진화 기능을 유지하면서 인간의 해석 가능성을 보장합니다.
그러나 이러한 개선은 딥러닝의 이론적 한계를 돌파하거나 OpenAI o1/o3와 같은 헤드 모델의 기술 패러다임을 완전히 뒤집는 것이 아니라 시스템 수준의 최적화를 통해 업계의 고충을 해결한 것입니다.
DeepSeek는 완전한 오픈 소스이며 이러한 혁신을 상세히 문서화하고 있으며, 전 세계는 이러한 발전을 활용하여 자체 AI 모델 학습을 개선할 수 있습니다. 이러한 혁신 포인트는 오픈 소스 문서에서 확인할 수 있습니다.
Stability AI의 전 연구 책임자였던 타니쉬 매튜 아브라함은 최근 블로그 게시물에서 DeepSeek의 혁신 중 세 가지를 강조하기도 했습니다.
1. 멀티헤드 주의 메커니즘: 빅 언어 모델은 일반적으로 소위 멀티헤드 주의(MHA) 메커니즘을 사용하는 트랜스포머 아키텍처를 기반으로 합니다. DeepSeek 팀은 더 나은 성능을 달성하면서 메모리를 더 효율적으로 사용할 수 있는 MHA 메커니즘의 변형을 개발했습니다.
2. 검증 가능한 보상을 제공하는 GRPO: 딥시크는 매우 간단한 강화 학습(RL) 프로세스로도 실제로 GPT-4와 유사한 결과를 얻을 수 있음을 입증했습니다. 또한, 그들은 더 효율적이고 더 나은 성능을 발휘하는 GRPO라는 PPO 강화 학습 알고리즘의 변형을 개발했습니다.
3. 듀얼파이프: 멀티 GPU 환경에서 AI 모델을 훈련할 때 고려해야 할 효율성 관련 요소는 많습니다. DeepSeek 팀은 훨씬 더 효율적이고 빠른 듀얼파이프라는 새로운 접근 방식을 고안했습니다.
전통적으로 "증류"는 토큰 확률(로짓)을 훈련하는 것을 말하는데, ChatGPT는 이러한 유형의 데이터를 개방하지 않기 때문에 기본적으로 ChatGPT를 "증류"하는 것은 불가능합니다.
따라서 기술적 관점에서 보면 DeepSeek의 성과에 의문을 제기해서는 안 됩니다. 기술적 관점에서는 의문을 제기해야 합니다. OpenAI o1의 의식 연쇄 추론 프로세스는 한 번도 공개된 적이 없기 때문에 ChatGPT를 '증류'하는 것만으로는 어려웠을 것입니다.
그리고 딥시크의 훈련이 증류된 말뭉치 정보를 일부 활용하거나 소량의 증류 검증을 수행했을 수 있지만, 전체 모델의 품질과 가치에 미치는 영향은 매우 적었을 것이라고 caoz는 주장합니다.
또한, 자신의 모델의 선도적 인 모델 증류 검증 최적화를 기반으로 많은 대형 모델 팀의 일상적인 작업이지만 결국 네트워킹 API의 필요성은 매우 제한된 정보를 얻을 수 있으며 인터넷 데이터의 방대한 양의 정보에 비해 상대적으로 영향에 결정적인 요소가 될 것 같지 않으며, API 호출을 통해 대형 모델이 버킷에서 드롭의 코퍼스를 얻을 수있는 선도적 인 모델은 검증 분석에 더 사용되는 것이 합리적인 추측입니다. 전략의 검증 분석에 더 많이 사용되는 것이 합리적 추측입니다.
모든 빅 모델은 인터넷에서 말뭉치 훈련을 받아야 하고, 선도적인 빅 모델은 지속적으로 인터넷에 말뭉치를 제공하고 있으며, 이러한 관점에서 모든 선도적인 빅 모델은 캡처 및 증류의 운명을 벗어날 수 없지만 이를 성공과 실패의 열쇠로 취급할 필요는 없습니다.
결국 우리는 모두 앞으로 나아갈 뿐입니다.
두 번째: DeepSeek의 비용이 550만 달러에 불과한가요?
비용이 550만 달러라는 결론은 비용이 명확하지 않기 때문에 옳기도 하고 그르기도 합니다.
타니쉬 매튜 아브라함이 객관적으로 추정한 DeepSeek의 비용:
먼저 이 수치의 출처를 이해할 필요가 있습니다. 이 수치는 DeepSeek-R1 논문보다 한 달 전에 발표된 DeepSeek-V3 논문에서 처음 등장했습니다.
DeepSeek-V3는 DeepSeek-R1의 기본 모델이며, 이는 실제로 DeepSeek-R1에 추가적으로 강화 학습 훈련이 추가되었습니다.
따라서 어떤 의미에서 이 비용 수치는 강화 학습 훈련의 추가 비용을 고려하지 않았기 때문에 본질적으로 부정확합니다. 그러나 그 추가 비용은 아마도 수십만 달러에 달할 것입니다.

그림: 비용에 대한 DeepSeek-V3 논문
그렇다면 DeepSeek-V3 논문에서 주장한 550만 달러의 비용은 정확한 것일까요?
GPU 비용, 데이터 세트 크기, 모델 크기를 기반으로 한 여러 분석에서 비슷한 추정치가 나왔습니다. 한 가지 주목할 점은 DeepSeek V3/R1은 6,710억 개의 파라미터를 가진 모델이지만, 혼합 전문가 아키텍처를 사용하므로 함수 호출이나 순방향 전파에 약 370억 개의 파라미터만 사용되며 이 값이 학습 비용 계산의 기준이 된다는 점입니다.
딥시크는 현재 시장 가격을 기준으로 예상 비용을 보고하고 있다는 점에 유의해야 합니다. 2,048개의 H800 GPU 클러스터(참고: 일반적인 오해인 H100이 아님)의 실제 비용은 알 수 없습니다. 대부분의 경우 GPU 클러스터를 대량으로 구매하는 것이 단편적으로 구매하는 것보다 저렴하므로 실제 비용은 더 낮을 수 있습니다.
그러나 이는 최종 트레이닝 실행 비용일 뿐이라는 점이 중요합니다. 최종 훈련에 도달하기 전에는 많은 소규모 실험과 절제 연구가 이루어지며, 여기에는 이 보고서에 포함되지 않은 상당한 비용이 발생합니다.
연구원의 급여 등 다른 많은 비용도 있습니다. 세미애널리시스에 따르면 딥시크의 연구원 급여는 100만 달러에 달한다는 소문이 있습니다. 이는 OpenAI나 Anthropic과 같은 AGI 프론티어 연구소의 최고급 연봉과 비슷한 수준입니다.
일각에서는 이러한 추가 비용 때문에 딥시크의 저렴한 비용과 운영 효율을 무시하는 의견도 있습니다. 이 주장은 매우 불공평합니다. 다른 AI 회사들도 인건비에 많은 비용을 지출하는데, 이는 일반적으로 모델 비용에 반영되지 않기 때문입니다."
반도체 및 AI에 중점을 둔 독립 리서치 및 분석 회사인 Semianalysis는 딥시크의 AI TCO(총소유비용)에 대한 분석도 발표했는데, 여기에는 딥시크 AI의 네 가지 GPU 모델(A100, H20, H800 및 H100) 사용에 따른 총소유비용이 요약된 표가 나와 있습니다. 장비 구매, 서버 구축 및 운영 비용을 포함한 상황입니다. 4년 주기로 6만 개의 GPU를 사용하는 데 드는 총 비용은 25억 7,300만 달러로, 대부분 서버 구매 비용(16억 2,900만 달러)과 운영 비용(9억 4,400만 달러)으로 구성됩니다.

물론 외부에서는 딥시크가 얼마나 많은 카드를 보유하고 있는지, 개별 모델이 몇 퍼센트를 차지하는지 정확히 알지 못합니다. 개별 모델이 정확히 몇 퍼센트를 차지하는지 외부에서는 아무도 알 수 없으며, 모두 추정치일 뿐입니다.
요약하면 장비, 서버, 운영 및 기타 비용을 모두 고려하면 비용이 550만 달러를 훨씬 넘지만, 순 컴퓨팅 파워 비용이 550만 달러라면 이미 매우 효율적이라고 할 수 있습니다.
셋째, 컴퓨팅 파워에 투자하는 막대한 자본 지출은 엄청난 낭비일 뿐인가요?
이것은 널리 퍼져 있지만 다소 일방적인 견해입니다. 실제로 딥시크는 학습 효율성에서 우위를 보였고, 일부 AI 기업 수장들은 컴퓨팅 자원 사용에 있어 효율성에 문제가 있을 수 있다는 점을 드러내기도 했습니다. 엔비디아의 단기 급락도 이러한 오해가 널리 유포된 것과 관련이 있을 수 있습니다.
그러나 그렇다고 해서 컴퓨팅 리소스를 더 많이 보유하는 것이 나쁜 것은 아닙니다. 스케일링 법칙의 관점에서 보면 더 많은 컴퓨팅 파워는 항상 더 나은 성능을 의미합니다. 이러한 추세는 2017년에 트랜스포머 아키텍처가 도입된 이래로 계속되어 왔으며, 트랜스포머 아키텍처를 기반으로 하는 DeepSeek의 모델도 마찬가지입니다.
모델 크기에서 데이터 세트 크기로, 그리고 이제는 추론 연산과 합성 데이터로 AI 개발의 초점은 진화해 왔지만, 더 많은 연산이 더 나은 성능과 같다는 핵심 규칙은 변하지 않았습니다.
딥 시크는 더 효율적인 경로를 찾았고 규모의 법칙은 여전히 유효하지만, 더 많은 계산 리소스가 여전히 더 나은 결과를 가져옵니다.
넷째, 딥시크는 NVIDIA CUDA에 대한 의존을 우회하여 PTX를 사용하나요?
딥시크의 논문에서는 딥시크가 PTX(병렬 스레드 실행) 프로그래밍을 사용하며, 이러한 맞춤형 PTX 최적화를 통해 딥시크의 시스템과 모델이 기반 하드웨어의 성능을 더 잘 발휘할 수 있다고 언급하고 있습니다.
원문은 다음과 같습니다."우리는 맞춤형 PTX(병렬 스레드 실행) 명령어를 사용하고 통신 청크 크기를 자동 조정합니다. 를 사용하여 L2 캐시 사용과 다른 SM에 대한 간섭을 크게 줄입니다.""우리는 맞춤형 PTX(병렬 스레드 실행) 명령어를 사용하고 통신 청크 크기를 자동 조정합니다. 이를 통해 L2 캐시 사용과 다른 SM에 대한 간섭을 크게 줄일 수 있습니다."
웹에는 이 문구에 대한 두 가지 해석이 떠돌고 있는데, 하나는 이것이 "CUDA 독점을 우회하려는 시도"라는 것이고, 다른 하나는 딥시크가 최고급 칩에 액세스할 수 없기 때문에 H800 GPU의 제한된 상호 연결 대역폭 문제를 해결하고 칩 간 통신 기능을 개선하기 위해 낮은 계층으로 내려가야 했다는 것입니다. 칩 간 통신 기능을 개선하기 위해 더 낮은 계층으로 내려가야 했습니다.
상해교통대학교의 다이 구오하오 부교수는 이 두 가지 주장이 모두 정확하지 않다고 생각합니다. 첫째, PTX(병렬 스레드 실행) 명령은 실제로 CUDA 드라이버 레이어 내부에 있는 구성 요소이며, 여전히 CUDA 에코시스템에 의존합니다. 따라서 PTX가 CUDA 독점을 우회하는 데 사용된다는 개념은 잘못된 것입니다.
다이 구오하오 교수는 파워포인트를 사용하여 PTX와 CUDA의 관계를 명확하게 설명했습니다.

PPT by Guohao Dai, 상하이교통대학교 부교수
CUDA는 비교적 상위 수준의 인터페이스로 다양한 사용자 대면 프로그래밍 인터페이스를 제공합니다. 그리고 PTX는 일반적으로 CUDA 드라이버에 숨겨져 있기 때문에 거의 모든 딥 러닝 또는 빅 모델 알고리즘 엔지니어는 이 계층에 노출되지 않습니다.
이 레이어가 중요한 이유는 무엇일까요? 그 이유는 이 위치에서 볼 수 있듯이 PTX가 기본 하드웨어와 직접 상호 작용하여 기본 하드웨어에 대한 프로그래밍 및 호출을 개선할 수 있기 때문입니다.
쉽게 설명하자면, 딥시크의 최적화는 칩이 제한된 현실에서 최후의 수단이 아니라 칩이 H800이든 H100이든 상관없이 상호 연결의 효율성을 개선하는 사전 예방적 최적화입니다.
V. 딥시크는 해외에서 금지되나요?
딥시크가 불거진 후 엔비디아, 마이크로소프트, 인텔, AMD, AWS의 5대 클라우드 대기업은 딥시크를 보류하거나 통합했으며, 국내에서는 화웨이, 텐센트, 바이두, 알리, 볼케이노 엔진도 딥시크의 배포를 지원합니다.
그러나 일부 지나치게 감정적인 한편으로는 "외국 클라우드 대기업이 딥시크에 패배했다"는 감정적인 수사가 있습니다.
사실, 이들 기업이 DeepSeek를 도입한 것은 비즈니스적인 고려 사항 때문이었습니다. 클라우드 공급업체 입장에서는 가장 인기 있고 성능이 뛰어난 모델을 최대한 많이 배포하도록 지원하면 고객에게 더 나은 서비스를 제공할 수 있고, 동시에 딥시크 관련 트래픽이 증가하여 신규 사용자 중 일부가 전환할 수도 있습니다.
딥시크가 큰 인기를 끌었을 때 중앙 집중적으로 배포된 것은 사실이지만, 딥시크에 집착했다거나 '압도당했다'고 말하는 것은 과장된 표현입니다.
또한 중국 기술 커뮤니티는 딥시크가 공격을 받은 후 어벤져스 연합을 결성하여 딥시크를 도왔습니다.
다른 한편에서는 지정학적 및 기타 현실적인 이유로 인해 곧 외국에서 딥시크를 잇달아 금지할 것이라는 목소리도 나오고 있습니다.
이에 대해 caoz는 보다 명확한 해석을 내놓았는데요, 사실 우리가 말하는 딥시크에는 두 가지 제품이 포함되어 있는데, 하나는 전 세계를 강타한 앱인 딥시크이고 다른 하나는 깃허브에 있는 오픈소스 코드 라이브러리입니다. 전자는 후자의 데모로, 그 기능을 완벽하게 보여주는 데모라고 생각할 수 있습니다. 반면에 후자는 번성하는 오픈 소스 생태계로 성장할 수 있습니다.
사용이 제한되는 것은 DeepSeek의 앱이고, 거대 기업들이 접근하여 제공하는 것은 DeepSeek의 오픈 소스 소프트웨어 배포입니다. 이 두 가지는 완전히 다른 문제입니다.
딥시크는 '중국의 대형 모델'로서 글로벌 AI 분야에 뛰어들었고, 가장 분위기 있는 오픈소스 프로토콜인 MIT 라이선스를 사용하여 상업적 사용까지 허용했습니다. 현재 이에 대한 논의는 기술 혁신의 범위를 훨씬 넘어섰지만, 기술의 발전은 결코 흑백의 옳고 그름이 아닙니다. 지나친 과대 선전이나 전면적인 부정에 빠지기보다는 시간과 시장이 그 진정한 가치를 시험하도록 내버려 두는 것이 좋습니다. 결국, AI 마라톤에서 진정한 경쟁은 이제 막 시작되었습니다.
참조:
딥시크에 대한 몇 가지 일반적인 오해
https://mp.weixin.qq.com/s/Uc4mo5U9CxVuZ0AaaNNi5g
딥시크 망상 파헤치기 작성자: Tanishq Mathew Abraham, 전 Stability AI 연구 책임자
https://www.tanishq.ai/blog/posts/deepseek-delusions.html