원: 부록
이 열흘 동안의 서클에서 딥서치 화재는 사실, 솔직히 말해서, 완제품의 대부분의 토론은 KPI의 맛을 따라 잡기 위해 일종의 초과 근무를하고 있으며, 사람이 유령이 돌파구에 있으며, 뒤에 남아있다는 것입니다! 가치있는 팟 캐스트는 몇 개 밖에 없지만 제가 들으면서 유익한 두 가지가 있으며 적극 추천합니다. <하나는 장샤오쥔이 버클리 캘리포니아대 인공지능 연구소에 초빙한 판지아이 박사가 딥씽크의 논문을 문장 단위로 설명하는 것으로, 3시간에 가까운 고밀도 출력으로 뇌세포를 죽이는 능력이 매우 뛰어나지만 죽인 후 분비되는 엔도르핀도 폭발적이라는 내용입니다.
다른 하나는 벤 톰슨이 딥시크에서 진행하는 팟캐스트 3편으로, 총 1시간이 넘습니다. 그는 뉴스 레터의 제작자이자 세계에서 가장 기술에 정통한 애널리스트 중 한 명으로, 타이페이에서 수년간 거주하며 미국보다 중국/아시아에 대한 근접성과 통찰력이 훨씬 높다고 합니다.
먼저 장샤오준의 이슈에 대해 말씀드리자면, 게스트인 판지아이는 딥시크의 논문을 읽은 후 가장 빠르게 R1-Zero 모델의 소규모 복제본을 개발하여 깃허브에서 10,000스타에 근접했습니다.
이런 종류의 유료 지식 릴레이는 사실 기술 분야의 이상주의를 투영한 것입니다.
다크사이드오브더문의 홍수성 연구원도 키미의 추론 모델 k1.5가 처음에 OpenAI가 내놓은 두 개의 동영상을 보고 영감을 받았다고 말했듯이, 조금 더 일찍 구글이 '주의력만 있으면 된다'를 공개한 후 OpenAI가 트랜스포머의 미래를 바로 깨달았다고 합니다. 모든 발전의 전제 조건은 바로 지능의 이동성입니다.
그래서 모두가 '과학에는 국경이 없지만 과학자에게는 조국이 있다'는 앤트로픽 창립자 다리오 아모데이의 막말과 기본적인 상식에 도전하면서 경쟁을 부정하는 그의 발언에 실망한 것이죠.
다시 팟캐스트의 내용으로 돌아가서 몇 가지 핵심 사항을 강조하고, 시간이 있다면 원본을 들어보시길 권해드립니다.
- OpenAI o1은 다른 벤더들로부터 놀라운 데뷔의 원리를 숨기는 데 매우 깊은 작업을 수행했지만, 이 상황은 업계가 풀어야 할 수수께끼이며, 여기 있는 모든 사람들이 그렇게 빨리 풀지 못할 것이라는 내기를 걸고 있으며,DeepScience, 할 말이 많은 OpenAI o1은 많은 것을 가지고 있습니다.
- 오픈소스는 클로즈드 소스보다 확실성을 제공할 수 있어 인력의 성장과 결과물의 산출에 큰 도움이 되고, R1은 전체 기술 경로가 명시되어 있어 과학 연구에 대한 투자를 촉진하는 데 기여하는 바가 비법을 숨기는 o1보다 더 크며,
- 딥시크-R1은 수수께끼의 답을 가장 먼저 알아낸 것이죠. 2년 가까이 차세대 모델이 나오지 않았고 주류 모델이 여전히 GPT-4에 맞춰져 있다는 사실은 "빠른 변화"를 옹호하는 시장에서 드문 일이며, 벽에 부딪히기 위해 스케일링 법칙을 따르지 않더라도 OpenAI o1 자체는 새로운 것입니다.
- 벤치 마크 테스트에서 o1이 지능 수준의 선형 증가를 다시 달성하는 것은 매우 인상적이며 기술 보고서에서 너무 많은 세부 사항을 공개하지는 않았지만 강화 학습의 가치, 사전 교육 및 감독 미세 조정은 모방에 사용할 모델에 정답을 제공하는 것과 동일하며 시간이 지남에 따라 모델이 모델을 따르도록 학습하지만 강화 학습 가치와 같은 핵심 부분이 언급되어 있습니다. 하지만 강화 학습은 모델 스스로 과제를 수행하도록 내버려두고 결과가 옳은지 그른지, 옳으면 더 많이 하고 그르면 덜 하는 것만 알려주는 것입니다.

-오픈AI는 강화학습을 통해 모델이 인간 연구자가 가르치는 것이 아니라 모델 스스로 이전 단계로 돌아가서 해결 단계가 잘못되었을 때 새로운 것을 생각해내는, 인간의 사고에 가까운 것을 만들어내는 CoT(Chain of Thought)라고 하는 것을 발견했습니다. 작업을 완료하기 위해 모델 자체가 강제로, 오, 아니, 능력의 출현이며, 나중에 DeepSeek-R1도 비슷한 "깨달음의 순간"을 재현했을 때, o1의 핵심 요새도 실제 망치에 의해 깨졌습니다.
- 추론 모델은 본질적으로 경제 컴퓨팅의 산물이며, 산술 능력을 쌓도록 강요하면 GPT-6에 여전히 o1과 유사한 효과를 싫어하기 어려울 수 있지만. 기적이 아니라 기적입니다, 기적입니다, 기적입니다, 가능하지만 필요하지는 않습니다, 모델 기능은 훈련 산술 x 추론 산술로 이해할 수 있으며, 전자는 이미 너무 비싸고 후자는 여전히 저렴하지만 승수 효과는 거의 동일하므로 이제 업계는 가격 대비 성능이 더 나은 추론의 길을 택하기 시작했습니다.
- 지난달 말 o3-mini와 DeepSeek-R1의 출시는 그것과 별 관련이 없을 수도 있지만 o3-mini는 o1과 같은 방식으로 출시되었습니다. 큰 연관은 없지만, o3-mini의 가격이 o1-mini의 1/3 수준으로 떨어진 것이 큰 영향을 미쳤을 것입니다. OpenAI 내부적으로 ChatGPT의 비즈니스 모델은 해자가 있지만 API 판매는 그렇지 않고 대체성이 너무 많으며 최근 중국에서 챗봇이 좋은 사업인지 아닌지에 대한 논란이 있었고 DeepSeek도 사업을 어떻게 가져갈지 아직 파악하지 못한 것 같습니다. 이 튀는 트래픽의 물결에 어떻게 대처하고 소비자 시장을 공략하고 최첨단 연구를 수행하는 방법을 잘 알지 못하는 것은 자연스러운 충돌 일 수 있습니다.
- 기술 전문가의 의견에 따르면 DeepSeek-R1-Zero는 인공 개입의 요소가 적고 순전히 모델 자체가 수천 단계의 추론에서 최적의 솔루션을 찾는 과정을 찾기 때문에 R1보다 훨씬 더 아름답고 사전 지식에 대한 의존도가 그렇게 높지 않지만 정렬 프로세스가 없기 때문에 훨씬 더 아름답습니다. 그러나 정렬이 없기 때문에 R1-Zero는 기본적으로 사용자에게 전달할 수 없습니다. 예를 들어 다양한 언어로 출력되므로 실제로 대중 시장에서 인정받는 DeepSeek의 R1은 여전히 증류, 미세 조정 또는 심지어 오래된 전술의 사고 사슬에 미리 이식되어 있습니다.
- 이것은 능력과 성능이 동기화되지 않고 최고의 능력을 가진 모델이 최고의 성능이 아닐 수도 있고 그 반대의 경우도 마찬가지라는 문제를 수반합니다. 최고의 성능 모델이 최고의 성능이 아닐 수도 있고 그 반대의 경우도 마찬가지이며, R1의 뛰어난 성능은 주로 인위적인 노력의 방향에 기인하며, 훈련 코퍼스에서 R1은 독점적이지 않으며 모든 사람의 코퍼스에는 고전시가 포함되며 R1은 더 이상 알지 못하며 실제 이유는이 작품의 데이터 주석에있을 수 있습니다.<강>딥시크가 학생들의 북경대 중국어과를 찾아 주석을 할 것이라고합니다. 문학적 표현의 보상 기능이 크게 향상되고, 일반 업계는 문과 학생들을 사용하는 것을 너무 좋아하지 않을 것이며, Liang Wenfeng 자신이 때때로 논쟁의 주석을하는 것은 그의 열정을 보여주는 것뿐만 아니라 주석 공학은 오랫동안 AI를 과외 할 전문 문제 해결사가 필요한 지점에 도달했으며, OpenAI도 시간당 $ 100-200을 지불하여 박사 과정 학생들에게 주석 작업을 요청하는 것입니다.
- 데이터, 컴퓨팅 및 알고리즘은 DeepSeek 개발의 주요 요인입니다. 데이터, 산술, 알고리즘은 빅 모델 산업의 세 가지 플라이휠이며,이 물결의 주요 돌파구는 알고리즘에서 비롯되며, DeepSeek-R1은 오해, 즉 가치 함수의 중요성에 대한 전통적인 알고리즘이 함정이 될 수 있으며 가치 함수는 각 단계의 추론 과정에 대한 판단을 내리는 경향이 있으므로 모델을 올바른 경로로 안내하기위한 모든 것, 예를 들어 1 + 1에 대한 답변의 모델은 몇 가지와 동일합니다. 예를 들어, 모델이 1+1이 몇 번이나 같은지에 대한 질문에 대답 할 때 1+1=3이라는 환상을 가질 때 전기 충격 요법과 같은 처벌을 받게되며 실수를 할 수 없습니다.
- 이 알고리즘은 이론적으로는 괜찮지 만 매우 완벽 주의적이며 모든 질문이 1+1만큼 간단하지는 않으며 특히 긴 사고 체인에서 수천 개의 토큰 시퀀스에 대해 추론 할 때 각 단계를 감독해야하는 경우 입력 대 출력 비율이 매우 낮습니다. 그래서 DeepSeek는 조상에 대한 결정을 내리고 더 이상 연구 충동을 충족시키기 위해 값 함수를 사용하지 않고 답을 채점하고 모델이 올바른 단계로 답을 얻는 방법을 해결하도록하여 1 + 1 = 3 솔루션이 존재하더라도 과도하게 수정하지 않고 대신 추론 과정에서 무언가 잘못되었다는 것을 깨닫고 너무 많은 계산으로 올바른 답을 얻을 수 없다는 것을 알게 된 다음 다음과 같이 결정했습니다. 자기 수정하기;
- 알고리즘은 모델이 모방인지 추론인지 구분하는 방법을 포함하여 전체 업계에서 DeepSeek의 가장 큰 혁신이며, o1이 나온 후 큐 단어를 통해 일반 모델도 사고의 사슬을 출력 할 수 있다고 주장하는 사람들이 많았지만 그 모델은 추론 능력이없고 실제로는 모방이며 여전히 답을주는 기존 모드에 따르고 있지만 때문에 사용자 요구 사항을 충족 한 다음 답을 기반으로 다시 생각하기 위해 돌아가서 이것은 모방이며 먼저 화살을 쏘고 표적을 그리는 무의미한 행동이며 DeepSeek는 주로 모델이 치킨이되는 문제에 대해 모델 크래킹 보상과 싸우기 위해 많은 노력을 기울였으며, 왜 이런 식으로 생각해야하는지 실제로 이해하지 않고 점차적으로 생각하는 방법이 보상을받을 것이라고 추측합니다.
- 업계는 지난 몇 년 동안 업계에 종사해 왔습니다. 업계는 몇 년 동안 모델에서 새로운 행동의 탄생을 기대해 왔으며, 지식의 양이 충분히 많으면 모델이 자연스럽게 지능을 진화시킬 수 있다고 생각했지만 O1 이후 추론이 가장 중요한 발판이라는 것을 알게 된 DeepSeek는 논문에서 더 많은 토큰을 생성하는 것이 더 잘 생각하고 궁극적으로 성능을 향상시키는 유일한 방법임을 깨달았을 때와 같이 인위적으로 명령하지 않고 자율적으로 R1-Zero에서 어떤 행동이 나타나는지에 대해 강조했습니다. 더 많은 토큰을 생성하는 것이 더 잘 생각하고 궁극적으로 성능을 향상시키는 방법이라는 것을 깨달았을 때, 이 모델은 적극적으로 생각의 사슬을 점점 더 길게 만들기 시작했는데, 이는 인간 세계에서 본능적으로 긴 테스트가 빠른 움직임보다 확실히 더 전략적이지만 모델이 스스로 이러한 경험을 하게 된 것은 매우 놀라웠습니다. 딥시크-R1의 훈련 비용은 10만~100만 달러로 V3의 600만 달러보다 저렴하고, 오픈소스화 이후 딥시크가 R1을 이용해 다른 모델을 증류한 결과와 증류 이후에도 강화학습을 계속할 수 있다는 점을 고려하면 오픈소스 커뮤니티가 딥시크를 수용한 것이 무리가 아니라고 말할 수 있다. 더 많은 사람들이 들어 와서 사용해 볼 수 있도록 고급 제품에서 빠르게 움직이는 제품으로 AGI로 티켓을 전환했습니다.
- Kimi k1.5는 DeepSeek-R1과 동시에 출시되었지만 오픈 소스 부족과 국제 축적 부족으로 인해 유사한 알고리즘 혁신에 기여하지만 그 영향은 상당히 제한적이며 다시 Kimi, 2C의 영향 때문에 비즈니스의 영향으로 짧은 사고 체인으로 긴 사고 체인에 가까운 것을 달성하는 것이 더 두드러 질 것이므로 더 짧은 추론으로 k1.5에 보상 할 것이며,이 초기 의도는 사용자를 수용하지만 - 사람들이 질문을 한 후 너무 오래 기다리게하고 싶지 않지만 - 의 희망과는 다소 상반되는 것 같습니다. 그 대가로, 추론 모델링을 처음 접하는 사람들을 위해 모델의 긴 효율성을 신경 쓰지 않는 사용자에 의해 발견되고 확산되는 사고의 사슬에서 많은 DeepSeek-R1의 루프 외 자료가 강조됩니다.
- 데이터 주석은 업계 전반에 걸쳐 약간 숨겨져 있지만 과도기적 프로그램 일 뿐이며 R1-Zero와 같은 자체 학습 로드맵이 이상적이며 현재로서는 이상적입니다. OpenAI의 해자는 여전히 매우 깊고, 지난달 웹 트래픽은 사상 최고치를 기록했으며, DeepSeek의 불은 객관적으로 업계 전체에 새로운 사람들을 끌어들일 것이지만 Meta는 더 힘든 시간을 보낼 것이며, LLaMa 3에는 실제로 아키텍처 혁신이 없으며, 오픈 소스 시장에 대한 DeepSeek의 영향을 전혀 예상하지 못했으며, Meta의 인재 풀은 매우 강력하지만 조직 구조는 이러한 자원을 새로운 제품으로 전환하지 못하므로 시작하기에 좋은 곳이 아닙니다. 조직 구조가 이러한 자원을 기술적 성과로 연결시키지 못했기 때문입니다.
다시 말하지만, 벤 톰슨의 팟캐스트는 여러 곳에서 조이스 팬의 판단을 교차 검증합니다. 예를 들어, R1-Zero는 RLHF에서 HF(휴먼 피드백)의 기술적 하이라이트는 제거했지만 지역적 경쟁과 대형 공장의 과거에 대해 더 많이 설명하며 내러티브는 매우 매끄럽습니다.
- 실리콘 밸리가 AI 보안을 지나치게 강조하는 동기 중 하나는 이를 합리화하는 데 사용할 수 있기 때문이죠. '기만적이고 편향된' 콘텐츠를 생성하는 데 사용되는 대규모 언어 모델을 피하기 위해 GPT-2 프로토콜 초기에 비공개 행동이 합리화되었지만 '기만적이고 편향된'은 본질적으로 문화 전쟁의 연속인 인류 멸종 위험과는 거리가 멀며 미국 기술 회사가 GPT-2 프로토콜에서 상대방보다 절대적인 기술적 우위를 가지고 있다는 가정에 기반합니다. 인공지능이 인종차별주의자인지 아닌지에 대한 논의에서 벗어날 자격이 있습니다.
- OpenAI가 o1 사고 체인을 숨기기로 결정했을 때 정당하게 말했듯이 - 원래 사고 체인은 정렬되지 않았을 수 있으며 사용자가 이를 보고 불쾌감을 느꼈을 수 있으므로 우리는 전면적인 결정을 내리고 사용자에게 보여주지 않기로 결정했습니다. --하지만 딥시크-R1은 위의 팬보이들의 자신감을 단숨에 반증합니다. 실리콘밸리가 인공지능 업계에서 그렇게 확고한 리더는 아니며, 노출된 사고 체인은 사용자 경험의 일부가 될 수 있고, 사람들은 그것을 볼 때 모델의 사고 능력을 더 신뢰하게 됩니다."
- Reddit의 전임 CEO는 딥시크를 스푸트니크의 순간(소련이 미국보다 앞서 최초의 스푸트니크 위성을 발사한 것)으로 묘사하는 것은 억지로 정치적으로 읽은 것이라고 생각하며, 그는 딥시크가 그 중심에 있다고 더 확신합니다. 2004년 구글의 순간, 구글은 당시 모든 기술 회사들이 점점 더 비싼 메인프레임을 구입하고 비용 곡선의 가장 비싼 앞단에 기꺼이 있는 것과 달리 분산 알고리즘이 어떻게 컴퓨터 네트워크를 서로 연결하고 가격과 성능에 대한 최적의 솔루션을 달성 할 수 있는지 안내서를 통해 전 세계에 보여주었습니다.
. >- 딥시크는 R1 모델을 오픈소스화하고 그 방법을 투명하게 설명했는데, 이는 엄청난 선의의 행동이었습니다. 만약 중국 회사가 지정학을 계속 조장하는 길을 따랐다면, 그 결과를 비밀로 했을 것이고, 구글의 순간은 썬과 같은 전문 서버 제조업체에게 결승선을 그려 상품 계층으로 이동하려는 경쟁을 유도했을 것입니다. OpenAI의 연구원 로온은 딥시크가 H800 칩을 극복하기 위해 다운그레이드된 최적화 - 엔지니어들은 엔비디아의 쿠다를 사용할 수 없고 저사양 PTX를 사용해야 한다 - 는 잘못된 데모라고 생각한다며, 그 이유는 다음과 같다. 그들이 낭비한 시간을 보상받을 수 없다는 것을 의미하지만, 미국의 엔지니어들은 하드웨어 약화가 진정한 혁신으로 이어지지 않을 것이라는 우려 없이 H100을 신청할 수 있습니다.

- 2004년 구글이 룬의 조언에 귀를 기울이고 더 저렴한 데이터센터를 짓는 데 귀중한 연구원을 '낭비'하지 않았다면, 아마도 오늘날 미국의 모든 인터넷 기업이 알리바바의 클라우드 서버를 임대하고 있었을 것입니다. 부의 유입 20년 동안에 말이죠. 부의 유입 20년 동안 실리콘밸리는 인프라를 최적화하려는 동력을 잃었고, 크고 작은 공장들은 자본 집약적 생산 모델에 익숙해져 투자를 대가로 예산서를 제출하는 데 만족하며, 심지어 엔비디아의 칩을 담보로 말려버리고 아무도 제한된 자원에서 최대한 많은 가치를 제공하는 데 신경 쓰지 않습니다.
- AI 기업은 물론 지원하겠습니다. 더 저렴한 컴퓨팅이 더 많은 사용량을 창출한다는 제본스 패러독스, 그러나 지난 몇 년 동안 실제 행동은 각 회사가 비용보다 연구에 대한 선호를 보였기 때문에 딥시크가 제본스 패러독스를 문자 그대로 모든 사람의 눈에 띄게 할 때까지는 마음과 입에서 멀어졌습니다.
- 엔비디아의 회사는 더 가치가 높아지고 엔비디아의 주식은 더 위험 해지고 있습니다. 동시에 존재하면서 개발할 수 있고, DeepSeek가 매우 제한된 칩에서이를 달성 할 수 있다면, 전체 산업에 동기를 부여하는 계시가 될 전체 전력 산술 리소스에 액세스 할 수있을 때 얼마나 많은 기술 발전을 이룰 수 있는지 상상해보십시오. 그러나 NVIDIA의 주가는 위조 될 수있는 유일한 공급 업체라는 가정에 기반을두고 있으며,
- 중국과 미국 기술 회사는 중국 측은 다른 산업에서 달성한 것과 같은 우월한 비용 구조를 달성하는 데 차별화가 있다고 믿고, 미국 측은 제품 자체와 그 차별화를 기반으로 창출되는 높은 이익 마진에서 차별화가 있다고 믿는 등 AI 상품에 대한 가치 판단이 크게 달라졌지만 미국은 혁신에 대한 접근 방식을 재고할 필요가 있음. 중국 기업이 AI 연구에 필요한 칩을 획득하는 것을 제한하는 등 경쟁 정신에서 승리하기 위해;
- 샌프란시스코에서 클로드의 명성이 아무리 좋더라도 너무 쉽게 대체 할 수있는 모델로 API를 판매하는 자연스러운 약점을 바꾸기는 어렵고 ChatGPT는 OpenAI를 다음과 같이 제공합니다. 위험에 대한 회복력이 더 큰 소비자 기술 회사로 거듭날 수 있지만, 장기적으로 DeepSeek는 AI를 판매하는 사람과 사용하는 사람 모두에게 도움이 될 것이며, 우리는 그 풍성한 선물에 감사해야 합니다.
자, 여기까지이며, 이번 과제를 통해 딥시크가 출시되면 AI 업계에 미칠 진정한 의미를 더 잘 이해할 수 있기를 바랍니다.