水曜日、AnthropicのCEOであるDario Amodeiは、DeepSeekの成功が米国を脅かし、AIチップに対する米国の輸出規制が機能しないことを意味するのかについての議論を分析する長文の投稿を発表した。
以下は原文を翻訳したもので、「私」とはダリオ・アモデイのことである。

写真クレジット:ダリオ・アモデイ
以下は原文記事の翻訳である。Amodei
数週間前、私はアメリカが中国へのチップ輸出規制を強化するよう主張した。それ以来、中国のAI企業DeepSeekは、少なくともいくつかの点で、はるかに低コストで米国の最先端AIモデルの性能に近づいている。
ここでは、DeepSeekがAnthropicのような米国のAI企業に脅威を与えるかどうかには焦点を当てない(ただし、米国のAIリーダーシップに脅威を与えるという主張の多くは、かなり誇張されていると思う)。DeepSeekのリリースが、チップ輸出管理政策の根拠を損なうかどうか。私はそうは思わない。
輸出規制は、米国がAI開発の最前線に立ち続けるという重要な目的を果たします。
輸出規制は、米国がAI開発の最前線に立ち続けるという重要な目的がある。最終的に勝ちたいのであれば、米国のAI企業は中国よりも優れたモデルを持たなければならない。中国に技術的優位性を譲る必要がないのに、譲るべきではありません。
AI開発の3つの主要なダイナミクス
政策的な主張をする前に、AIシステムを理解する上で重要な3つの基本的なダイナミクスについて説明します:
。
スケーリング法則。AIの特性の1つ(これは、OpenAIに取り組んでいたときに、共同設立者と私が最初に文書化したものの1つです)は、他のすべての条件が同じであれば、AIシステムのトレーニングをスケールアップすることで、さまざまな認知タスクの結果が全体的に向上するということです。例えば、100万ドルのモデルは重要なコーディングタスクの20%を解決し、1000万ドルのモデルは40%を解決し、1億ドルのモデルは60%を解決する、といった具合だ。このような差は、実際には大きな影響を与えることが多く、さらに10倍の差は、学部生と博士課程の学生のスキルレベルの差に相当するかもしれません。
カーブを変える。この分野では、物事をより効果的に、あるいは効率的にするための大小さまざまなアイデアが常に生み出されています。これは、モデルアーキテクチャの改善(今日のすべてのモデルで使用されている基本的なTransformerアーキテクチャへの微調整)かもしれませんし、基礎となるハードウェア上でモデルをより効率的に実行する方法かもしれません。新しい世代のハードウェアも同じ効果をもたらす。もしその技術革新が2倍の「コンピュート・マルチプライヤ(CM)」であれば、コーディング・タスクの40%を1,000万ドルではなく500万ドルで行えるようになり、コーディング・タスクの60%を1億ドルではなく5,000万ドルで行えるようになるなど、カーブが変化することがよくあります。
どの最先端AI企業も、このようなCMを定期的に多数発見しています:通常は小規模(~1.2倍)、時には中規模(~2倍)、時には非常に大規模(~10倍)です。よりスマートなシステムを持つことの価値は非常に高いため、このカーブのシフトは通常、企業がモデルのトレーニングに費やす費用を減らすのではなく、より多く費やすように導く。あたかもAIが一定の品質を持つ単一のものであり、それが安くなるにつれて、それを訓練するために使用するチップの数が少なくなるかのように。
しかし、重要なのはスケーリングカーブである。カーブが移動するにつれて、カーブの終わりの値が非常に高くなるため、我々はより速くカーブを通過しているだけなのだ。また、効率やハードウェアは考慮されていません。
今日の数字は、おそらく年間約4倍だと思います。別の試算はこちら。トレーニングカーブの変化は推論カーブも変化させるため、何年もの間、モデルの品質は一定でありながら、価格は劇的に下がっています。例えば、オリジナルのGPT-4から15ヶ月後にリリースされたClaude 3.5 Sonnetは、API価格が約10分の1に下がった一方で、ほぼすべてのベンチマークでGPT-4を上回っています。
パラダイムシフト。たびたび、拡張される基本的なコンテンツで何かが変わったり、トレーニング中に新しいタイプの拡張が追加されたりします。2024年、強化学習(RL)を使ってモデルを訓練し、思考の連鎖を生成するというアイデアが、拡張機能の新たな焦点となった。
Anthropic、DeepSeek、そして他の多くの企業(おそらく最も顕著なのは、9月にo1のプレビューモデルをリリースしたOpenAIでしょう)は、この種のトレーニングが、選択された客観的に測定可能なタスク(数学、コーディング競技など)や、これらに類似した推論のパフォーマンスを劇的に向上させることを発見しました。タスクに似ています。
この新しいパラダイムでは、一般的なタイプの事前学習済みモデルから始め、第2段階でRLを使った推論スキルを追加します。重要なことは、このタイプの強化学習は新しいため、我々はまだスケーリングカーブの初期段階にいるということである。10万ドルではなく100万ドルを費やせば、莫大な利益を得るのに十分だろう。
企業は現在、第2段階の規模を数億ドル、数十億ドルとは言わないまでも、急速に拡大させていますが、強力な新しいパラダイムがスケーリングカーブの初期段階にあるユニークな「クロスオーバー」にいることを理解することが重要です。スケーリングカーブの初期段階であるため、莫大な利益を素早く得ることができる。
DeepSeekのモデル
上記の3つのダイナミクスは、DeepSeekの最近のリリースを理解するのに役立ちます。約1ヶ月前、DeepSeekは「DeepSeek-V3」と呼ばれるモデルをリリースしましたが、これは純粋に事前学習されたモデル3 -上記のポイント3で説明した最初の段階です。そして先週、第二段階を追加した「R1」がリリースされた。これらのモデルについて外からすべてを判断することは不可能だが、両バージョンについての私の最良の理解は以下の通りだ。
DeepSeek-V3は、実は1ヶ月前に気づくべきであった(そして私たちは気づいた)真の革新です。DeepSeek-V3は、1ヶ月前に気づくべきであった(そして、私たちは気づいていた)真の革新です。事前学習済みモデルとして、多くの重要なタスクで4つの最先端のUSモデルに近いパフォーマンスを発揮するようでありながら、学習コストはかなり安くなっています(ただし、Claude 3.5 Sonnetは他の多くの重要なタスクで特に優れたパフォーマンスを発揮することがわかりました)。DeepSeekチームは、エンジニアリングの効率性に焦点を当てた、実に印象的なイノベーションによってこれを達成しました。特に、「キーバリュー キャッシュ」と呼ばれるものの管理と、「エキスパート ブレンディング」と呼ばれる方法をこれまで以上に進化させることに革新的な改善が見られました。
ディープシークは、「600万ドルで、米国が行っていることを行う」ことはできません。"アメリカのAI企業が何十億ドルもかけて成し遂げることを、600万ドルでやってのける"私はAnthropicのことしか言えませんが、クロード3.5ソネットは訓練に数千万ドルかかった中規模モデルです(正確な数字は出しません)。さらに、3.5ソネットがトレーニングされた方法は、(一部の噂に反して)より大きく、より高価なモデルを使用したわけではありません。ソネットのトレーニングは9~12ヶ月前に行われ、ディープシークのモデルは11~12月に行われましたが、多くの社内外の評価において、ソネットはまだずっと先を行っています。ですから、私は、「ディープシークは、7~10ヶ月前の米国のモデルの性能に近づくモデルを、はるかに低いコストで(しかし、人々が示唆している比率には遠く及ばない)作り出している」
というのが妥当だと思います。style="text-align: "left;">コストカーブの歴史的な下降トレンドが1年あたり~4倍だとすると、現行モデルは3.5Sonnet/GPT-4oよりも3~4倍安いことになります。DeepSeek-V3は米国のフロンティアモデルよりも悪いので、スケーリングカーブで~2倍悪いと仮定すると、DeepSeek-V3にはかなり寛大だと思います。これは、DeepSeek-V3のトレーニングが、1年前に開発された現在の米国モデルよりも~8倍低コストである場合、それは完全に正常であり、完全に「トレンド通り」であることを意味します。
数字を出すつもりはないが、これまでの箇条書きから明らかなように、ディープシークのトレーニングコストを額面通りに受け取ったとしても、せいぜいトレンド通りであり、おそらくトレンド通りですらない。例えば、これはオリジナルのGPT-4とクロード3.5ソネットの推論価格の差(10倍)よりも小さく、3.5ソネットはGPT-4よりも優れたモデルです。そして、3.5ソネットはGPT-4よりも優れたモデルである。これらすべては、DeepSeek-V3がユニークなブレークスルーでも、LLM経済を根本的に変えるものでもなく、継続的なコスト削減の曲線上の予想される点であることを示唆している。
今回の違いは、期待されるコスト削減を最初に実証した企業が中国企業であるということです。これはこれまでになかったことであり、地政学的な意味合いもある。しかし、米国企業もすぐに追随するだろう。そして、ディープシークの真似をするのではなく、彼らもコスト削減の通常の傾向を実感しているからだ。
ディープシークも米国のAI企業も、主要なモデルをトレーニングしたときよりも多くの資金とチップを持っています。余分なチップは、モデルの背後にあるアイデアを開発するための研究開発に使用され、時には準備が整っていない(あるいは正しく理解するために何度も試行する必要がある)大規模なモデルのトレーニングに使用される。本当かどうかは定かではないが、DeepSeekは実際に5万個のHopper世代チップ6を保有していると報告されており、これは米国の主要AI企業が保有している数の約2~3倍に相当すると推測される(例えば、xAIよりも多い)。" Colossus "クラスター)7 この5万個のHopperチップのコストは約10億ドル。その結果、ディープシークの企業としての総支出は(個々のモデルのトレーニングへの支出とは対照的に)、米国のAIラボとそれほど変わらない。
注目すべきは、「スケーリングカーブ」分析が少し単純化されすぎていることです。各モデルにはそれぞれ長所と短所があり、スケーリングカーブの数値は多くの詳細を見逃した大まかな平均だからです。私はAnthropicのモデルについてしか話すことができないが、上記で言及したように、クロードはコーディングが非常に得意で、(多くの人が個人的なアドバイスやサポートを得るために利用する)人と対話するスタイルがよくできている。これらや他の多くのタスクでは、DeepSeekは単純に太刀打ちできない。これらの要因は、スケーリングの数字には現れていません。
R1は先週リリースされたモデルで、世間の注目を集めました (Nvidiaの株価が約17パーセント下落したことも含まれます)。これは、前節のポイント3で説明したように、トレーニングの第2段階-強化学習を追加しており、OpenAIがo1で行ったことを本質的に再現しています(両者は同程度の規模であり、同程度の結果を持っているようです) 8.
しかし、私たちはスケーリングカーブの初期段階にいるため、強力な事前学習済みモデルから始める限り、複数の企業がこのタイプのモデルを作成することができます。V3の場合、R1を製造するのは非常に安価かもしれない。つまり、私たちは興味深い "クロスオーバー・ポイント "にいるのである。誰もがこれらのモデルのスケーリングカーブをさらに上へと進むにつれて、これはすぐに当てはまらなくなるだろう。輸出規制
上記は、私の関心のある主要なトピックである、中国へのチップ輸出規制の前置きに過ぎません。
企業が強力なAIモデルのトレーニングにどんどんお金を投資している傾向があります!しかし、この曲線は定期的に変化しています!あるレベルのモデル知能を訓練するコストは急速に低下しています。ただ、より賢いモデルを訓練し続けることの経済的価値は非常に大きいため、コストの増加はほとんどすぐに食いつぶしてしまいます。
ディープシークによって開発された効率性の革新は、米国と中国の研究所によってすぐに適用され、米国の研究所がまだ発見していない方法で、数十億ドル相当のモデルを訓練します。これらのモデルは、以前訓練する予定だった数十億ドル相当のモデルを上回るだろうが、それでも数十億ドルのコストがかかる。この数字は、ほとんどすべてにおいて人間よりも賢いAIができるまで増え続けるだろう。
ほとんどすべてにおいて人間より賢いAIを作るには、何百万ものチップと(少なくとも)数百億ドルが必要で、2026年から2027年までに実現する可能性が高いでしょう。DeepSeekのリリースは、これらの計算に常に織り込まれている予想コスト削減曲線にほぼ沿っているため、それを変えることはありません。
つまり、2026-2027年には、私たちは2つのまったく異なる世界にいる可能性があるということです。米国では、複数の企業が(数百億ドルのコストをかけて)必要とされる数百万個のチップを確実に保有するでしょう。
もしそうなれば、私たちは二極化した世界に住むことになり、米国と中国の両方が強力なAIモデルを保有することで、科学技術の猛スピードが加速することになる。私はこれを「データセンターの天才」と呼んでいる。二極化した世界がいつまでも均衡を保つとは限らない。米国と中国がAIシステムで互角になったとしても、大きな産業基盤を持つ中国は、AIだけでなくあらゆる分野で世界の舞台を支配することができる。
中国が何百万ものチップを獲得できなかった場合、我々は(少なくとも一時的に)アメリカとその同盟国だけがこれらのモデルを持つ一極的な世界に住むことになるだろう。一極集中の世界が続くかどうかはわからないが、少なくとも、AIシステムが最終的にはより賢いAIシステムを作るのに役立つため、一時的なリードが永続的な優位に転じる可能性はある。その結果、米国とその同盟国が世界の舞台を支配し、長期にわたって優位に立ち続ける可能性がある世界なのだ。
輸出規制の厳格な実施11だけが、中国が何百万ものチップを入手するのを防ぐことができる。
ディープシークの性能は、輸出規制が失敗したことを意味しません。上でも述べたように、ディープシークは中程度から大量のチップを搭載しているため、強力なモデルを開発・訓練できたとしても不思議ではありません。彼らのリソース制約は米国のAI企業ほど厳しくなく、輸出規制は彼らの「イノベーション」を推進する主な要因ではない。彼らは非常に優秀なエンジニアであり、中国が米国にとって強力な競争相手である理由を示しているだけだ。
DeepSeekは、統制に常に抜け穴があることも示していません。10億ドルの経済活動は隠すことができますが、1000億ドル、あるいは100億ドルを隠すのは難しく、100万個のチップを密輸するのは物理的に困難です。
DeepSeekがこれまでに報告したチップを見ることも有益です。
また、DeepSeekがこれまでに報告したチップを見ることも有益です。SemiAnalysisによると、それはH100、H800、H20の混合で、合計50,000個です。リリース以来、H100は輸出規制で禁止されているため、DeepSeekがチップを保有しているとすれば、正規ルートで入手したものではないはずだ(なお、NvidiaはDeepSeekの進捗状況は「輸出規制に完全に準拠している」と述べている)。H800は、2022年の輸出規制の最初のラウンドで許可されましたが、2023年10月の規制 アップデートで禁止されたため、これらのチップは禁止される前に出荷された可能性があります。h20はトレーニングの効率が低く、サンプリングの効率が高いため、禁止されるべきだと思いますが、まだ許可されています。
これらのことから、ディープシークのAIチップベースのかなりの部分は、まだ禁止されていない(はずの)チップで構成されているようです。これは、輸出規制が実際に機能し、適応していることを示唆している。抜け穴は塞がれつつあるのだ。もし我々が十分に早くそれらを塞ぐことができれば、米国が一極世界を主導する可能性を高めることができるかもしれない。
私が輸出規制と米国の国家安全保障に焦点を当てていることを考えると、はっきりさせておきたい。私はディープシーク自体を敵対者とは考えていませんし、特に焦点を当てているわけでもありません。彼らが行ったインタビューでは、彼らは賢く、好奇心旺盛で、ただ有用な技術を開発しようとしている研究者のように見えました。
しかし、輸出規制は、中国が米国に追いつくのを防ぐための最も強力な手段のひとつである。ますます強力で費用対効果の高い技術が、輸出規制を解除する理由になるという考えは、まったく正当化できない。
脚注
[1]この記事では、欧米のモデル改良の報告については立場を取りません。ここでは、DeepSeekが論文に書かれているような方法でトレーニングを行っているという、DeepSeekの言葉を信じることにします。
[2]ところで、DeepSeekモデルのリリースがNvidiaにとって悪いことではないのは明らかだと思います。このリリースがNvidiaにとって悪いことでない理由は、AI企業にとって悪いことでない理由よりも明らかだ。しかし、この投稿における私の主な目的は、輸出管理ポリシーを擁護することです。
[3]正確には、推論のパラダイムシフトが起こる前のモデルに典型的な、少量のRLトレーニングを含む、事前トレーニング済みモデルです。
[4]いくつかの非常に狭いタスクでより強いパフォーマンスを発揮します 。
[5]これはDeepSeekの論文で引用されている数字です -私はこれをそのまま受け取っているだけで、その部分を疑っているわけではありません。これは、米国企業のモデルのトレーニングコストとの比較であり特定のモデルのトレーニングにかかる費用(600万ドル)と研究開発にかかる総費用(もっと高い)の違いだ。ただし、600万ドルについては完全には断言できません。モデルのサイズは検証可能ですが、他の側面(トークンの数など)はそうではありません 。
[6]いくつかのインタビューで、私は彼らが「50,000台のH100」を持っていたと言いましたが、これは微妙に間違った要約なので、ここで訂正したいと思います。Hopperチップ」で最もよく知られているのはH100(私はこれを指していると考えている)だが、HopperにはH800とH20も含まれており、DeepSeekはこの3つすべてを合計50,000個保有していると報告されている。だからといって状況が大きく変わるわけではないが、訂正しておく価値はあるだろう。
H800とH20については、輸出規制についてお話しするときに詳しくお話しします。
[7]注:輸出規制により、次世代のクラスターではこの差がかなり広がると予想しています。
[8]R1がこれほど注目された主な理由の1つは、モデルによって提示されたアイデアの背後にある推論をユーザーに初めて示したことだと思われます(OpenAIのo1は最終的な答えを示すだけです)。これはユーザーインターフェースの選択であり、モデル自体とは何の関係もないことは明らかでしょう。
[9]中国独自のチップは、いつまで経っても米国製に太刀打ちできないだろう。
References:
[1] https://techcrunch.com/2025/01/29/anthropics-ceo-says-deepseek-shows-that-u-s-export-rules-are-working-as-intended/
[2] https://darioamodei.com/on-deepseek-and-export-control