في يوم الأربعاء، نشر الرئيس التنفيذي لشركة أنثروبيك داريو أمودي مقالاً مطولاً حول ما إذا كان نجاح ديب سيك يهدد الولايات المتحدة وما يعنيه ذلك بالنسبة للولايات المتحدة. تحليل للحجة القائلة بأن ضوابط التصدير على شرائح الذكاء الاصطناعي لا تعمل.
ما يلي هو ترجمة للنص الأصلي. يشير "أنا" في النص إلى داريو أمودي.

حقوق الصورة: داريو أمودي
قبل بضعة أسابيع، دعوت الولايات المتحدة إلى تشديد ضوابط التصدير على الرقائق إلى الصين . ومنذ ذلك الحين، اقتربت شركة الذكاء الاصطناعي الصينية DeepSeek من أداء نماذج الذكاء الاصطناعي الأمريكية المتطورة في بعض النواحي على الأقل، ولكن بتكلفة أقل.
هنا، لن أركز على ما إذا كان DeepSeek يشكل تهديدًا لشركات الذكاء الاصطناعي الأمريكية مثل Anthropic (على الرغم من أنني أعتقد أن العديد من التكهنات حول تأثيرها على القيادة الأمريكية للذكاء الاصطناعي هي (ادعاءات التهديدات مبالغ فيها إلى حد كبير) 1. وبدلاً من ذلك، سأركز على ما إذا كان إطلاق برنامج DeepSeek يقوض الأساس المنطقي لسياسة مراقبة تصدير الرقائق. أنا لا أعتقد ذلك. في الواقع، أعتقد أنهم يجعلون سياسة مراقبة الصادرات أكثر أهمية مما كانت عليه قبل أسبوع.2 إن ضوابط التصدير لها غرض حيوي: إبقاء الولايات المتحدة في طليعة تطوير الذكاء الاصطناعي. ولكي نكون واضحين، فهذه ليست طريقة لتجنب المنافسة بين الولايات المتحدة والصين. في نهاية المطاف، إذا أردنا الفوز، يجب على شركات الذكاء الاصطناعي الأميركية أن تمتلك نموذجاً أفضل من النموذج الصيني. لا ينبغي لنا أن نتنازل عن المزايا التكنولوجية للصين دون ضرورة.
ثلاث قوى دافعة رئيسية لتطوير الذكاء الاصطناعي
قبل تقديم الحجج السياسية، سوف أصف ثلاث ديناميكيات أساسية مهمة لفهم أنظمة الذكاء الاصطناعي: قوانين التوسع. من خصائص الذكاء الاصطناعي (التي وثقتها أنا وشريكي المؤسس لأول مرة أثناء العمل في OpenAI) أنه في حالة تساوي جميع العوامل الأخرى، من الممكن زيادة حجم نظام الذكاء الاصطناعي. ويمكن تحسين النتائج عبر مجموعة من المهام المعرفية في جميع المجالات. على سبيل المثال، قد يحل نموذج بقيمة مليون دولار 20% من مهام الترميز المهمة، وقد يحل نموذج بقيمة 10 ملايين دولار 40%، وقد يحل نموذج بقيمة 100 مليون دولار 60%، وهكذا. تميل هذه الاختلافات إلى أن يكون لها عواقب ضخمة في الممارسة العملية - قد يتوافق عامل آخر من 10 مع الفرق بين مستويات المهارة في مرحلة البكالوريوس ومستوى الدكتوراه - لذا فإن الشركات تستثمر بكثافة في تدريب هذه النماذج.
تغيير المنحنى. يغمر المجال باستمرار بأفكار، كبيرة وصغيرة، لجعل الأشياء أكثر فعالية وكفاءة: يمكن أن يكون هذا تحسينًا في بنية النموذج (ضبط بنية المحول الأساسية المستخدمة في جميع النماذج اليوم)، أو مجرد طرق لتشغيل النماذج بكفاءة أكبر على الأجهزة الأساسية. وينطبق نفس التأثير على الأجيال الأحدث من الأجهزة. وهذا غالبًا ما يغير المنحنى: إذا كان الابتكار عبارة عن "مضاعف حسابي" (CM) مضاعف 2x، فيمكنه أن يوفر لك 40% من عمل الترميز مقابل 5 ملايين دولار بدلاً من 10 ملايين دولار؛ أو 40% من الترميز مقابل 50 مليون دولار بدلاً من 10 ملايين دولار. م. 100 مليون دولار لـ 60% من مهام الترميز وما إلى ذلك.
تكتشف كل شركة رائدة في مجال الذكاء الاصطناعي بانتظام العديد من هذه النماذج: عادةً ما تكون صغيرة (~1.2x)، وأحيانًا متوسطة (~2x)، وكبيرة جدًا (~10x) تم العثور عليها في بعض الأحيان. نظرًا لأن قيمة وجود أنظمة أكثر ذكاءً عالية جدًا، فإن هذا التحول في المنحنى غالبًا ما يتسبب في إنفاق الشركات المزيد على نماذج التدريب، وليس أقل: تنتهي مكاسب كفاءة التكلفة بالذهاب بالكامل إلى تدريب نماذج أكثر ذكاءً، محدودة فقط بالقيود المفروضة على الموارد المالية للشركة. . من الطبيعي أن ينجذب الناس إلى فكرة أن الأمر سيكون مكلفًا في البداية ثم يصبح أرخص - كما لو أن الذكاء الاصطناعي شيء واحد ذو جودة ثابتة، ومع انخفاض سعره، سنستخدم عددًا أقل من الرقائق لصنعه. تدريبه.
ولكن ما هو مهم هو منحنى القياس: فبينما يتحرك، فإننا نجتازه بشكل أسرع لأن القيم في نهايات المنحنى مرتفعة للغاية . في عام 2020، نشر فريقي ورقة بحثية تظهر أن تغير المنحنى بسبب التقدم الخوارزمي كان حوالي 1.68 مرة في السنة. ومن المحتمل أن يكون هذا المعدل قد تسارع بشكل كبير منذ ذلك الحين؛ كما أنه لا يأخذ في الاعتبار الكفاءة والأجهزة. أعتقد أن العدد اليوم ربما يكون حوالي 4 مرات في السنة. تقدير آخر هنا. يؤدي تغيير منحنى التدريب أيضًا إلى تغيير منحنى الاستدلال، لذلك انخفض السعر بشكل كبير على مر السنين بينما ظلت جودة النموذج كما هي. على سبيل المثال، يتفوق Claude 3.5 Sonnet، الذي تم إصداره بعد 15 شهرًا من GPT-4 الأصلي، على GPT-4 في جميع معايير الأداء تقريبًا مع وجود سعر API أقل بنحو 10 مرات.
تغيير النماذج. من وقت لآخر، يتغير شيء ما في المحتوى الأساسي الذي يتم توسيعه، أو تتم إضافة نوع امتداد جديد أثناء عملية التدريب. من عام 2020 إلى عام 2023، سيكون التوسع الرئيسي عبارة عن نماذج مدربة مسبقًا: تدريب النماذج على المزيد والمزيد من نصوص الإنترنت وإجراء قدر صغير من التدريب الإضافي فوق ذلك. في عام 2024، أصبحت فكرة استخدام التعلم المعزز (RL) لتدريب النماذج على توليد سلاسل فكرية محورًا جديدًا للتوسع.
لقد وجدت شركة Anthropic وDeepSeek والعديد من الشركات الأخرى (ربما أبرزها شركة OpenAI، التي أصدرت معاينة لنموذج o1 الخاص بها في سبتمبر) أن هذا النوع من التدريب مفيد بشكل كبير تحسين الأداء في بعض المهام المحددة والقابلة للقياس بشكل موضوعي (على سبيل المثال، الرياضيات ومسابقات البرمجة) والاستدلال المماثل لتلك المهام. يتضمن هذا النموذج الجديد البدء بنوع عام من النموذج المدرب مسبقًا ثم إضافة مهارات التفكير باستخدام التعلم المعزز في المرحلة الثانية. ومن المهم هنا أن نلاحظ أنه بما أن هذا النوع من التعلم التعزيزي جديد، فإننا ما زلنا في مرحلة مبكرة من منحنى التوسع: فالمبالغ التي تم إنفاقها في المرحلة الثانية من التعلم التعزيزي صغيرة بالنسبة لجميع المشاركين. إن إنفاق مليون دولار بدلاً من 100 ألف دولار يكفي للحصول على فوائد ضخمة.
تعمل الشركات الآن على توسيع نطاق المرحلة الثانية بسرعة إلى مئات الملايين أو حتى المليارات من الدولارات، ولكن من المهم أن نفهم أننا في "نقطة تقاطع" فريدة من نوعها "حيث يوجد نموذج جديد قوي في المراحل الأولى من منحنى التوسع، وبالتالي يمكن تحقيق مكاسب كبيرة بسرعة.
نموذج DeepSeek
ومع ذلك، من المهم أن ننظر بعناية:
- < لن تتمكن DeepSeek من "إنجاز ما تنفقه شركات الذكاء الاصطناعي في الولايات المتحدة مليارات الدولارات مقابل 6 ملايين دولار". لا أستطيع التحدث إلا عن Anthropic، ولكن Claude 3.5 Sonnet هو نموذج متوسط الحجم كلف تدريبه عشرات الملايين من الدولارات (لن أعطي رقمًا دقيقًا). بالإضافة إلى ذلك، تم تدريب السوناتة 3.5 بطريقة لم تتضمن نماذج أكبر أو أكثر تكلفة (على عكس بعض الشائعات). تم تدريب Sonnet منذ 9-12 شهرًا، وكان نموذج DeepSeek في نوفمبر / ديسمبر، ولا تزال Sonnet متقدمة كثيرًا في العديد من التقييمات الداخلية والخارجية. لذلك، أعتقد أنه من العدل أن نقول إن "DeepSeek تنتج نماذج تقترب من أداء النماذج الأمريكية من 7 إلى 10 أشهر مضت، بتكلفة أقل بكثير (ولكن ليس بقدر ما يقترح الناس)" >
إذا كان الاتجاه التاريخي لمنحنى التكلفة حوالي 4 مرات في السنة، فهذا يعني أن النموذج الحالي أفضل من 3.5 Sonnet/GPT- 40 3-4 مرات أرخص. نظرًا لأن DeepSeek-V3 أسوأ من نموذج الحدود الأمريكية - على افتراض أنه أسوأ بحوالي مرتين على منحنى التوسع، والذي أعتقد أنه سخي جدًا بالنسبة لـ DeepSeek-V3 - فهذا يعني أنه إذا كان تدريب DeepSeek-V3 أكثر تكلفة مما كان عليه قبل عام من الآن عندما تم تطويره، كان النموذج الأمريكي الحالي أقل بنحو 8 مرات، وهو ما سيكون طبيعيًا تمامًا و"متوافقًا تمامًا مع الاتجاه". لن أضع رقمًا لذلك، لكن من الواضح من النقاط السابقة أنه حتى إذا أخذت تكاليف تدريب DeepSeek على قيمتها الظاهرية، فهي متواضعة في أفضل الأحوال. تتماشى مع الاتجاه، أو ربما لا تتماشى حتى مع الاتجاه . على سبيل المثال، هذا أصغر من فرق السعر بين GPT-4 الأصلي وClaude 3.5 Sonnet (10x)، و3.5 Sonnet هو نموذج أفضل بكثير من GPT-4. كل هذا يعني أن DeepSeek-V3 ليس اختراقًا فريدًا، ولا شيئًا يغير اقتصاديات LLM بشكل أساسي؛ بل هو نقطة متوقعة على منحنى تخفيضات التكلفة المستمرة. الفرق هذه المرة هو أن الشركة الأولى التي ستثبت تخفيضات التكلفة المتوقعة هي شركة صينية. لم يحدث هذا من قبل، وله آثار جيوسياسية. ولكن الشركات الأميركية سوف تحذو حذوها قريباً ــ ولن تفعل ذلك عن طريق تقليد DeepSeek، بل لأنها تدرك أيضاً الاتجاه العام نحو خفض التكاليف.
تمتلك شركة DeepSeek وشركات الذكاء الاصطناعي الأمريكية أموالاً ورقائق أكثر مما كانت عليه عندما قامت بتدريب نماذجها الرئيسية. يتم استخدام الرقائق الإضافية في البحث والتطوير لتطوير الأفكار وراء النماذج، وأحيانًا لتدريب النماذج الكبيرة التي ليست جاهزة بعد (أو تتطلب محاولات متعددة للحصول عليها بشكل صحيح). لقد تم الإبلاغ - لا يمكننا التأكد من ذلك - أن DeepSeek لديها بالفعل 50000 شريحة من جيل Hopper6، وهو ما أتصور أنه حوالي 2-3 أضعاف عدد شركات الذكاء الاصطناعي الكبرى في الولايات المتحدة (على سبيل المثال، إنها أكثر من 1000000). من "Colossus" الخاص بـ xAI). ؛ "العناقيد أصغر بمقدار 2-3 مرات)7. وتبلغ تكلفة هذه الرقائق الخمسين ألفًا نحو مليار دولار. وبالتالي، فإن إجمالي نفقات شركة DeepSeek (على النقيض من نفقات تدريب النماذج الفردية) لم تكن مختلفة كثيرًا عن نفقات مختبرات الذكاء الاصطناعي في الولايات المتحدة.
من الجدير بالذكر أن تحليل "منحنى التدرج" مبسط إلى حد ما، حيث توجد بعض الاختلافات بين النماذج، ولكل منها مزاياها وعيوبها الخاصة. العيوب: رقم منحنى التدرج هو متوسط تقريبي ويتجاهل الكثير من التفاصيل. لا أستطيع أن أتحدث إلا عن نموذج Anthropic، ولكن كما ألمحت أعلاه، فإن كلود جيد جدًا في البرمجة ولديه أسلوب مصمم جيدًا للتفاعل مع الأشخاص (يستخدمه الكثيرون للحصول على المشورة الشخصية أو الدعم). وفي هذه المهام وغيرها، لا يمكن لـ DeepSeek ببساطة أن يقارن بها. لا تظهر هذه العوامل في أرقام القياس.
R1 هو النموذج الذي تم الإعلان عنه الأسبوع الماضي، وقد أثار الكثير من الاهتمام العام (بما في ذلك انخفاض سعره). (تمثل هذه النسبة حوالي 17% من سعر سهم Nvidia)، ولكنها ليست مثيرة للاهتمام من منظور الابتكار أو الهندسة مثل V3. ويضيف مرحلة ثانية من التدريب - التعلم التعزيزي، كما هو موضح في النقطة 3 من القسم السابق - ويكرر بشكل أساسي ما فعلته OpenAI مع o1 (يبدو أنهما من نفس الحجم، ولديهما نتائج مماثلة) 8. ومع ذلك، نظرًا لأننا في مرحلة مبكرة من منحنى التوسع، يمكن لشركات متعددة إنتاج هذا النوع من النماذج طالما أنها تبدأ بنماذج قوية مدربة مسبقًا. من المحتمل أن يكون إنتاج R1 في حالة V3 رخيصًا جدًا. ونحن الآن عند "نقطة تقاطع" مثيرة للاهتمام، حيث يوجد في الوقت الحاضر عدد قليل من الشركات القادرة على إنتاج نماذج استدلال جيدة. ومع تحرك الجميع نحو الأعلى في منحنى التدرج لهذه النماذج، فإن هذا سوف يتوقف سريعاً عن أن يكون صحيحاً.
الرقابة على الصادرات
ما ورد أعلاه هو فقط العناصر الرئيسية أنا مهتم ب. مقدمة للموضوع: ضوابط تصدير الرقائق إلى الصين. في ضوء الحقائق المذكورة أعلاه، أعتقد أن الوضع هو كما يلي:
هناك يتجه عدد متزايد من الشركات إلى تدريب المزيد والمزيد من الموظفين، ويتم استثمار المزيد والمزيد من الأموال في نماذج الذكاء الاصطناعي، على الرغم من أن المنحنى يتغير بشكل دوري وتنخفض تكلفة تدريب مستوى معين من ذكاء النموذج بسرعة. إن القيمة الاقتصادية لتدريب نماذج أكثر ذكاءً أصبحت ضخمة للغاية لدرجة أن أي مكاسب في التكلفة يتم التهامها على الفور تقريبًا - حيث يتم إعادة استثمارها في صنع نماذج أكثر ذكاءً، والتكلفة التي خططنا في الأصل لإنفاقها هي نفس تكلفة التدريب. نماذج أذكى وأذكى. نفس الشيء. سيتم قريبًا استخدام ابتكارات الكفاءة التي طورتها شركة DeepSeek بواسطة مختبرات في الولايات المتحدة والصين لتدريب نماذج بقيمة مليارات الدولارات. ستتفوق هذه النماذج على النماذج التي تبلغ تكلفتها مليار دولار والتي خططوا لتدريبها في السابق - ولكنها ستظل تكلف مليارات الدولارات. سيستمر هذا العدد في الارتفاع حتى نصل إلى الذكاء الاصطناعي الذي يفوق ذكاء جميع البشر تقريبًا في كل شيء.
إن إنشاء ذكاء اصطناعي أذكى من البشر في كل شيء تقريبًا سيتطلب ملايين الرقائق ومليارات عشرات المليارات من أجهزة الكمبيوتر. بالدولار (على الأقل)، ومن المرجح أن يتحقق ذلك في عامي 2026 و2027. إن إطلاق DeepSeek لا يغير هذا الأمر حيث أنهم تقريبًا على منحنى خفض التكلفة المتوقع والذي تم دائمًا أخذه في الاعتبار في هذه الحسابات. وهذا يعني أنه في عامي 2026 و2027، قد نجد أنفسنا عالقين في عالمين مختلفين للغاية. في الولايات المتحدة، من المؤكد أن العديد من الشركات سوف تمتلك ملايين الرقائق اللازمة (بتكلفة تصل إلى عشرات المليارات من الدولارات). السؤال هو ما إذا كانت الصين قادرة أيضًا على الحصول على ملايين الرقائق9.
إذا استطعنا، فسوف نعيش في عالم ثنائي القطب، حيث تمتلك الولايات المتحدة والصين نماذج قوية للذكاء الاصطناعي، وهو ما من شأنه أن يدفع التقدم السريع في العلوم والتكنولوجيا. —— أسميها "أمة العباقرة في مراكز البيانات". إن العالم ثنائي القطب لن يظل بالضرورة متوازنا إلى أجل غير مسمى. حتى لو أصبحت الولايات المتحدة والصين متكافئتين في أنظمة الذكاء الاصطناعي، فإن الصين، بقاعدتها الصناعية الضخمة، قد تساعدها في الهيمنة على المسرح العالمي، ليس فقط في مجال الذكاء الاصطناعي، بل في جميع المجالات. إذا لم تتمكن الصين من الحصول على ملايين الرقائق، فسنعيش (على الأقل مؤقتًا) في عالم أحادي القطب حيث تمتلك الولايات المتحدة وحلفاؤها فقط هذه النماذج. وليس من الواضح ما إذا كان العالم أحادي القطب سوف يدوم، ولكن هناك على الأقل احتمال أن يتحول التقدم المؤقت إلى ميزة دائمة، حيث يمكن لأنظمة الذكاء الاصطناعي أن تساعد في نهاية المطاف في جعل أنظمة الذكاء الاصطناعي أكثر ذكاءً. وهكذا، فمن المرجح أن تهيمن الولايات المتحدة وحلفاؤها في هذا العالم، وأن تحافظ على زعامتها طويلة الأمد على الساحة العالمية.
إن التنفيذ الصارم لضوابط التصدير11 هو وحده القادر على منع الصين من الحصول على ملايين الرقائق، وبالتالي تحديد ما إذا كنا سندخل في نهاية المطاف إلى عالم أحادي القطب. أو العامل الأكثر أهمية في عالم ثنائي القطب.
لا يعني أداء DeepSeek فشل ضوابط التصدير. كما قلت أعلاه، تمتلك شركة DeepSeek عددًا متوسطًا إلى كبير من الرقائق، لذا فليس من المستغرب أنهم تمكنوا من تطوير وتدريب نموذج قوي. إن القيود المفروضة على مواردهم ليست أكثر شدة من تلك التي تواجهها شركات الذكاء الاصطناعي الأمريكية، كما أن ضوابط التصدير ليست العامل الرئيسي الذي يدفع "ابتكاراتهم". إنهم مجرد مهندسين موهوبين للغاية ويظهرون لماذا تعتبر الصين منافسًا خطيرًا للولايات المتحدة. كما أن DeepSeek لا يشير أيضًا إلى وجود ثغرات في التنظيم دائمًا. من الممكن إخفاء مليار دولار من النشاط الاقتصادي، لكن من الصعب إخفاء 100 مليار دولار أو حتى 10 مليارات دولار. وسيكون من الصعب تهريب مليون رقاقة أيضًا. ومن المفيد أيضًا أن ننظر إلى الرقائق التي أبلغ عنها DeepSeek حاليًا. وفقًا لـ SemiAnalysis، يعد هذا مزيجًا من H100 وH800 وH20، بإجمالي 50000. لقد تم حظر H100 من قبل ضوابط التصدير منذ إصداره، لذلك إذا كان لدى DeepSeek أي شرائح، فمن المؤكد أنها لم تأتي من خلال قنوات رسمية (لاحظ أن Nvidia ذكرت أن تقدم DeepSeek "متوافق تمامًا مع ضوابط التصدير"). تم السماح بـ H800 في الجولة الأولى من ضوابط التصدير في عام 2022، ولكن تم حظره عندما تم تحديث الضوابط في أكتوبر 2023، لذلك من المرجح أن يتم شحن الرقائق قبل الحظر. يتمتع H2O بكفاءة تدريب أقل وكفاءة أخذ عينات أعلى - على الرغم من أنني أعتقد أنه يجب حظره، إلا أنه لا يزال مسموحًا به. يشير كل هذا إلى أن جزءًا كبيرًا من أسطول شرائح الذكاء الاصطناعي الخاص بشركة DeepSeek يبدو أنه يتكون من شرائح لم يتم حظرها بعد (ولكن يجب حظرها). ويظهر هذا أن ضوابط التصدير تعمل بالفعل وتتكيف: إذ يتم إغلاق الثغرات. وإذا تمكنا من سد هذه الفجوة بالسرعة الكافية، فقد نتمكن من زيادة احتمالات الزعامة الأميركية في عالم أحادي القطب.
نظرًا لتركيزي على ضوابط التصدير والأمن القومي للولايات المتحدة، أود أن أكون واضحًا. لا أعتبر DeepSeek في حد ذاته منافسًا، والتركيز ليس عليهم بشكل خاص. إنهم يجرون المقابلات ويبدو أنهم باحثون أذكياء وفضوليون يريدون فقط تطوير التكنولوجيا المفيدة. لكن ضوابط التصدير هي إحدى الأدوات الأكثر قوة التي نملكها لمنع الصين من اللحاق بالولايات المتحدة. إن فكرة أن زيادة القوة التكنولوجية والفعالية من حيث التكلفة هي سبب لرفع ضوابط التصدير غير معقولة على الإطلاق.
الحواشي
[ 1] في هذه المقالة لن أتخذ أي موقف من التقارير المكررة للنموذج الغربي. هنا، أنا أصدق فقط بيان DeepSeek بأنهم يدربون النموذج بالطريقة الموضحة في الورقة. [2] بالمناسبة، أعتقد أن إصدار نموذج DeepSeek ليس بالأمر السيئ بالنسبة لشركة Nvidia، وقد ارتفع سعر أسهمها تبعًا لذلك. إن الانخفاض المزدوج (حوالي 17%) أمر محير. إن الأسباب التي تجعل هذا الإطلاق ليس بالأمر السيئ بالنسبة لشركة Nvidia أكثر وضوحًا من الأسباب التي تجعله ليس بالأمر السيئ بالنسبة لشركات الذكاء الاصطناعي. لكن هدفي الأساسي في هذه المقالة هو الدفاع عن سياسات مراقبة الصادرات. [3] لكي نكون دقيقين، فهو نموذج مدرب مسبقًا يحتوي على قدر صغير من التعلم التعزيزي الذي كان نموذجيًا للنماذج قبل تحول نموذج الاستدلال. التدريب .
[4] يعمل بشكل أفضل في بعض المهام الضيقة للغاية. [5] هذا هو الرقم المذكور في ورقة DeepSeek - لقد أخذته على محمل الجد ولم أشكك فيه. جزء منه مجرد مقارنة بتكلفة نماذج التدريب للشركات الأمريكية، والفرق بين التكلفة تكلفة تدريب نموذج محدد (6 ملايين دولار) والتكلفة الإجمالية للبحث والتطوير (وهي أعلى بكثير). ومع ذلك، لا يمكننا أن نكون متأكدين تمامًا بشأن مبلغ الستة ملايين دولار أيضًا - فحجم النموذج يمكن التحقق منه، ولكن الجوانب الأخرى (مثل عدد الرموز) ليست كذلك. ↩
[6] في بعض المقابلات، قلت إن لديهم "50000 H100"، وهي ملاحظة خفية أود تصحيحها هذا الملخص غير صحيح هنا. من المؤكد أن "شريحة Hopper" الأكثر شهرة هي H100 (والتي أفترض أنها ما يشار إليه)، ولكن Hopper تتضمن أيضًا H800 وH20، ويقال إن DeepSeek لديها مزيج من الثلاثة، بإجمالي 50000 شريحة. هذا لا يغير الوضع كثيرًا، لكن الأمر يستحق التصحيح. سأتحدث أكثر عن H800 و H20 عندما أتحدث عن ضوابط التصدير. ↩
[7] ملاحظة: أتوقع أن تتسع هذه الفجوة بشكل كبير في مجموعات الجيل التالي بسبب ضوابط التصدير.
[8] أظن أن أحد الأسباب الرئيسية وراء حصول R1 على هذا القدر الكبير من الاهتمام هو أنه كان أول من تم تقديمه للمستخدمين نموذج الاستدلال الذي يوضحه النموذج (يظهر o1 الخاص بـ OpenAI الإجابة النهائية فقط). يظهر DeepSeek أن المستخدمين مهتمون بهذا. ولكي نكون واضحين، هذا هو اختيار واجهة المستخدم وليس له علاقة بالنموذج نفسه. [9] لن تتمكن الرقائق الصينية من منافسة الرقائق المصنوعة في الولايات المتحدة على المدى القصير.
المراجع:
[ 1] https://techcrunch.com/2025/01/29/يقول الرئيس التنفيذي لشركة anthropics أن ديب سيك يظهر أن قواعد التصدير الأمريكية تعمل كما هو مقصود/
[2] https://darioamodei.com/on -deepseek-and-export-control< /ص>