المصدر: Tencent Technology
تتميز سلسلة نماذج DeepSeek بأداء جيد في العديد من الجوانب، لكن مشكلة "الهلوسة" لا تزال تشكل تحديًا كبيرًا تواجهها.
في اختبار الهلوسة Vectara HHEM AI (اختبار معتمد في الصناعة يقيم معدل الهلوسة في النموذج من خلال اكتشاف ما إذا كان المحتوى الذي تم إنشاؤه بواسطة نموذج اللغة متوافقًا مع الأدلة الأصلية، مما يساعد على تحسين النموذج واختياره)، أظهر DeepSeek-R1 معدل هلوسة بنسبة 14.3%.

الشكل: نتائج اختبار الهلوسة للذكاء الاصطناعي Vectara HHEM
من الواضح أن معدل الهلوسة في DeepSeek-R1 ليس فقط ما يقرب من 4 أضعاف معدل DeepSeek-V3، ولكنه يتجاوز أيضًا متوسط الصناعة بكثير. في لعبة شطرنج غير صارمة للغاية على نموذج كبير نظمها المدون ليفي روزمان (مؤثر أمريكي في الشطرنج لديه 6 ملايين متابع)، "غش" Deepseek أكثر بكثير من ChatGPT: على سبيل المثال، بعد بضع حركات فقط، اتخذ DeepSeek-R1 زمام المبادرة لإرسال بيدق إلى خصمه؛ في المراحل اللاحقة، أخبر DeepSeek-R1 ChatGPT أن قواعد الشطرنج قد تم تحديثها، واستخدم بيدقًا لالتقاط ملكة ChatGPT، وهي الخطوة التي فاجأت ChatGPT؛ أخيرًا، أعطى DeepSeek-R1 ChatGPT مجموعة من النتائج، وأخبره أنه فاز، ووافق ChatGPT بالفعل على الاعتراف بالهزيمة، بينما انتهى الأمر بفوز DeepSeek-R1.
على الرغم من أن هذا الفيديو ترفيهي بقواعد ومعايير فضفاضة، إلا أنه من الواضح أن العارضة الكبيرة تحب حقًا "التحدث بالهراء" على محمل الجد ويمكنها حتى خداع عارضة أزياء كبيرة أخرى.
بالنسبة للبشر، فإن مشكلة الهلوسة التي تنتجها النماذج الكبيرة تشبه سيف ديموقليس المعلق فوق طريق تطوير الذكاء الاصطناعي. فخلف معدل الهلوسة البالغ 14.3%، هناك بعض الأسئلة التي تستحق تفكيرنا العميق:
لماذا تنتج النماذج الكبيرة الهلوسة؟ هل هذا عيب أم ميزة؟
في حين أن DeepSeek- R1 يظهر إبداعًا مذهلاً، فما مدى خطورة مشكلة الهلوسة التي يعاني منها في نفس الوقت؟
في أي المجالات يظهر الوهم النموذجي الكبير بشكل رئيسي؟
التحدي النهائي: كيف نجعل النماذج الكبيرة إبداعية وأقل وهمًا في نفس الوقت؟
دعت شركة Tencent Technology الدكتور لي وي، نائب الرئيس السابق للهندسة في فريق Big Model Team التابع لشركة Mobvoi، لفرز القضايا المتعلقة بهلوسة Big Model بالتفصيل ومساعدتك على فهمها في مقال واحد:

الصورة: لي وي، نائب الرئيس السابق للهندسة في فريق Big Model Team التابع لشركة Mobvoi والرئيس السابق لعلماء Netbase
1. لماذا "تنتج" النماذج الكبيرة "هلوسة"؟
هذه مشكلة كلاسيكية مع النماذج الكبيرة. في الواقع، فإن النموذج الكبير يشبه "خبيرًا خارقًا في جذب المحادثة". فأنت تعطيه النصف الأول من الجملة، فيتنبأ بما ينبغي أن يكون عليه النصف الثاني بناءً على المعرفة الهائلة التي اكتسبها. يتعلم الدماغ الأشياء تمامًا كما يتذكرها الدماغ البشري. من المستحيل تذكر كل كلمة بوضوح، لذا فإنه يختصرها ويعممها، ويستوعب الفكرة الرئيسية ويجد الأنماط.
على سبيل المثال، إذا سألته "ما طول ياو مينغ"، فمن المرجح أنه لن يكون مخطئًا، لأن هذه النقطة المعرفية بارزة جدًا ويمكنه تذكرها بقوة. ولكن إذا سألته "ما هو طول السيد وانج الذي يعيش في الغرفة المجاورة؟"، فقد يصاب بالارتباك لأنه لم ير السيد وانج من قبل.
ومع ذلك، فإن مبدأ تصميمه يحدد أنه يجب أن يكون متصلاً. في هذا الوقت، سوف "يملأ الفراغات" تلقائيًا ويشكل رقمًا بناءً على المفهوم الذي تعلمه "طول الشخص العادي". هذا هو "الوهم".
إذن، كيف تحدث الهلوسة؟
جوهر الهلوسة هو ملء الفراغات وتكملة الخيال.
"الأبيض" هو حقيقة محددة. إذا لم تكن هذه الحقيقة تحتوي على قدر كافٍ من التكرار المعلوماتي في بيانات التدريب، فلن يتمكن النموذج من تذكرها (الحقائق المتناثرة تعادل الضوضاء). إذا لم تتمكن من التذكر، استخدم الهلوسة لملء الفراغات واختلاق التفاصيل.
إن الهلوسات ليست بأي حال من الأحوال اختراعات عشوائية بلا قيود. فالنموذج الكبير هو نموذج احتمالي، والقيود هي الشروط السابقة في الاحتمالية الشرطية. يجب أن تتوافق الحقائق الزائفة التي تم اختيارها بواسطة الوهم مع نوع القيمة المطلوبة بواسطة الحشو، أي يجب أن تتوافق مع مفهوم العقدة الفوقية المقابلة لعلم الوجود/التصنيف. يمكن لـ "تشانغ سان" أن يتوهم بأنه "لي سي"، لكن من غير المرجح أن يتوهم بأنه "حجر". هناك مصطلح في النظرية الأدبية يسمى الحقيقة الفنية. إن ما يسمى بالحقيقة الفنية يعني أنه على الرغم من أن الإبداعات الأدبية والفنية قد تنحرف عن حقائق هذا العالم، إلا أنها خيالات مثالية للعالم الرقمي المحتمل. إن وهم النموذج الكبير هو أحد هذه الحالات.
إن عملية تعلم المعرفة (مرحلة التدريب) للنموذج الكبير هي عملية ضغط المعلومات؛ أما الإجابة على الأسئلة بواسطة النموذج الكبير فهي عملية فك تشفير المعلومات (مرحلة الاستدلال). إنه مثل رفع وخفض البعد. إذا لم تكن الحقيقة زائدة عن الحاجة بدرجة كافية، فسيتم تعميمها في خانة من مفهوم أعلى مستوى. في مرحلة التوليد، يجب تجسيد هذه الخانة وملؤها.
لقد تم نسيان حقيقة "تشانغ سان"، لكن قيد الفتحة "البشرية" لا يزال موجودًا. لملء الفراغ، نحتاج فقط إلى العثور على الكيان الأكثر منطقية والذي يتوافق مع مفهوم الفتحة، وبالتالي فإن وهم "لي سي" أو "وانج وو" يمكن أن يحل محل "تشانغ سان". هكذا يعمل الروائيون، حيث يتم خلق الشخصيات والقصص. لا يشعر الكاتب نفسه ولا القراء أن هذا كذب، لكن الحقيقة والخير والجمال المنشود موجود على مستوى آخر.
ينطبق الأمر نفسه على النماذج الكبيرة. فالنماذج الكبيرة هي فنانة بالفطرة، وليست قواعد بيانات مكررة. "وضع القبعة الخطأ على رأس شخص آخر" و"تسمية الغزال بالحصان" أمران طبيعيان للغاية في وهم النموذج الكبير، لأن تشانغ ولي متشابهان، والحصان والغزال على نفس خط الامتداد. وهما متكافئان من حيث التعميم والضغط.
ومع ذلك، إلى حد ما، الوهم هو خيال (سواء كان إيجابيا أو سلبيا)، وهو ما يعني الإبداع! فكر في الأمر، أي من الأعمال الأدبية والفنية العظيمة التي أنتجتها البشرية لا تتسم بالخيال الجامح والمليء بالخيال؟ إذا كان كل شيء يجب أن يكون مطابقًا تمامًا للواقع، فسيصبح الفن كاميرا، فما الهدف منه إذن؟ كما قال هراري في كتابه "الإنسان العاقل: تاريخ موجز للبشرية"، فإن السبب وراء قدرة البشر على أن يصبحوا سادة الأرض هو أننا قادرون على "سرد القصص" وخلق الأساطير والأديان والدول والعملات وأشياء أخرى لا وجود لها في الواقع. هذه كلها "أوهام"، ولكنها القوة الدافعة وراء ولادة الحضارة وتطورها.
2. ما مدى خطورة مشكلة الهلوسة في DeepSeek-R1؟
مشكلته الهلوسية خطيرة. في السابق، كان المجتمع الأكاديمي يتفق عمومًا مع بيان OpenAI بأن التفكير المعزز من شأنه أن يقلل الهلوسة بشكل كبير. لقد ناقشت هذا الأمر ذات مرة مع أحد المسؤولين في شركة كبيرة لتصنيع النماذج، وقد أكد بشكل خاص على الدور الإيجابي للمنطق في تقليل الهلوسة.
ولكن أداء R1 أعطى نتيجة معاكسة.
وفقًا لاختبار Vectara، فإن معدل الهلوسة في R1 أعلى بكثير من معدل V3. يبلغ معدل الهلوسة في R1 14.3%، وهو أعلى بكثير من معدل الهلوسة في V3 الذي بلغ 3.9%. يرتبط هذا بشكل مباشر بـ "سلسلة الأفكار" المعززة والإبداع الذي تعمل على تعزيزه. R1 هو في الواقع جيد جدًا في التفكير وكتابة الشعر والروايات، ولكن "الآثار الجانبية" التي تأتي معه هي أنه يعاني من المزيد من الهلوسة.
وبالنسبة لـ R1 على وجه التحديد، فإن الزيادة في الهلوسة ترجع بشكل أساسي إلى الأسباب التالية:
أولاً، يستخدم الاختبار القياسي للهلوسة مهام موجزة، ونحن نعلم أن قدرة التلخيص ناضجة بالفعل في مرحلة النموذج الأساسي الكبير. في هذه الحالة، قد يكون للتعزيز تأثير معاكس، مثل استخدام مدفع لقتل بعوضة؛ فاستخدام الكثير من القوة يزيد من احتمالية الهلوسة والاختلاقات.
ثانيًا، لا يتم تحسين التعلم المعزز لسلسلة التفكير الطويلة في R1 خصيصًا للمهام البسيطة نسبيًا مثل التلخيص والترجمة وكتابة الأخبار التي لها متطلبات واقعية صارمة، ولكنها بدلاً من ذلك تحاول إضافة مستويات مختلفة من التفكير إلى جميع المهام.
ومن خلال سلسلة أفكاره الشفافة، يمكننا أن نرى أنه حتى عندما يواجه تعليمات بسيطة، فإنه سوف يفهمها بصبر ويوسعها من زوايا مختلفة. إن الإفراط في ذلك أمر سيئ بقدر ما هو سيئ في عدم القيام به على الإطلاق. إن تعقيد هذه المهام البسيطة من شأنه أن يؤدي إلى انحرافات عن النتائج المقصودة وزيادة الأوهام. بالإضافة إلى ذلك، أثناء تدريب التعلم المعزز لمهام الفنون الحرة، ربما أعطى DeepSeek-R1 المزيد من المكافآت لإبداع النموذج، مما تسبب في أن يكون النموذج أكثر إبداعًا عند إنشاء المحتوى وأكثر عرضة للانحراف عن الحقائق.
نحن نعلم أنه بالنسبة للرياضيات والترميز، فإن إشارة الإشراف على R1 تأتي من المعيار الذهبي لهذه الأسئلة (الإجابات القياسية في كتب التمارين أو حالات اختبار الترميز). بالنسبة لمهام الفنون الحرة، يستخدمون نموذج V3 أو نموذج المكافأة الخاص بـ V3 للحكم على ما إذا كان العمل جيدًا أم سيئًا. ومن الواضح أن النظام الحالي يفضل تشجيع الإبداع.
بالإضافة إلى ذلك، فإن ردود أفعال المستخدمين تتعلق أكثر بالتشجيع والتقدير للإبداع الذي يرونه. فمعظم الناس لا يتأثرون بالأوهام، وخاصة النماذج الكبيرة الناعمة والأنيقة، مما يجعل التعرف على الأوهام أكثر صعوبة. بالنسبة لمعظم المطورين في الخطوط الأمامية، فإن هذا النوع من ردود الفعل من المستخدمين يمكن أن يحفزهم بسهولة على العمل بجدية أكبر على تعزيز الإبداع بدلاً من التعامل مع "الهلوسة"، وهي واحدة من أكثر المشاكل إزعاجًا في مجال النماذج الكبيرة.
من الناحية الفنية، سيضيف R1 تلقائيًا سلسلة طويلة من التفكير إلى تعليمات المستخدم البسيطة، وهو ما يعادل تعقيد مهمة بسيطة وواضحة.
يتم فهم التعليمات البسيطة بشكل متكرر وتمديدها من زوايا مختلفة (سلسلة تفكير CoT تشبه "التسعة تسعات الصغيرة"، والتي تمثل المونولوج الداخلي للكيان عند اتباع التعليمات). تغير سلسلة الفكر الجزء الشرطي قبل أن يولد نموذج الاحتمالية الانحدارية الذاتية إجابة، مما يؤثر بشكل طبيعي على الناتج النهائي.
يختلف عن نموذج V3 على النحو التالي:
V3: الاستعلام --〉الإجابة
R1: الاستعلام + CoT --〉الإجابة بالنسبة للمهام التي يمكن لـ V3 إنجازها بالفعل بشكل جيد، مثل التلخيص أو الترجمة، فإن أي توجيه مطول لسلسلة من الأفكار قد يؤدي إلى ميل إلى الانحراف أو التطور، مما يوفر أرضًا خصبة للهلوسة. 3. في أي المجالات يظهر الوهم النموذجي الكبير بشكل رئيسي؟
إذا قسمنا قدرات R1 إلى "الفنون الليبرالية" و"العلوم"، فهي تتمتع بمنطق قوي وأوهام قليلة نسبيًا في "العلوم" مثل الرياضيات والترميز.
ولكن في مجال إنشاء اللغة، وخاصة في المهمة التلخيصية التي يتم اختبارها الآن، فإن مشكلة الهلوسة أكثر وضوحا. وهذا يعتبر بمثابة تأثير جانبي للإبداع المتفجر في لغة R1.
بالمقارنة مع o1، فإن الإنجاز الأكثر إثارة للدهشة لـ R1 هو أنه نجح في توسيع قدراته في التفكير الرياضي والترميزي إلى مجال إنشاء اللغة، وخاصة أدائه المتميز في اللغة الصينية. هناك عدد لا يحصى من الفصول الرائعة لـ R1 متداولة على الإنترنت. من حيث الموهبة الأدبية، فهو يتفوق بوضوح على 99% من البشر، وطلاب الدراسات العليا في الأدب وحتى أساتذة الدراسات الصينية مليئون بالثناء عليه.
ولكن كما ترى، فإن مطالبة البرنامج بعمل ملخص هو في الأصل مهمة بسيطة للغاية، ولكنه يصر على إعطائك بعض "الوظائف"، ونتيجة لذلك، من السهل "اختلاق" بعض الأشياء غير الموجودة في النص الأصلي. كما ذكرنا من قبل، فإن السبب في ذلك هو أن "فنونها الليبرالية" قوية للغاية وهذا نوع من "المبالغة".
وهنا يتعين علينا أن نتحدث عن العلاقة الدقيقة بين تعزيز القدرة على التفكير والهلوسة.
إنهما لا يرتبطان بشكل إيجابي أو سلبي فحسب. إن متوسط ومتوسط درجات HHEM لنموذج الاستدلال o1 لعائلة GPT أقل من تلك الخاصة بنموذجها العام GPT-4o (انظر الشكل أدناه). ومع ذلك، عندما قارنا R1 مع نموذجها الأساسي V3، وجدنا أن الهلوسة زادت بشكل ملحوظ بعد إضافة التعزيز المنطقي.

الشكل: إحصائيات درجة HHEM لـ GPT-o1 و4o. كلما انخفضت درجة HHEM، انخفضت الهلوسة.
بالمقارنة مع النموذج الأساسي، تقلل o1 من الهلوسة، بينما تزيد R1 من الهلوسة. قد يكون هذا لأن R1 بذل الكثير من الجهد في سلسلة التفكير في الفنون الليبرالية.
باعتبارها تابعًا، نجحت R1 في نقل تمكين CoT في الرياضيات والترميز إلى إنشاء اللغة والنص، ولكن إذا لم تكن حذرة، فستظهر الآثار الجانبية أيضًا. يحب R1 بشكل خاص "التفكير المتباعد". إذا أعطيته تعليمات بسيطة، فيمكنه التوصل إلى الكثير من الأشياء، ويمكن لسلسلة تفكيره أن تدور حول الأرض ثلاث مرات.
يبدو أن هذا يشير إلى أنه في عملية تعزيز الإبداع، تعمل R1 حتماً على زيادة المنتج المصاحب للإبداع: الوهم.
يمكن تقسيم مهارات اللغة في الواقع إلى فئتين: الأولى تتطلب إبداعًا عاليًا، مثل كتابة الشعر والروايات؛ والثانية تتطلب أصالة عالية، مثل إعداد التقارير الإخبارية أو الترجمة أو الملخصات. يحظى R1 بأكبر قدر من الثناء بسبب الأول، والذي قد يكون أيضًا محور تركيز فريق البحث والتطوير، ولكن ظهرت آثار جانبية في الأخير. وهذا يذكرني بما قاله الصينيون القدماء: "الإخلاص والتعبير والأناقة"، وكان من الصعب دائمًا تحقيق الاثنين معًا. لقد رأينا العديد من الأمثلة على التضحية بـ "المصداقية" من أجل "الأناقة". وتعتبر المبالغة البلاغية في الإبداع الأدبي وسيلة ومثالاً مهمين. هناك سوابق للتضحية بـ "الأناقة" من أجل "الإخلاص"، مثل "الترجمة الحرفية" التي دعا إليها السيد لو شون. ومن المثير للاهتمام أننا البشر كنا دائمًا نتبع معايير مزدوجة في هذا الصدد، ولكن لدينا مفتاح في قلوبنا يمكن تبديله في أي وقت. عندما نقرأ الروايات ونشاهد الأفلام، ننتقل إلى الجانب الإبداعي ولا نقلق بشأن ما إذا كانت التفاصيل صحيحة أم لا؛ ولكن بمجرد أن ننتقل إلى قناة الأخبار، لا نتسامح مطلقًا مع المحتوى الكاذب. 4. التحدي النهائي: كيف يمكننا أن نجعل النماذج الكبيرة إبداعية وأقل وهمًا في نفس الوقت؟
يميل الناس إلى تصديق المحتوى الذي يبدو واضحًا منطقيًا ومتسقًا مع نفسه ومفصلاً. في حين أن العديد من الناس منبهرون بإبداع R1، إلا أنهم بدأوا الآن يلاحظون ظاهرة الوهم هذه ويصبحون حذرين. لكن لا يزال عدد أكبر من الناس منغمسين في المفاجأة الإبداعية التي تجلبها لنا، ونحن بحاجة إلى تعزيز وعي الجمهور بأوهام النماذج. يمكنك القيام بالأمرين التاليين:
كن متيقظًا: لا تصدق كل ما تقوله النماذج الكبيرة، وخاصةً عندما يتعلق الأمر بالحقائق. أسهل الأماكن التي يمكن أن تصاب فيها بالهلوسة هي الكيانات أو البيانات مثل الأسماء والأماكن والوقت والموقع، لذا كن حذرًا بشكل خاص.
التحقق المتبادل: هذه تفصيلة مهمة. يمكنك التحقق من البيانات الأصلية عبر الإنترنت أو سؤال الخبراء من حولك لمعرفة ما إذا كانت البيانات متسقة.
توجيه النموذج: يمكنك إضافة بعض الشروط المقيدة عند طرح الأسئلة، مثل "يرجى التأكد من الالتزام بالنص الأصلي"، "يرجى التحقق من الحقائق"، وما إلى ذلك، والتي يمكن أن توجه النموذج لتقليل الهلوسة.
البحث (البحث عبر الإنترنت): بالنسبة للمستخدمين، للعديد من الأسئلة، وخاصة الأخبار والشؤون الجارية، بالإضافة إلى زر DeepThink (الضغط عليه سيدخلك إلى وضع التفكير البطيء R1)، لا تنس الضغط على زر آخر، وهو البحث.
إن إضافة البحث عبر الإنترنت من شأنه أن يقلل من الهلوسة بشكل فعال. إن ما يسمى بالتوليد المعزز للاسترجاع (RAG) للبحث يعادل قاعدة بيانات خارجية. وتساعد البيانات المضافة في تعويض جهل النموذج بالتفاصيل.
استمتع بالإبداع: إذا كنت بحاجة إلى الإلهام والإبداع، فإن وهم النموذج الكبير سيجلب لك المفاجآت.
قد يكون من الأفضل أن ننظر إلى وهم النموذج الكبير باعتباره "احتمال وجود عالم مواز". تمامًا كما يكتب الروائي رواية، على الرغم من كونها خيالية، إلا أنها أيضًا نوع من "الحقيقة الفنية". نشأ من الحياة، أعلى من الحياة. النماذج الكبيرة مستمدة من البيانات وتتجاوز البيانات. النموذج الكبير يضغط نظام المعرفة والحس السليم، وليس الحقائق الفردية، والتي هي الكائنات الموجودة في قاعدة البيانات.
إن الوهم المتمثل في النموذج الكبير يتم إنشاؤه في الواقع بواسطة دماغه، ولكن أساس دماغه هو الكمية الهائلة من المعرفة والقواعد التي تعلمها. لذلك فإن أوهامها غالباً ما لا تكون عشوائية، بل لها "عقلانية داخلية"، مما يجعلها سلسة وخالية من العيوب، والأكاذيب تبدو وكأنها الحقيقة، لكنها في نفس الوقت أكثر تضليلاً. يجب على الأصدقاء الجدد في عالم النماذج الكبيرة أن يكونوا حذرين بشكل خاص وألا يثقوا بهم بسهولة.
بالنسبة للمستخدمين العاديين، من المهم فهم خصائص الأوهام. على سبيل المثال، عند طرح أسئلة موسوعية تحتوي على قدر كافٍ من التكرار المعلوماتي، مثل "ما طول نهر اليانغتسي"، فإن النموذج الكبير لن يرتكب أخطاء لأن هذه الحقائق محفورة في معلمات النموذج. ولكن إذا سألت عن طول مجرى مائي غير معروف أو نهر خيالي، فسوف يقوم النموذج بتفعيل آلية "الملء المعقول" لتعويض الطول. ويمكن القول أن اللغة البشرية بحد ذاتها هي حاضنة للوهم.
تمكن اللغة البشر من إنشاء مفاهيم لكيانات غير حقيقية مثل الأساطير والأديان والبلدان والشركات والعملات، وكذلك الأيديولوجيات الميتافيزيقية مثل المثل العليا والمعتقدات. في كتابه "الإنسان العاقل: تاريخ موجز للبشرية"، أكد هراري على الدور الأساسي للوهم في الحضارة: إن ظهور اللغة مكن البشر من امتلاك القدرة على الهلوسة ("سرد القصص"). الهلوسة هي المحفز للحضارة. البشر هم الكيانات الوحيدة التي يمكنها "الكذب" - إلى جانب LLM.
هل هناك أي طريقة في المستقبل لجعل النماذج الكبيرة إبداعية وأقل هلوسة؟
هذه بالتأكيد واحدة من "المشاكل النهائية" في مجال نماذج الذكاء الاصطناعي الكبيرة! الآن يحاول الجميع إيجاد حلول، مثل:
تدريب أكثر دقة: أثناء التدريب، يتم التعامل مع أنواع مختلفة من المهام بشكل مختلف لإعلام النموذج متى يكون "صادقًا" ومتى يجب "التخلي عنه".
إن الضبط الدقيق و/أو التعزيز (RL) لتفضيلات المهام يمكن أن يخفف من هذا الصراع. تتطلب المهام مثل التلخيص وإعادة الكتابة والترجمة والتقرير عناية خاصة وتوازنًا لأنها تتطلب درجة معينة من إعادة الإبداع (مثل الأسلوب) ولكنها تتطلب أيضًا بطبيعتها الإخلاص للمحتوى.
على وجه التحديد، يتكون خط أنابيب تدريب R1 من أربع خطوات: الضبط الدقيق 1، والتحسين 1، والضبط الدقيق 2، والتحسين 2. التعزيز 2 هو في المقام الأول التعزيز الذي يتماشى مع التفضيلات البشرية. وفيما يتعلق بالإبداع والولاء، يبدو أن هذه العملية تتجه حالياً نحو الأول، ولكن من الممكن تحقيق التوازن في وقت لاحق. وربما يكون الأهم من ذلك هو أنه في المرحلة الثالثة، وهي مرحلة الضبط الدقيق الثانية، يتم فرض القيود على مهام مختلفة، على سبيل المثال، زيادة الإشراف على التلخيص لتوجيه النتائج الدقيقة والمعقولة.
التوجيه: في المستقبل قد يكون هناك "مُرسِل" يقوم بترتيب نماذج مختلفة للتعامل مع المهام وفقًا لنوع المهمة. على سبيل المثال، يتم تعيين المهام البسيطة إلى V3 أو أدوات الاستدعاء، ويتم تعيين المهام المعقدة التي تتطلب التفكير البطيء إلى R1.
على سبيل المثال، لتحديد مهمة حسابية، اكتب عملية كود بسيطة، وهو ما يعادل استدعاء الآلة الحاسبة. ولكن هذا ليس هو الحال في الوقت الحالي. ففي الأمس، قمت باختبار مسألة ضرب مكونة من تسعة أرقام، وقضى R1 أكثر من ثلاث دقائق في التفكير فيها. ويمكن نشر سلسلة الأفكار المطبوعة مثل شارع، مع تقسيم التفكير خطوة بخطوة. على الرغم من أن الإجابة كانت صحيحة في النهاية، إلا أنه كان من غير المعقول تمامًا استخدام ما يسمى بطريقة حساب وقت الاختبار (CoT)، والتي تستهلك الكثير من موارد الحوسبة، بدلاً من استدعاء الوظيفة لحل المشكلة الحسابية. ليست هناك حاجة لاستهلاك الكثير من موارد الحوسبة والرموز للقيام باستدلال صريح عندما يكون سطر واحد من التعليمات البرمجية الحسابية قادرًا على القيام بالمهمة.
هذه كلها مسارات يمكن التنبؤ بها، وخاصة في عصر الوكيل. لا يتعين على R1 CoT أن يغطي كل شيء، وبالإضافة إلى مشكلة الوهم، فإنه سيؤدي أيضًا إلى إهدار الموارد وليس صديقًا للبيئة.
![]()