في سلسلة قيمة الذكاء الاصطناعي بأكملها، يُعد تدريب النماذج الحلقة الأبرز في استهلاك الموارد وأعلى عتبة تقنية، وهو ما يُحدد مباشرةً الحد الأقصى لقدرات النموذج وتأثير التطبيق الفعلي. بالمقارنة مع الاستدعاء البسيط في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا وواسع النطاق في طاقة الحوسبة، وعمليات معالجة بيانات معقدة، ودعمًا لخوارزميات تحسين عالية الكثافة، وهو ما يُمثل "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من منظور النموذج المعماري، يمكن تقسيم أساليب التدريب إلى أربع فئات: التدريب المركزي، والتدريب الموزع، والتعلم الفيدرالي، والتدريب اللامركزي، وهو محور هذه المقالة. التدريب المركزي هو الطريقة التقليدية الأكثر شيوعًا، حيث تُكمل مؤسسة واحدة عملية التدريب بأكملها في مجموعة محلية عالية الأداء. جميع المكونات، بدءًا من الأجهزة (مثل وحدة معالجة الرسومات NVIDIA)، والبرامج الأساسية (CUDA وcuDNN)، ونظام جدولة المجموعة (مثل Kubernetes)، ووصولًا إلى إطار عمل التدريب (مثل PyTorch المستند إلى واجهة NCCL الخلفية)، تُنسّق وتُشغّل بواسطة نظام تحكم موحد. تُحسّن هذه البنية التعاونية العميقة كفاءة مشاركة الذاكرة، ومزامنة التدرج، وآليات تحمّل الأخطاء، وهي مناسبة جدًا لتدريب النماذج واسعة النطاق مثل GPT وGemini. تتميز هذه البنية بكفاءة عالية وموارد قابلة للتحكم، إلا أنها تواجه في الوقت نفسه مشاكل مثل احتكار البيانات، وعوائق الموارد، واستهلاك الطاقة، ومخاطر نقطة واحدة. يُعد التدريب الموزع الطريقة السائدة حاليًا لتدريب النماذج واسعة النطاق. يتمثل جوهره في تفكيك مهمة تدريب النموذج وتوزيعها على أجهزة متعددة لتنفيذها بشكل تعاوني، وذلك لتجاوز عقبة الحوسبة والتخزين على جهاز واحد. ورغم امتلاكه ميزة "التوزيع" فعليًا، إلا أن النظام بأكمله يخضع لسيطرة جهة مركزية للجدولة والمزامنة. وغالبًا ما يعمل في بيئة شبكة محلية (LAN) عالية السرعة. ومن خلال تقنية ناقل الربط عالي السرعة NVLink، تُنسق العقدة الرئيسية جميع المهام الفرعية. تشمل الطرق السائدة ما يلي:
التوازي في البيانات: تُدرّب كل عقدة معلمات بيانات مختلفة لمشاركتها، ويجب مطابقة أوزان النموذج.
التوازي في النموذج: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسع قوية.
التوازي في خط الأنابيب: التنفيذ التسلسلي على مراحل لتحسين الإنتاجية.
التوازي في الموتر: تجزئة دقيقة لحسابات المصفوفة لتحسين الحبيبات المتوازية.
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، وهو مشابه لأن يوجه نفس المدير عن بُعد العديد من موظفي "المكتب" للتعاون لإنجاز المهام. حاليًا، تُدرَّب تقريبًا جميع النماذج الكبيرة الشائعة (GPT-4، وGemini، وLLaMA، وغيرها) بهذه الطريقة.
يُمثل التدريب اللامركزي مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. ميزته الأساسية هي أن العديد من العقد غير الموثوقة (والتي قد تكون أجهزة كمبيوتر منزلية، أو وحدات معالجة رسومية سحابية، أو أجهزة طرفية) تتعاون لإكمال مهام التدريب دون الحاجة إلى مُنسِّق مركزي، وعادةً ما يكون ذلك من خلال توزيع المهام والتعاون المُوجَّه بالبروتوكول، وبمساعدة آليات تحفيز تشفيرية لضمان صدق المساهمات. تشمل التحديات الرئيسية التي يواجهها هذا النموذج ما يلي:
تباين الأجهزة وصعوبة التجزئة: يصعب تنسيق الأجهزة غير المتجانسة وتكون كفاءة تجزئة المهام منخفضة؛
اختناق كفاءة الاتصال: اتصالات الشبكة غير مستقرة ويكون اختناق مزامنة التدرج واضحًا؛
عدم وجود تنفيذ موثوق به: يجعل عدم وجود بيئة تنفيذ موثوق بها من الصعب التحقق مما إذا كانت العقد تشارك بالفعل في الحساب؛
عدم وجود تنسيق موحد: لا يوجد مجدول مركزي، وآليات توزيع المهام والتراجع عن الاستثناءات معقدة. يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين حول العالم، يساهم كل منهم بقوة الحوسبة لتدريب النماذج بشكل تعاوني، ولكن "التدريب اللامركزي واسع النطاق القابل للتنفيذ حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، ويتضمن مستويات متعددة مثل بنية النظام وبروتوكولات الاتصال والأمان التشفيري والآليات الاقتصادية والتحقق من النموذج وما إلى ذلك، ولكن ما إذا كان "التعاون فعالاً + الحوافز صادقة + النتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
التعلم الفيدرالي كشكل انتقالي بين التوزيع واللامركزية، فإنه يؤكد على الاحتفاظ بالبيانات المحلية والتجميع المركزي لمعلمات النموذج، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية (مثل الطبية والمالية). يتمتع التعلم الفيدرالي بالبنية الهندسية وقدرات التنسيق المحلية التي يتميز بها التدريب الموزع، وفي الوقت نفسه يتمتع بمزايا تشتيت البيانات التي يتميز بها التدريب اللامركزي، إلا أنه لا يزال يعتمد على منسقين موثوقين، ولا يتمتع بخصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره حلاً "لللامركزية المُتحكم بها" في سياق الامتثال للخصوصية. إنه معتدل نسبيًا من حيث مهام التدريب وهيكل الثقة وآلية الاتصال، وهو أكثر ملاءمة كهندسة نشر انتقالية في الصناعة.
جدول مقارنة بانورامي لنموذج تدريب الذكاء الاصطناعي (الهندسة التقنية × حافز الثقة × خصائص التطبيق)
الحدود والفرص والمسارات الواقعية للتدريب اللامركزي
من منظور نموذج التدريب، التدريب اللامركزي لا ينطبق التدريب على جميع أنواع المهام. ففي بعض السيناريوهات، ونظرًا لتعقيد هيكل المهمة، أو متطلبات الموارد العالية جدًا، أو صعوبة التعاون، لا يُناسب التدريب اللامركزي إتمامه بكفاءة بين العقد غير المتجانسة وغير الموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة فيديو عالية، وزمن وصول منخفض، ونطاق ترددي عالي السرعة، مما يصعب تقسيمه ومزامنته بفعالية في شبكة مفتوحة؛ وتُقيّد المهام ذات القيود الصارمة على خصوصية البيانات وسيادة العمل (مثل البيانات الطبية والمالية والسرية) بالقيود القانونية والأخلاقية، ولا يمكن مشاركتها علنًا؛ كما أن المهام التي تفتقر إلى أساس حوافز تعاونية (مثل نماذج الشركات المغلقة المصدر أو تدريب النماذج الأولية الداخلية) تفتقر إلى دافع المشاركة الخارجية. تُشكّل هذه الحدود مجتمعةً القيود العملية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي اقتراح خاطئ. في الواقع، يُظهر التدريب اللامركزي آفاقًا واضحة للتطبيق في أنواع المهام الخفيفة، وسهلة التوازي، والمحفزة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA الدقيق، ومهام ما بعد التدريب على محاذاة السلوك (مثل RLHF وDPO)، ومهام التدريب على جمع البيانات وتوضيحها، وتدريب النموذج الأساسي الصغير القابل للتحكم في الموارد، وسيناريوهات التدريب التعاوني التي تنطوي على أجهزة حافة. تتميز هذه المهام عمومًا بخصائص التوازي العالي، والاقتران المنخفض، والتسامح مع قوة الحوسبة غير المتجانسة، وهي مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، وبروتوكولات Swarm، والمحسنات الموزعة، وما إلى ذلك.
نظرة عامة على ملاءمة مهمة التدريب اللامركزي
تحليل مشاريع التدريب اللامركزي الكلاسيكية
حاليًا، في المجالات الرائدة في في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل مشاريع بلوكتشين التمثيلية بشكل رئيسي برايم إنتلكت، وبلوراليس.اي، وجينسين، ونوس ريسيرش، وفلوك.اي. من منظور الابتكار التكنولوجي وصعوبة الهندسة، اقترحت برايم إنتلكت، ونوس ريسيرش، وبلوراليس.اي العديد من الاستكشافات المبتكرة في هندسة النظم وتصميم الخوارزميات، مما يمثل التوجه الرائد للبحث النظري الحالي؛ في حين أن مسارات تنفيذ جينسين وفلوك.اي واضحة نسبيًا، ويمكن ملاحظة التقدم الهندسي الأولي. ستحلل هذه المقالة التقنيات الأساسية والهندسة المعمارية الكامنة وراء هذه المشاريع الخمسة بدورها، وتستكشف بشكل أعمق اختلافاتها وعلاقاتها التكاملية في نظام تدريب الذكاء الاصطناعي اللامركزي.
برايم إنتلكت: رائدة في شبكة تعاونية للتعلم المعزز بمسار تدريبي قابل للتحقق
تلتزم برايم إنتلكت ببناء شبكة تدريب ذكاء اصطناعي غير موثوقة، تتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة لمساهماته الحاسوبية. تأمل برايم إنتلكت في بناء نظام تدريب ذكاء اصطناعي لامركزي يتميز بإمكانية التحقق والانفتاح وآلية تحفيز متكاملة من خلال الوحدات الثلاث: برايم-ريل + توبلوك + شاردكاست.
1. بنية حزمة بروتوكول برايم إنتلكت وقيمة الوحدة الرئيسية
2. شرح مفصل لآليات تدريب برايم إنتلكت الرئيسية
PRIME-RL: بنية مهام التعلم التعزيزي غير المتزامن المنفصل
PRIME-RL هو إطار عمل لنمذجة وتنفيذ المهام من برايم إنتلكت، مُصمم خصيصًا لسيناريوهات التدريب اللامركزية، والشبكات غير المتجانسة والمشاركة غير المتزامنة. يستخدم التعلم التعزيزي كعنصر تكيف ذي أولوية، ويفصل هيكليًا عمليات التدريب والاستدلال وتحميل الأوزان، بحيث تتمكن كل عقدة تدريب من إكمال دورة المهمة بشكل مستقل محليًا، والتعاون مع آلية التحقق والتجميع من خلال واجهات موحدة. مقارنةً بعملية التعلم المُشرف التقليدية، يُعد PRIME-RL أكثر ملاءمة للتدريب المرن في بيئة بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويرسي الأساس لدعم التوازي متعدد المهام وتطوير السياسات.
TOPLOC: آلية التحقق من سلوك التدريب البسيطة
TOPLOC (الملاحظة الموثوقة وفحص موقع السياسة) هي الآلية الأساسية للتحقق من قابلية التدريب التي اقترحتها Prime Intellect، والتي تُستخدم لتحديد ما إذا كانت العقدة قد أكملت بالفعل تعلمًا فعالًا للسياسة بناءً على البيانات المُلاحظة. بخلاف الحلول الثقيلة مثل ZKML، لا تعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل تُكمل التحقق من البنية البسيطة من خلال تحليل مسار الاتساق المحلي بين "تسلسل الملاحظة ↔ تحديث السياسة". إنها المرة الأولى التي تُحوّل فيها مسار سلوك عملية التدريب إلى كائن قابل للتحقق. يُعد هذا ابتكارًا رئيسيًا لتحقيق توزيع مكافآت التدريب بدون ثقة، ويوفر مسارًا عمليًا لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق ومُحفّزة. SHARDCAST: بروتوكول تجميع وانتشار الأوزان غير المتزامن
SHARDCAST هو بروتوكول تجميع وانتشار الأوزان صممته شركة Prime Intellect، وهو مُحسّن لبيئات الشبكات غير المتزامنة، محدودة النطاق الترددي، والواقعية ذات حالات العقد المتغيرة. يجمع البروتوكول بين آلية نشر الشائعات واستراتيجية المزامنة المحلية، مما يسمح لعدة عقد بإرسال تحديثات جزئية بشكل مستمر في حالة غير متزامنة، مما يحقق تقاربًا تدريجيًا وتطورًا متعدد الإصدارات للأوزان. بالمقارنة مع أساليب AllReduce المركزية أو المتزامنة، يُحسّن SHARDCAST بشكل ملحوظ قابلية التوسع وتحمل الأخطاء في التدريب اللامركزي، ويمثل الأساس لبناء توافق أوزان مستقر وتكرارات تدريب مستمرة.
OpenDiLoCo: إطار عمل للاتصالات غير المتزامنة المتفرقة
OpenDiLoCo هو إطار عمل لتحسين الاتصالات، يُنفذه فريق Prime Intellect بشكل مستقل وهو مفتوح المصدر، ويستند إلى مفهوم DiLoCo الذي اقترحته DeepMind. صُمم هذا الإطار لمواجهة تحديات شائعة في التدريب اللامركزي، مثل قيود النطاق الترددي، وتباين الأجهزة، وعدم استقرار العقد. تعتمد بنيته على توازي البيانات. من خلال بناء هياكل طوبولوجية متفرقة مثل Ring وExpander وSmall-World، تتجنب OpenDiLoCo عبء الاتصالات المرتفع الناتج عن المزامنة العالمية، وتعتمد فقط على العقد المجاورة المحلية لإكمال التدريب التعاوني للنموذج. وبفضل التحديثات غير المتزامنة وآليات تحمل نقاط التوقف، تُمكّن OpenDiLoCo وحدات معالجة الرسومات (GPUs) المخصصة للمستهلكين والأجهزة الطرفية من المشاركة بثبات في مهام التدريب، مما يُحسّن بشكل كبير من مشاركة التدريب التعاوني العالمي، وتُعد إحدى البنى التحتية الرئيسية للاتصالات لبناء شبكات تدريب لامركزية.
مكتبة الاتصالات التعاونية PCCL
مكتبة الاتصالات الجماعية الأساسية (Prime Collective Communication Library) هي مكتبة اتصالات خفيفة الوزن، صممتها Prime Intellect خصيصًا لبيئات تدريب الذكاء الاصطناعي اللامركزية، وهي مصممة لحل مشكلة التكيف في مكتبات الاتصالات التقليدية (مثل NCCL وGloo) في الأجهزة غير المتجانسة والشبكات منخفضة النطاق الترددي. يدعم PCCL الطوبولوجيا المتفرقة، وضغط التدرج، والمزامنة منخفضة الدقة، واستعادة نقاط التوقف، ويمكن تشغيله على وحدات معالجة رسومية مخصصة للمستهلكين وعقد غير مستقرة. وهو المكون الأساسي الذي يدعم قدرات الاتصال غير المتزامن لبروتوكول OpenDiLoCo. كما يُحسّن بشكل كبير من تحمّل عرض النطاق الترددي وتوافق الأجهزة في شبكة التدريب، ويفتح المجال أمام اتصالات "الميل الأخير" لبناء شبكة تدريب تعاونية مفتوحة تمامًا لا تعتمد على الثقة.
3. شبكة حوافز برايم إنتلكت وتقسيم الأدوار
أنشأت برايم إنتلكت شبكة تدريب غير مرخصة، وقابلة للتحقق، وذات حوافز اقتصادية، تُمكّن أي شخص من المشاركة في المهام والحصول على مكافآت بناءً على مساهمات حقيقية. يعتمد تشغيل البروتوكول على ثلاثة أدوار أساسية: مُبادر المهمة: يُحدد بيئة التدريب، والنموذج الأولي، ووظيفة المكافأة، ومعايير التحقق. عقدة التدريب: تُجري تدريبًا محليًا، وتُرسل تحديثات الوزن، وتُراقب المسارات. عقدة التحقق: تستخدم آلية TOPLOC للتحقق من صحة سلوك التدريب، وتُشارك في حساب المكافأة وتجميع الاستراتيجية. تتضمن العملية الأساسية للبروتوكول نشر المهمة، وتدريب العقد، والتحقق من المسار، وتجميع الوزن (SHARDCAST)، وإصدار المكافأة، مما يُشكل حلقة حوافز مغلقة حول "سلوك التدريب الحقيقي". 4. INTELLECT-2: إصدار أول نموذج تدريب لامركزي قابل للتحقق منه. أصدرت شركة Prime Intellect نموذج INTELLECT-2 في مايو 2025، وهو أول نموذج تعليم معزز كبير في العالم يُدرَّب بواسطة عقد لامركزية غير متزامنة وغير موثوقة، بمقياس معاملات يبلغ 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة غير متجانسة لوحدات معالجة الرسومات (GPU) عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل ووقت تدريب يزيد عن 400 ساعة، مما يُظهر جدوى واستقرار شبكات التعاون غير المتزامنة. لا يُعد هذا النموذج إنجازًا في الأداء فحسب، بل يُعد أيضًا أول تطبيق منهجي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 وحدات بروتوكول أساسية مثل PRIME-RL (هيكل التدريب غير المتزامن)، وTOPLOC (التحقق من سلوك التدريب)، وSHARDCAST (تجميع الأوزان غير المتزامن)، مسجلاً بذلك أول مرة تحقق فيها شبكة تدريب لامركزية الانفتاح والتحقق والحلقة المغلقة للحوافز الاقتصادية في عملية التدريب.
من حيث الأداء، يعتمد INTELLECT-2 على تدريب QwQ-32B، وقد أجرى تدريبًا خاصًا في التعلم المعزز في البرمجة والرياضيات، وهو ما يُعدّ في طليعة نماذج الضبط الدقيق للتعليم المعزز مفتوحة المصدر الحالية. على الرغم من أنه لم يتجاوز بعد النماذج المغلقة المصدر مثل GPT-4 أو Gemini، إلا أن أهميته الحقيقية تكمن في أنه أول تجربة نموذج لامركزي في العالم بعملية تدريب كاملة قابلة للتكرار والتحقق والتدقيق. لم تقم Prime Intellect بفتح مصدر النموذج فحسب، بل والأهم من ذلك، عملية التدريب نفسها - بيانات التدريب، ومسار تحديث الاستراتيجية، وعملية التحقق، ومنطق التجميع - كلها شفافة وقابلة للتتبع، مما يؤدي إلى بناء نموذج أولي لشبكة تدريب لامركزية يمكن للجميع المشاركة فيها، والتعاون الجدير بالثقة، ومشاركة الفوائد. الفريق وخلفية التمويل
أكملت شركة Prime Intellect جولة تمويلية أولية بقيمة 15 مليون دولار أمريكي في فبراير 2025، بقيادة Founders Fund، بمشاركة العديد من رواد الصناعة، بما في ذلك Menlo Ventures وAndrej Karpathy وClem Delangue وDylan Patel وBalaji Srinivasan وEmad Mostaque وSandeep Nailwal، وغيرهم. قبل ذلك، أكمل المشروع جولة تمويلية مبكرة بقيمة 5.5 مليون دولار أمريكي في أبريل 2024، بقيادة CoinFund وDistributed Global، بمشاركة Compound VC وCollab + Currency وProtocol Labs، وغيرها. حتى الآن، جمعت شركة Prime Intellect أكثر من 20 مليون دولار أمريكي كتمويل تراكمي.
المؤسسان المشاركان لشركة Prime Intellect هما Vincent Weisser وJohannes Hagemann. يتمتع أعضاء الفريق بخلفيات في مجال الذكاء الاصطناعي وWeb3. يتألف الفريق الأساسي من Meta AI، وGoogle Research، وOpenAI، وFlashbots، وStability AI، ومؤسسة Ethereum. ويتمتع الفريق بخبرات واسعة في تصميم بنية النظام وتنفيذ الهندسة الموزعة. وهم من الفرق التنفيذية القليلة التي أكملت بنجاح تدريبًا حقيقيًا على نماذج لامركزية واسعة النطاق. Pluralis: مستكشف نماذج التدريب المشترك للضغط الهيكلي والتوازي للنماذج غير المتزامنة. Pluralis هو مشروع ذكاء اصطناعي Web3 يركز على "شبكات التدريب التعاوني الموثوقة". ويتمثل هدفه الأساسي في تعزيز نموذج تدريبي لامركزي، مفتوح المشاركة، وطويل الأمد لنماذج الحوافز. وخلافًا لمسارات التدريب المركزية أو المغلقة السائدة حاليًا، اقترح Pluralis مفهومًا جديدًا يُسمى "تعلم البروتوكول": عملية تدريب نموذجي "قائم على البروتوكول"، وبناء نظام تدريب مفتوح بحلقة مغلقة داخلية للحوافز من خلال آلية تعاون قابلة للتحقق وربط ملكية النموذج. 1. المفهوم الأساسي: تعلم البروتوكول. يتضمن تعلم البروتوكول الذي اقترحته بلوراليس ثلاثة ركائز أساسية: نماذج غير مادية: يُوزّع النموذج بين عدة عقد على شكل أجزاء، ولا يمكن لأي عقدة استعادة الأوزان كاملةً مع الحفاظ على نظام المصدر المغلق. يجعل هذا التصميم النموذج "أصلًا طبيعيًا داخل البروتوكول"، قادراً على تحقيق التحكم في بيانات اعتماد الوصول، وحماية التسرب، وربط نسب الدخل. التدريب المتوازي للنموذج عبر الإنترنت: من خلال آلية التوازي غير المتزامنة لنموذج خط الأنابيب (بنية SWARM)، تحتفظ العقد المختلفة بجزء فقط من الوزن، وتُكمل التدريب أو الاستدلال من خلال تعاون شبكة منخفض النطاق الترددي.
الملكية الجزئية للحوافز**: تحصل جميع العقد المشاركة على ملكية جزئية للنموذج وفقًا لمساهمتها في التدريب، مما يتيح لها التمتع بحقوق تقاسم الإيرادات وحوكمة البروتوكول مستقبلًا.
II. البنية التقنية لمجموعة بروتوكولات Pluralis
III. شرح مفصل للآليات التقنية الرئيسية
نماذج غير مادية
اقترح لأول مرة وبشكل منهجي في "المسار الثالث: تعلم البروتوكول" توزيع أوزان النماذج على شكل أجزاء لضمان تخزين "أصول النموذج" فقط في Swarm. تعمل الشبكة ضمن الشبكة، مما يضمن تحكم البروتوكول في الوصول إليها ودخلها. تُعد هذه الآلية شرطًا أساسيًا لتحقيق هيكل حوافز مستدام للتدريب اللامركزي. في "تدريب نموذجي غير متزامن بالتوازي مع التحديثات غير المتزامنة"، قامت شركة Pluralis ببناء بنية نموذجية غير متزامنة متوازية مبنية على Pipeline، وعرضتها لأول مرة على LLaMA-3. يتمثل الابتكار الأساسي في إدخال آلية Nesterov Accelerated Gradient (NAG)، التي تصحح بفعالية مشاكل انحراف التدرج وعدم استقرار التقارب أثناء عملية التحديث غير المتزامن، مما يجعل التدريب بين الأجهزة غير المتجانسة عمليًا في بيئة ذات نطاق ترددي منخفض.
تشتيت فراغات الأعمدة
في "ما وراء Top-K"، يُقترح استبدال Top-K التقليدي بطريقة ضغط فراغات الأعمدة، مع مراعاة البنية، لتجنب إتلاف المسار الدلالي. تأخذ هذه الآلية في الاعتبار دقة النموذج وكفاءة الاتصال. وقد ثبت أن أكثر من 90% من بيانات الاتصال يمكن ضغطها في بيئة متوازية للنموذج غير المتزامن، وهو ما يُعد إنجازًا هامًا في تحقيق اتصال فعال، مع مراعاة البنية.
رابعًا، تحديد المواقع التقنية واختيار المسار
من الواضح أن Pluralis يتخذ "التوازي غير المتزامن للنموذج" كتوجه أساسي له، مؤكدًا أنه يتمتع بالمزايا التالية على التوازي في البيانات:
يدعم الشبكات ذات النطاق الترددي المنخفض والعقد غير المتسقة؛
يتكيف مع عدم تجانس الأجهزة ويسمح لوحدات معالجة الرسومات من الدرجة الاستهلاكية بالمشاركة؛
يمتلك بشكل طبيعي قدرات جدولة مرنة ويدعم العقد المتكررة عبر الإنترنت / غير المتصلة؛
مع ضغط البنية + التحديث غير المتزامن + عدم القدرة على استخراج الوزن كنقاط الاختراق الرئيسية الثلاث.
حاليًا، واستنادًا إلى وثائق المدونة التقنية الستة المنشورة على الموقع الرسمي، تم دمج الهيكل المنطقي في الخطوط الرئيسية الثلاثة التالية:
الفلسفة والرؤية: "المسار الثالث: تعلم البروتوكول" "لماذا التدريب اللامركزي مهم"
تفاصيل الآلية التقنية: "SWARM Parallel" "Beyond Top-K" "التحديثات غير المتزامنة"
استكشاف الابتكار المؤسسي: "النماذج غير المادية" "بروتوكولات الملكية الجزئية"
في الوقت الحالي، لم تطلق Pluralis بعد منتجات أو شبكات اختبار أو أكواد مفتوحة المصدر. السبب هو أن المسار التقني الذي اختارته الشركة صعب للغاية: فمن الضروري حل مشاكل على مستوى النظام مثل بنية النظام الأساسية وبروتوكولات الاتصال والأوزان غير القابلة للتصدير قبل أن يصبح من الممكن تغليف خدمات المنتج تصاعديًا.
في ورقة بحثية جديدة نشرتها شركة Pluralis Research في يونيو 2025، تم توسيع إطار عمل التدريب اللامركزي الخاص بها من مرحلة ما قبل التدريب النموذجي إلى الضبط الدقيق للنموذج، مما يدعم التحديثات غير المتزامنة والاتصالات المتفرقة وتجميع الأوزان الجزئية. وبالمقارنة مع التصميم السابق الذي ركز على النظرية والتدريب المسبق، فإن هذا العمل يولي اهتمامًا أكبر لجدوى التنفيذ، مما يشير إلى مزيد من النضج في بنية التدريب ذات الدورة الكاملة.
الفريق الخامس وخلفية التمويل
أكملت Pluralis جولة تمويل أولية بقيمة 7.6 مليون دولار في عام 2025، بقيادة Union Square Ventures (USV) و CoinFund. المؤسس ألكسندر لونغ حاصل على درجة الدكتوراه في التعلم الآلي، ولديه خلفية في كل من الرياضيات وأبحاث النظم. جميع الأعضاء الأساسيين باحثون في التعلم الآلي بخلفيات دكتوراه. إنه مشروع نموذجي قائم على التكنولوجيا، مع أوراق بحثية مكثفة ومدونات تقنية كمسار إصدار رئيسي. حاليًا، لا يوجد فريق تطوير/نمو، ويركز على التغلب على صعوبات البنية التحتية لتوازي النماذج غير المتزامنة منخفضة النطاق الترددي. جينسين: طبقة بروتوكول تدريب لامركزية مدفوعة بتنفيذ قابل للتحقق. جينسين هو مشروع ذكاء اصطناعي Web3 يركز على "التنفيذ الموثوق لمهام تدريب التعلم العميق". لا يتمثل جوهر المشروع في إعادة بناء بنية النموذج أو نموذج التدريب، بل في بناء شبكة تنفيذ تدريب موزعة وقابلة للتحقق، مع العملية الكاملة المتمثلة في "توزيع المهام + تنفيذ التدريب + التحقق من النتائج + حوافز عادلة". من خلال التصميم الهيكلي للتدريب خارج السلسلة + التحقق داخل السلسلة، أنشأت جينسين سوق تدريب عالمي فعال ومفتوح ومحفز، مما يجعل "التدريب هو التعدين" حقيقة واقعة.
1. وضع المشروع: طبقة بروتوكول تنفيذ مهام التدريب.
لا يركز Gensyn على "كيفية التدريب"، بل على البنية التحتية لـ "من يُدرب، وكيف يُتحقق، وكيف يُشارك الأرباح". جوهره هو بروتوكول حوسبة قابل للتحقق لمهام التدريب، والذي يُعالج بشكل رئيسي المشكلات التالية:
من سيُجري مهام التدريب (توزيع قوة الحوسبة والمطابقة الديناميكية)
كيفية التحقق من نتائج التنفيذ (لا حاجة لإعادة الحساب، فقط تحقق من المُشغلين المُتنازع عليهم)
كيفية توزيع دخل التدريب (آلية الرهان، والقطع، واللعب متعدد الأدوار)
2. نظرة عامة على البنية التقنية
ثالثًا. شرح مفصل للوحدة
RL Swarm: نظام تدريب التعلم التعزيزي التعاوني
يُعد أول RL Swarm من Gensyn نظام تحسين تعاوني متعدد النماذج لامركزي لمرحلة ما بعد التدريب، مع الميزات الأساسية التالية:
عملية التفكير والتعلم الموزعة:
Verde + Proof-of-Learning: آلية تحقق موثوقة
تجمع وحدة Verde من Gensyn بين ثلاث آليات:
إثبات التعلم: تحديد ما إذا كان التدريب قد حدث بالفعل بناءً على مسار التدرج وبيانات التعريف الخاصة بالتدريب؛
تحديد موقع قائم على الرسم البياني: تحديد موقع العقد المتباعدة في الرسم البياني لحساب التدريب، ولا تحتاج إلا إلى إعادة حساب العمليات المحددة؛
التفويض المُحكم: يعتمد آلية تحقق تحكيمية، حيث يكون المُتحقق والمُتحدِّي رفع النزاعات والتحقق محليًا، مما يقلل بشكل كبير من تكلفة التحقق.
بالمقارنة مع مخططات ZKP أو مخططات التحقق من إعادة الحساب الكاملة، يحقق مخطط Verde توازنًا أفضل بين إمكانية التحقق والكفاءة.
SkipPipe: آلية تحسين مقاومة أخطاء الاتصال
تم تصميم SkipPipe لحل مشكلة عنق الزجاجة في الاتصال في سيناريو "النطاق الترددي المنخفض + انقطاع العقدة". تتضمن قدراتها الأساسية ما يلي: نسبة التخطي: تخطي العقد المقيدة لتجنب انسداد التدريب؛ خوارزمية الجدولة الديناميكية: إنشاء مسار التنفيذ الأمثل في الوقت الفعلي؛ تنفيذ متسامح مع الأخطاء: حتى في حالة فشل 50٪ من العقد، تنخفض دقة الاستدلال بنحو 7٪ فقط. يدعم تحسين إنتاجية التدريب بنسبة تصل إلى 55٪، ويدرك قدرات رئيسية مثل "استدلال الخروج المبكر" و"إعادة الترتيب السلس" و"إكمال الاستدلال".
HDEE: مجموعات الخبراء غير المتجانسة عبر المجالات
تلتزم وحدة HDEE (مجموعات الخبراء غير المتجانسة عبر المجالات) بتحسين السيناريوهات التالية:
التدريب متعدد المجالات ومتعدد الوسائط ومتعدد المهام؛
التوزيع غير المتساوي لأنواع مختلفة من بيانات التدريب والاختلافات الكبيرة في الصعوبة؛
مشاكل تخصيص المهام والجدولة في بيئة ذات قدرات حوسبة غير متجانسة للأجهزة وعرض نطاق اتصال غير متسق.
ميزاته الأساسية:
MHe-IHo: تعيين نماذج بأحجام مختلفة لمهام بمستويات صعوبة مختلفة (نماذج غير متجانسة، حجم خطوة تدريب متسق)؛
MHo-IHe: صعوبة مهمة موحدة، ولكن تعديل غير متزامن لحجم خطوة التدريب؛
دعم نماذج الخبراء غير المتجانسة + استراتيجيات التدريب القابلة للتوصيل لتحسين القدرة على التكيف والتسامح مع الأخطاء؛
التركيز على "التعاون المتوازي + التواصل المنخفض للغاية + تخصيص الخبراء الديناميكي"، وهو مناسب لبيئة المهام المعقدة في الواقع.
آلية اللعبة متعددة الأدوار: الثقة والحوافز بالتوازي
تقدم شبكة Gensyn أربعة أنواع من المشاركين:
المُرسِل: ينشر مهام التدريب ويضع الهيكل والميزانية؛
المُحلِّل: ينفذ مهام التدريب ويرسل النتائج؛
المُتحقق: يتحقق من سلوك التدريب لضمان امتثاله وفعاليته؛
المُبلغ عن المخالفات: يتحدى المُتحقق للحصول على مكافآت التحكيم أو تحمل العقوبات. هذه الآلية مستوحاة من تصميم لعبة Truebit الاقتصادية. من خلال إدخال الأخطاء قسرًا والتحكيم العشوائي، تُشجع المشاركين على التعاون بصدق وتضمن تشغيلًا موثوقًا للشبكة.
رابعًا، شبكة الاختبار وتخطيط خارطة الطريق
خامسًا، الفريق وخلفية التمويل
تأسست شركة Gensyn على يد بن فيلدينج وهاري جريف ومقرها الرئيسي في لندن، المملكة المتحدة. في مايو 2023، أعلنت شركة Gensyn عن إتمام جولة تمويل من الفئة A بقيمة 43 مليون دولار أمريكي، بقيادة a16z crypto، بمشاركة مستثمرين آخرين، بما في ذلك CoinFund وCanonical وEthereal Ventures وFactor وEden Block. يجمع فريق العمل بين خبرة الأنظمة الموزعة وهندسة التعلم الآلي، وقد التزم منذ فترة طويلة ببناء شبكة واسعة النطاق لتنفيذ تدريبات الذكاء الاصطناعي قابلة للتحقق، لا تعتمد على الثقة. Nous Research: نظام تدريب تطوري معرفي قائم على مفهوم الذكاء الاصطناعي الذاتي Nous Research هي واحدة من فرق التدريب اللامركزية القليلة التي تجمع بين العمق الفلسفي والإدراك الهندسي. تنبع رؤيتها الأساسية من مفهوم "الذكاء الاصطناعي الطموح": يُعتبر الذكاء الاصطناعي كائنًا ذكيًا يتمتع بالذاتية والقدرة على التطور، وليس مجرد أداة بسيطة قابلة للتحكم. تكمن خصوصية Nous Research في أنها لا تُحسّن تدريب الذكاء الاصطناعي باعتباره "مشكلة كفاءة"، بل تعتبره عملية تشكيل "كيان معرفي". انطلاقًا من هذه الرؤية، تُركز Nous على بناء شبكة تدريب مفتوحة تُدرّب بشكل تعاوني من قِبل عُقد غير متجانسة، ولا تتطلب جدولة مركزية، ومقاومة للرقابة، وتُنفّذ بشكل منهجي من خلال سلسلة أدوات متكاملة.
1. دعم المفهوم: إعادة تعريف "الغرض" من التدريب
لم يستثمر نوس كثيرًا في تصميم الحوافز أو اقتصاديات البروتوكول، لكنه حاول تغيير الفرضية الفلسفية للتدريب نفسه:
معارضة "المحاذاة": لا أتفق مع "تدريب أسلوب التدريب" الذي يتخذ السيطرة البشرية كهدف وحيد، وأؤيد أن التدريب يجب أن يشجع النماذج على تكوين أسلوب معرفي مستقل؛
التركيز على ذاتية النموذج: يُعتقد أن النموذج الأساسي يجب أن يحتفظ بعدم اليقين والتنوع والقدرة على توليد الهلوسة (الهلوسة كفضيلة)؛
تدريب النموذج هو تكوين معرفي: النموذج ليس "تحسينًا لإكمال المهمة"، بل فرد يشارك في عملية التطور المعرفي.
على الرغم من أن وجهة النظر التدريبية هذه "رومانسية"، إلا أنها تعكس المنطق الأساسي لتصميم Nous للبنية الأساسية للتدريب: كيفية السماح للنماذج غير المتجانسة بالتطور في شبكة مفتوحة بدلاً من الانضباط الموحد.
2. جوهر التدريب: شبكة Psyche ومُحسِّن DisTrO
تتمثل أهم مساهمة نوس في مجال التدريب اللامركزي في بناء شبكة Psyche ومُحسِّن الاتصالات الأساسي DisTrO (التدريب الموزع عبر الإنترنت)، واللذين يُشكلان معًا مركز تنفيذ مهمة التدريب. تتميز شبكة DisTrO + Psyche بالعديد من الإمكانيات الأساسية، بما في ذلك ضغط الاتصالات (باستخدام DCT + ترميز إشارة بت واحد لتقليل متطلبات النطاق الترددي بشكل كبير)، وقابلية تكيف العقد (دعم وحدات معالجة الرسومات غير المتجانسة، وإعادة الاتصال عند انقطاع الاتصال، والخروج التلقائي)، والتسامح غير المتزامن مع الأخطاء (تدريب مستمر بدون مزامنة، مع تسامح عالٍ مع الأخطاء)، وآلية جدولة لامركزية (لا حاجة لمنسق مركزي، ويتم تحقيق الإجماع وتوزيع المهام استنادًا إلى تقنية البلوك تشين). يوفر هذا الهيكل أساسًا تقنيًا واقعيًا وقابلًا للتطبيق لشبكة تدريب مفتوحة منخفضة التكلفة، عالية المرونة، وقابلة للتحقق.
يؤكد هذا التصميم المعماري على الجدوى العملية: فهو لا يعتمد على الخوادم المركزية، وقابل للتكيف مع العقد التطوعية العالمية، ويمكن تتبع نتائج التدريب على السلسلة. 3. نظام الاستدلال والوكيل المكون من Hermes / Forge / TEE_HEE بالإضافة إلى بناء البنية التحتية للتدريب اللامركزي، أجرت Nous Research أيضًا عددًا من تجارب النظام الاستكشافي حول مفهوم "ذاتية الذكاء الاصطناعي":
سلسلة نماذج Hermes مفتوحة المصدر: Hermes 1 إلى 3 هي نماذج مفتوحة المصدر كبيرة الحجم أطلقتها Nous، استنادًا إلى تدريب LLaMA 3.1، وتغطي ثلاثة مقاييس للمعلمات 8B و70B و405B. تهدف هذه السلسلة إلى تجسيد مفهوم التدريب "إزالة التعليمات والحفاظ على التنوع" الذي تنادي به Nous، وتُظهر قدرات تعبيرية وتعميمية أقوى في الاحتفاظ بالسياق الطويل، ولعب الأدوار، والحوار متعدد الجولات، وغيرها.
واجهة برمجة تطبيقات Forge Reasoning: نظام استدلال متعدد الوسائط. Forge هو إطار عمل استدلالي طورته Nous، يجمع بين ثلاث آليات متكاملة لتحقيق قدرات استدلال أكثر مرونة وإبداعًا: MCTS (بحث شجرة مونت كارلو): البحث الاستراتيجي عن المهام المعقدة؛ CoC (سلسلة التعليمات البرمجية): تقديم مسار مُدمج لسلسلة التعليمات البرمجية والاستدلال المنطقي؛ MoA (مزيج من العوامل): السماح لنماذج متعددة بالتفاوض وتحسين اتساع وتنوع المخرجات. يُركز النظام على "التفكير غير الحتمي" ومسارات التوليد التوافقية، وهو استجابة قوية لنموذج محاذاة التعليمات التقليدي.
TEE_HEE: تجربة عميل ذكاء اصطناعي مستقل: TEE_HEE هو استكشاف نوس المتطور في مجال العملاء المستقلين، بهدف التحقق من قدرة الذكاء الاصطناعي على العمل بشكل مستقل في بيئة تنفيذ موثوقة (TEE) وامتلاك هوية رقمية فريدة. يمتلك العميل حساباته الخاصة على تويتر وإيثريوم، وتُدار جميع أذونات التحكم بواسطة منطقة معزولة قابلة للتحقق عن بُعد، ولا يمكن للمطورين التدخل في سلوكه. تهدف التجربة إلى بناء كائن ذكاء اصطناعي يتمتع بـ"ثبات" و"نوايا سلوكية مستقلة"، مما يمثل خطوة مهمة نحو بناء كيان ذكي مستقل.
منصة محاكاة سلوك الذكاء الاصطناعي: طورت نوس أيضًا العديد من المحاكيات، بما في ذلك WorldSim وDoomscroll وGods وS8n، وغيرها، لدراسة التطور السلوكي وآلية تكوين القيم للذكاء الاصطناعي في بيئة اجتماعية متعددة الأدوار. على الرغم من عدم مشاركتها المباشرة في عملية التدريب، إلا أن هذه التجارب تُرسي الأساس الدلالي للنمذجة السلوكية المعرفية للذكاء الاصطناعي المستقل طويل الأمد. 4. نظرة عامة على الفريق والتمويل: تأسست شركة Nous Research عام 2023، وشارك في تأسيسها كل من جيفري كيسنيل (الرئيس التنفيذي)، وكاران مالهوترا، وتكنيوم، وشيفاني ميترا، وآخرين. يركز الفريق على كل من الهندسة القائمة على الفلسفة وهندسة النظم، ولديه خلفيات متنوعة في التعلم الآلي، وأمن النظم، والشبكات اللامركزية. في عام 2024، حصل على تمويل أولي بقيمة 5.2 مليون دولار. في أبريل 2025، أكمل تمويلًا من الفئة A بقيمة 50 مليون دولار بقيادة Paradigm، بقيمة مليار دولار، ليصبح واحدًا من شركات الذكاء الاصطناعي الناشئة في Web3.
Flock: شبكة تعلّم اتحادية مُحسّنة بتقنية بلوكتشينFlock.io هي منصة تعلّم اتحادية قائمة على بلوكتشين، تهدف إلى لامركزية البيانات والحوسبة والنماذج لتدريب الذكاء الاصطناعي. تُفضّل FLock الإطار المتكامل "التعلّم الاتحادي + طبقة مكافآت بلوكتشين"، والذي يُعدّ في جوهره تطورًا على السلسلة لبنية FL التقليدية بدلًا من البحث المنهجي لبناء بروتوكول تدريب جديد. بالمقارنة مع مشاريع التدريب اللامركزية مثل Gensyn وPrime Intellect وNous Research وPluralis، تُركّز Flock على حماية الخصوصية وتحسين قابلية الاستخدام بدلًا من الاكتشافات النظرية في أساليب الاتصال والتحقق والتدريب. أهدافها الرئيسية هي أنظمة التعلم الاتحادي مثل Flower وFedML وOpenFL. ١. الآلية الأساسية لـ Flock.io: بنية التعلم الفيدرالي: مع التركيز على سيادة البيانات وحماية الخصوصية. يعتمد Flock على نموذج التعلم الفيدرالي (FL) الكلاسيكي، مما يسمح لمالكي البيانات المتعددين بتدريب نموذج موحد بشكل تعاوني دون مشاركة البيانات الأصلية، مع التركيز على حل مشكلات سيادة البيانات والأمان والثقة. تتضمن العملية الأساسية ما يلي: التدريب المحلي: يقوم كل مشارك (مُقترح) بتدريب النموذج على الجهاز المحلي دون تحميل البيانات الأصلية؛ التجميع على السلسلة: بعد اكتمال التدريب، يُرسل مُعدّن السلسلة تحديث الوزن المحلي ويُجمعه في نموذج عالمي؛ تقييم اللجنة: يختار VRF عُقد Voter عشوائيًا لاستخدام مجموعات اختبار مستقلة لتقييم تأثير النموذج المُجمع وتسجيله؛ الحوافز والعقوبات: تُنفَّذ المكافآت أو مصادرة الضمانات وفقًا لنتائج التقييم لضمان مكافحة الاحتيال والحفاظ على الثقة الديناميكية. تكامل بلوكتشين: تحقيق تنسيق نظام بدون ثقة. يضع فلوك جميع الروابط الأساسية لعملية التدريب (تخصيص المهام، وتقديم النماذج، والتقييم والتسجيل، وتنفيذ الحوافز) على السلسلة لتحقيق شفافية النظام، وقابلية التحقق، ومكافحة الرقابة. تشمل الآليات الرئيسية: آلية الانتخاب العشوائي VRF: تحسين نزاهة تناوب المُقترح والناخبين وقدرتهم على مكافحة التلاعب؛ آلية الرهن العقاري (PoS): تقييد سلوك العقدة من خلال الرهن العقاري الرمزي والعقوبات لتحسين متانة النظام؛ التنفيذ التلقائي للحوافز على السلسلة: من خلال العقود الذكية، وتوزيع المكافآت، وتخفيض العقوبات المرتبطة بإكمال المهام ونتائج التقييم، يتم تحقيق ذلك لبناء شبكة تعاونية دون الاعتماد على وسطاء. zkFL: ابتكار لحماية الخصوصية من خلال آلية تجميع المعرفة الصفرية: تقدم Flock آلية تجميع المعرفة الصفرية zkFL، والتي تُمكّن المُقترح من إرسال أدلة المعرفة الصفرية المُحدثة محليًا، ويمكن للناخب التحقق من صحتها دون الوصول إلى التدرج الأصلي، مما يُحسّن مصداقية عملية التدريب مع ضمان الخصوصية، ويُمثل ابتكارًا مهمًا في دمج حماية الخصوصية وإمكانية التحقق في التعلم الفيدرالي. 2. مكونات منتج Flock الأساسية: AI Arena: منصة تدريب لامركزية تابعة لـ Flock.io. يمكن للمستخدمين المشاركة في مهام النماذج عبر train.flock.io، والعمل كمدربين أو محققين أو مفوضين، والحصول على مكافآت مقابل إرسال النماذج أو تقييم الأداء أو تفويض الرموز. حاليًا، تم إصدار المهام رسميًا، وسيتم فتحها تدريجيًا أمام المجتمع للمشاركة في إنشائها مستقبلًا. تحالف FL: هو عميل تعليمي تابع لـ Flock، يدعم المشاركين لتحسين النموذج باستخدام بيانات خاصة. من خلال انتخاب VRF، وآليات الرهان والتجزئة، يتم ضمان النزاهة والكفاءة التعاونية لعملية التدريب، وهو الرابط الرئيسي بين التدريب الأولي للمجتمع والنشر الفعلي. سوق الذكاء الاصطناعي: منصة لإنشاء النماذج ونشرها بشكل مشترك، حيث يمكن للمستخدمين اقتراح النماذج، والمساهمة بالبيانات، وطلب خدمات النماذج. يدعم الوصول إلى قواعد البيانات، والتفكير المعزز بـ RAG، ويشجع على تنفيذ نماذج الذكاء الاصطناعي وتداولها في سيناريوهات عملية مختلفة.
III. نظرة عامة على الفريق والتمويل: أسس Sun Jiahao Flock.io، وأصدر رمز المنصة FLOCK. جمع المشروع ما مجموعه 11 مليون دولار أمريكي، مع مستثمرين بما في ذلك DCG وLightspeed Faction وTagus Capital وAnimoca Brands وFenbushi وOKX Ventures وغيرها. في مارس 2024، أكملت Flock جولة تمويل أولية بقيمة 6 ملايين دولار أمريكي لإطلاق شبكة الاختبار وعميل التعلم الفيدرالي؛ وفي ديسمبر من نفس العام، أضافت 3 ملايين دولار أمريكي في التمويل وحصلت على تمويل من مؤسسة Ethereum للتركيز على البحث في آليات حوافز الذكاء الاصطناعي التي تعتمد على تقنية blockchain. في الوقت الحالي، أنشأت المنصة 6428 نموذجًا، متصلة بـ 176 عقدة تدريب و236 عقدة تحقق و1178 مفوضًا.
بالمقارنة مع مشاريع التدريب اللامركزية، تتمتع أنظمة التعلم الفيدرالية مثل Flock بمزايا أكبر في كفاءة التدريب وقابلية التوسع وحماية الخصوصية، وخاصة للتدريب التعاوني للنماذج الصغيرة والمتوسطة الحجم. الحل عملي وسهل التنفيذ، ويميل أكثر إلى تحسين الجدوى على المستوى الهندسي؛ بينما تسعى مشاريع مثل Gensyn وPluralis إلى تحقيق اختراقات نظرية أعمق في أساليب التدريب وآليات الاتصال. تحديات النظام أكبر، لكنها أيضًا أقرب إلى استكشاف نموذج التدريب "اللامركزي وغير الموثوق". EXO: محاولة تدريب لامركزي للحوسبة الطرفية. يُعد EXO مشروع ذكاء اصطناعي نموذجيًا للغاية في سيناريو الحوسبة الطرفية الحالي، وهو مخصص لتحقيق تدريب ذكاء اصطناعي خفيف الوزن، والتفكير المنطقي، وتطبيقات الوكلاء على أجهزة المستهلكين المنزلية. يركز مسار التدريب اللامركزي على "انخفاض تكلفة الاتصالات + التنفيذ الذاتي المحلي"، ويعتمد خوارزمية المزامنة المتأخرة غير المتزامنة DiLoCo وآلية تبادل المعلمات المتفرقة SPARTA لتقليل متطلبات النطاق الترددي بشكل كبير للتدريب التعاوني متعدد الأجهزة. على مستوى النظام، لم تقم EXO ببناء شبكة على السلسلة أو تقديم آلية حوافز اقتصادية، ولكنها أطلقت إطار عمل محاكاة متعدد العمليات لجهاز واحد EXO Gym، والذي يدعم الباحثين لإجراء التحقق السريع والتجارب بسهولة على أساليب التدريب الموزعة في بيئة محلية. 1. نظرة عامة على الآليات الأساسية تدريب DiLoCo غير المتزامن: يتم إجراء مزامنة العقدة كل H خطوات للتكيف مع الشبكات غير المستقرة؛ مزامنة SPARTA المتفرقة: يتم تبادل عدد صغير جدًا من المعلمات (مثل 0.1٪) في كل خطوة للحفاظ على ملاءمة النموذج وتقليل متطلبات النطاق الترددي؛ تحسين التركيبة غير المتزامنة: يمكن استخدام الاثنين معًا لتحقيق حل وسط أفضل بين الاتصال والأداء. استكشاف آلية التحقق evML: يقترح التعلم الآلي الذي تم التحقق منه من الحافة (evML) استخدام TEE / السياق الآمن للتحقق من الحوسبة منخفض التكلفة، ويحقق المشاركة الموثوقة لأجهزة الحافة دون المراهنة من خلال التحقق عن بعد + آلية الفحص العشوائي، وهو حل وسط هندسي بين الأمن الاقتصادي وحماية الخصوصية. ٢. الأدوات وتطبيقات السيناريوهات: EXO Gym: يُحاكي بيئات تدريب متعددة العقد على جهاز واحد، ويدعم تجارب استراتيجيات الاتصال لنماذج مثل NanoGPT وCNN وDiffusion، وغيرها. تطبيق EXO Desktop: أدوات ذكاء اصطناعي سطح مكتب للمستخدمين الأفراد، تدعم ميزات شخصية صديقة للخصوصية، مثل تشغيل النماذج الكبيرة محليًا، والتحكم في مرآة iPhone، وتكامل السياقات الخاصة (مثل الرسائل القصيرة والتقويم وتسجيل الفيديو). يُشبه EXO Gym مشروع تجربة تدريب لامركزية قائم على الاستكشاف، ويدمج بشكل أساسي تقنيات ضغط الاتصالات الحالية (مثل DiLoCo وSPARTA) لتحقيق مسارات تدريب سهلة الاستخدام. بالمقارنة مع مشاريع مثل Gensyn وNous وPluralis، لم تدخل EXO بعد المراحل الأساسية للتعاون على السلسلة، أو آليات الحوافز القابلة للتحقق، أو النشر الفعلي للشبكات الموزعة. محرك السلسلة الأمامية للتدريب اللامركزي: دراسة شاملة لمرحلة ما قبل تدريب النموذج
في مواجهة التحديات الجوهرية للتدريب اللامركزي، مثل تباين الأجهزة، واختناقات الاتصال، وصعوبات التنسيق، وضعف التنفيذ الموثوق، اقترحت شركات Gensyn وPrime Intellect وPluralis وNous Research مسارات معمارية مختلفة للنظام. من منظور أساليب التدريب وآليات الاتصال، أظهرت هذه المشاريع الأربعة تركيزها التقني الفريد ومنطق التنفيذ الهندسي.
فيما يتعلق بتحسين أساليب التدريب، استكشفت المشاريع الأربعة أبعادًا رئيسية مثل الاستراتيجيات التعاونية، وآليات التحديث، والتحكم غير المتزامن، مغطيةً مراحل مختلفة من مرحلة ما قبل التدريب إلى مرحلة ما بعده. PRIME-RL من Prime Intellect هو هيكل جدولة غير متزامن لمرحلة ما قبل التدريب. من خلال استراتيجية "التدريب المحلي + المزامنة الدورية"، يُحقق آلية جدولة تدريب فعّالة وقابلة للتحقق في بيئة غير متجانسة. تتميز هذه الطريقة بتنوع ومرونة كبيرين. الابتكار النظري كبير، ويُقترح نموذج واضح في هيكل التحكم بالتدريب؛ صعوبة التنفيذ الهندسي تتراوح بين المتوسطة والعالية، وهناك متطلبات عالية لوحدات الاتصال والتحكم الأساسية. يركز مُحسِّن DeMo الذي أطلقته Nous Research على مشكلة استقرار التدريب في بيئة غير متزامنة منخفضة النطاق الترددي، ويُحقق عملية تحديث متدرجة عالية التحمل للأخطاء في ظل ظروف وحدة معالجة الرسومات غير المتجانسة. يُعد هذا الحل أحد الحلول القليلة التي نجحت في توحيد النظرية والهندسة في "حلقة مغلقة لضغط الاتصالات غير المتزامنة". يتميز هذا الحل بابتكار نظري كبير، لا سيما في مسار التعاون للضغط والجدولة؛ كما أن صعوبة التنفيذ الهندسي عالية جدًا، لا سيما بالاعتماد على دقة تنسيق التوازي غير المتزامن.
يُعد نظام SWARM + NAG من Pluralis أحد أكثر التصاميم منهجيةً وتطورًا في مسار التدريب غير المتزامن الحالي. يعتمد هذا النظام على إطار عمل التوازي غير المتزامن للنماذج، ويُقدم اتصالات متفرقة في مساحة الأعمدة وتصحيح زخم NAG، ويُنشئ حل تدريب نموذجي كبير قادر على التقارب بثبات في ظل ظروف النطاق الترددي المنخفض. يتميز هذا النظام بابتكار نظري كبير، ويُعتبر رائدًا هيكليًا في التدريب التعاوني غير المتزامن؛ كما أن صعوبة التنفيذ الهندسي عالية جدًا، مما يتطلب تكاملًا عميقًا بين المزامنة متعددة المستويات وتجزئة النماذج.
يخدم مشروع Gensyn's RL Swarm بشكل رئيسي مرحلة ما بعد التدريب، مع التركيز على ضبط السياسات والتعلم التعاوني بين الوكلاء. تتبع عملية التدريب فيه عملية من ثلاث خطوات هي "التوليد - التقييم - التصويت"، وهي مناسبة بشكل خاص للتعديل الديناميكي للسلوكيات المعقدة في الأنظمة متعددة الوكلاء. يتميز الابتكار النظري بمستوى متوسط إلى مرتفع، وينعكس بشكل رئيسي في منطق تعاون الوكلاء؛ كما أن صعوبة التنفيذ الهندسي متوسطة، ويكمن التحدي الرئيسي في جدولة النظام والتحكم في تقارب السلوك.
على مستوى تحسين آلية الاتصال، تتميز هذه المشاريع الأربعة أيضًا بتصميماتها المستهدفة الخاصة، وتركز بشكل عام على حلول منهجية لاختناقات النطاق الترددي، وتباين العقد، ومشاكل استقرار الجدولة.
تُعد مكتبة PCCL من Prime Intellect مكتبة اتصالات منخفضة المستوى، تُستخدم لتحل محل مكتبة NCCL التقليدية، وتهدف إلى توفير أساس اتصال جماعي أكثر متانة لبروتوكول التدريب عالي المستوى. يتميز الابتكار النظري بمستوى متوسط إلى مرتفع، مع تحقيق إنجازات في خوارزميات الاتصال المقاومة للأخطاء؛ كما أن صعوبة الهندسة متوسطة، وتتميز بقدرة عالية على التكيف مع الوحدات.
تُعد وحدة DisTrO من Nous Research وحدة الاتصالات الأساسية في DeMo، حيث تُركز على الحد الأدنى من تكاليف الاتصالات في ظل النطاق الترددي المنخفض مع ضمان استمرارية حلقة التدريب المغلقة. يتميز الابتكار النظري بمستوى عالٍ، وله قيمة تصميمية عالمية في هيكل تنسيق الجدولة؛ كما أن صعوبة الهندسة عالية، وتتطلب متطلبات عالية لدقة الضغط ومزامنة التدريب. آلية اتصال Pluralis مدمجة بعمق في بنية SWARM، مما يقلل بشكل كبير من عبء الاتصال في التدريب غير المتزامن للنماذج الكبيرة، ويحافظ على كفاءة الإنتاجية مع ضمان التقارب. تتميز هذه الآلية بابتكار نظري كبير، وتضع نموذجًا لتصميم اتصالات النماذج غير المتزامنة؛ صعوبة هندسية عالية للغاية، وتعتمد على تنسيق النموذج الموزع والتحكم في التشتت الهيكلي. SkipPipe من Gensyn هو مكون جدولة متسامح مع الأخطاء لـ RL Swarm. يتميز هذا الحل بتكلفة نشر منخفضة، ويُستخدم بشكل رئيسي لتعزيز استقرار التدريب في طبقة الهبوط الهندسية. الابتكار النظري متوسط، وهو أقرب إلى تطبيق هندسي لآليات معروفة؛ صعوبة هندسية منخفضة نسبيًا، ولكنه عملي للغاية في النشر الفعلي.
بالإضافة إلى ذلك، يمكننا قياس قيمة مشاريع التدريب اللامركزية من فئتين رئيسيتين أخريين: طبقة تعاون البلوكشين وطبقة تدريب الذكاء الاصطناعي:
طبقة تعاون البلوكشين: التركيز على مصداقية البروتوكول ومنطق التعاون الحافز
إمكانية التحقق: ما إذا كانت عملية التدريب قابلة للتحقق وما إذا تم تقديم آلية اللعبة أو التشفير لإنشاء الثقة؛
آلية الحوافز: ما إذا تم تصميم آلية مكافأة/دور رمزية مدفوعة بالمهمة؛
عتبة الانفتاح والدخول: ما إذا كانت العقدة سهلة الوصول إليها، وما إذا كانت مركزية أو خاضعة للتحكم في الأذونات.
مستوى نظام تدريب الذكاء الاصطناعي: إبراز القدرات الهندسية وإمكانية الوصول إلى الأداء
آلية الجدولة والتسامح مع الأخطاء: ما إذا كانت الجدولة متسامحة مع الأخطاء، أو غير متزامنة، أو ديناميكية، أو موزعة؛
تحسين طريقة التدريب: ما إذا كانت خوارزمية أو هيكل تدريب النموذج مُحسَّنًا؛
تحسين مسار الاتصال: ما إذا كانت التدرجات مضغوطة/يتم استخدام الاتصال المتفرق للتكيف مع النطاق الترددي المنخفض.
يُقيِّم الجدول التالي بشكل منهجي العمق التقني والنضج الهندسي والابتكار النظري لشركة Gensyn وPrime Intellect وPluralis وNous Research على مسار التدريب اللامركزي بناءً على نظام المؤشرات أعلاه.
بيئة السلسلة الخلفية للتدريب اللامركزي: ضبط النموذج بناءً على LoRA
في سلسلة القيمة الكاملة للتدريب اللامركزي، تركز مشاريع مثل Prime Intellect وPluralis.ai وGensyn وNous Research بشكل أساسي على بناء البنية التحتية الأمامية مثل التدريب المسبق للنموذج وآلية الاتصال والتحسين التعاوني. مع ذلك، يُركز نوع آخر من المشاريع على الضبط الدقيق لما بعد التدريب وتقديم الاستدلالات، ولا يُشارك مباشرةً في عمليات التدريب المنهجية مثل التدريب المسبق، ومزامنة المعاملات، وتحسين الاتصالات. من بين المشاريع النموذجية: Bagel وPond وRPS Labs، وجميعها تعتمد على طريقة الضبط الدقيق لـ LoRA، مُشكلةً حلقة وصل رئيسية "ما بعد السلسلة" في نظام التدريب اللامركزي. LoRA + DPO: مسار واقعي لنشر الضبط الدقيق لـ Web3. LoRA (التكيف منخفض الرتبة) هي طريقة فعّالة لضبط المعاملات بدقة. تتمثل فكرتها الأساسية في إدراج مصفوفات منخفضة الرتبة في نماذج كبيرة مُدربة مسبقًا لتعلم مهام جديدة مع تجميد معاملات النموذج الأصلية. تُقلل هذه الاستراتيجية بشكل كبير من تكاليف التدريب واستهلاك الموارد، وتُحسّن سرعة الضبط الدقيق ومرونة النشر، وهي مناسبة بشكل خاص لسيناريوهات Web3 التي تتميز بالوحدات النمطية والمكالمات المُركّبة. غالبًا ما تحتوي نماذج اللغات الكبيرة التقليدية، مثل LLaMA وGPT-3، على مليارات أو حتى مئات المليارات من المعلمات، كما أن الضبط الدقيق المباشر مكلف. يحقق LoRA تكيفًا فعالًا للنماذج الكبيرة من خلال تدريب عدد صغير فقط من مصفوفات المعلمات المُدرجة، ليصبح من أكثر الطرق شيوعًا وعمليةً في الوقت الحالي. **تحسين التفضيلات المباشر (DPO)** هو أسلوب تدريب لاحق لنموذج اللغة، ظهر في السنوات الأخيرة. يُستخدم غالبًا بالتزامن مع آلية الضبط الدقيق LoRA لمرحلة مواءمة سلوك النموذج. بالمقارنة مع أسلوب RLHF (التعلم التعزيزي من التغذية الراجعة البشرية) التقليدي، يحقق DPO تعلم التفضيلات من خلال التحسين المباشر للعينات المقترنة، مما يُغني عن عملية نمذجة المكافآت المعقدة وعملية التعلم التعزيزي. يتميز ببنية أبسط وتقارب أكثر استقرارًا، وهو مناسب بشكل خاص لمهام الضبط الدقيق في البيئات خفيفة الوزن ومحدودة الموارد. بفضل كفاءته العالية وسهولة استخدامه، أصبح DPO تدريجيًا الحل الأمثل للعديد من مشاريع الذكاء الاصطناعي اللامركزية في مرحلة محاذاة النموذج.
التعلم المعزز (RL): التطور المستقبلي للضبط الدقيق لما بعد التدريب
من منظور طويل المدى، ينظر عدد متزايد من المشاريع إلى التعلم المعزز (RL) كمسار أساسي يتميز بقدرة أكبر على التكيف وإمكانات تطورية في التدريب اللامركزي. بالمقارنة مع التعلم المُشرف أو آليات ضبط المعلمات التي تعتمد على البيانات الثابتة، يُركز التعلم المعزز على التحسين المستمر للاستراتيجيات في بيئة ديناميكية، مما يتناسب بشكل طبيعي مع نمط التعاون غير المتزامن والمتنوع والقائم على الحوافز في شبكة Web3. من خلال التفاعل المستمر مع البيئة، يُمكن للتعلم التعزيزي تحقيق عملية تعلم تدريجية مُخصصة للغاية ومتواصلة، مما يُوفر بنية تحتية "ذكاء سلوكي" قابلة للتطوير لبناء شبكات الوكلاء، وأسواق المهام على السلسلة، والاقتصادات الذكية. هذا النموذج لا يتوافق تمامًا مع مفهوم اللامركزية فحسب، بل يتميز أيضًا بمزايا نظامية مهمة. ومع ذلك، نظرًا لمحدودية عتبة الهندسة العالية وآلية الجدولة المعقدة، لا يزال التعلم التعزيزي يواجه تحديات كبيرة في تطبيقه في المرحلة الحالية، ويصعب الترويج له على نطاق واسع على المدى القصير. تجدر الإشارة إلى أن نظامي PRIME-RL من Prime Intellect وRL Swarm من Gensyn يُساهمان في تطوير التعلم التعزيزي من آلية ضبط دقيقة بعد التدريب إلى هيكل رئيسي قبل التدريب، في محاولة لبناء نظام تدريب تعاوني يُركز على التعلم التعزيزي دون تنسيق قائم على الثقة. باجل (zkLoRA): طبقة تحقق موثوقة لضبط LoRA بدقة. يعتمد باجل على آلية ضبط LoRA بدقة، ويُقدم تقنية إثبات المعرفة الصفرية (ZK) لحل مشاكل المصداقية وحماية الخصوصية في عملية "ضبط النموذج على السلسلة بدقة". لا يشارك zkLoRA في حسابات التدريب الفعلية، ولكنه يوفر آلية سهلة الاستخدام وقابلة للتحقق، تتيح للمستخدمين الخارجيين التأكد من أن النموذج المُضبط بدقة مشتق بالفعل من نموذج أساسي ومعلمات LoRA محددة دون الحاجة إلى الوصول إلى البيانات أو الأوزان الأصلية. بخلاف Verde من Gensyn أو TOPLOC من Prime Intellect، واللذين يركزان على التحقق الديناميكي من "ما إذا كان السلوك قد حدث بالفعل" أثناء عملية التدريب، يركز باجل بشكل أكبر على التحقق الثابت من "مصداقية نتائج الضبط الدقيق". الميزة الأكبر لـ zkLoRA هي استهلاكها المنخفض لموارد التحقق وحماية الخصوصية القوية، إلا أن نطاق تطبيقها يقتصر عادةً على مهام الضبط الدقيق بتغييرات طفيفة في المعلمات.
Pond هو مشروع التدريب اللامركزي الوحيد في هذا المجال الذي يركز على الضبط الدقيق للشبكات العصبية الرسومية (GNN)، ويخدم تطبيقات البيانات المنظمة مثل الرسوم البيانية المعرفية، والشبكات الاجتماعية، والرسوم البيانية للمعاملات. يوفر منصة تدريب واستدلال خفيفة الوزن وقابلة للتحكم للمهام الشخصية، من خلال دعم المستخدمين لتحميل بيانات هيكل الرسم البياني والمشاركة في ملاحظات تدريب النموذج.
يستخدم Pond أيضًا آليات ضبط دقيق فعّالة مثل LoRA. هدفها الأساسي هو إنشاء نظام عملاء ذكي معياري وقابل للنشر على بنية GNN، مما يفتح آفاقًا جديدة لاستكشاف "الضبط الدقيق للنماذج الصغيرة والتعاون متعدد العملاء" في سياق لامركزي.
RPS Labs: محرك سيولة قائم على الذكاء الاصطناعي للتمويل اللامركزي
RPS Labs هو مشروع تدريب لامركزي قائم على بنية Transformer، مخصص لاستخدام نماذج ذكاء اصطناعي مُعدّلة بدقة لإدارة سيولة التمويل اللامركزي، ويتم نشره بشكل رئيسي في منظومة Solana. منتجها الرئيسي UltraLiquid هو محرك نشط لصناعة السوق يستخدم نماذج مُعدّلة بدقة لضبط معايير السيولة ديناميكيًا، وتقليل الانزلاق، وزيادة العمق، وتحسين إصدار الرموز وتجربة التداول.
بالإضافة إلى ذلك، أطلقت RPS أيضًا أداة UltraLP لدعم مزودي السيولة لتحسين استراتيجيات تخصيص الأموال الخاصة بهم على DEX في الوقت الفعلي، وبالتالي تحسين كفاءة رأس المال وتقليل مخاطر الخسارة غير الدائمة، مما يعكس القيمة العملية لضبط الذكاء الاصطناعي في السيناريوهات المالية.
من محرك السلسلة الأمامية إلى بيئة السلسلة الخلفية: الطريق إلى الأمام للتدريب اللامركزي
في الخريطة البيئية الكاملة للتدريب اللامركزي، يمكن تقسيم الكل إلى فئتين: يتوافق محرك السلسلة الأمامية مع مرحلة ما قبل التدريب للنموذج، وتتوافق بيئة السلسلة الخلفية مع مرحلة نشر الضبط الدقيق للنموذج، مما يشكل حلقة مغلقة كاملة من البنية التحتية إلى هبوط التطبيق. يركز محرك السلسلة الأمامية على بناء البروتوكول الأساسي للتدريب المسبق للنماذج، والذي تمثله مشاريع مثل Prime Intellect وNous Research وPluralis.ai وGensyn. وتلتزم هذه المشاريع بإنشاء بنية نظام تتميز بتحديثات غير متزامنة، واتصالات متفرقة، وقابلية للتحقق من التدريب، وتحقيق قدرات تدريب موزعة فعالة وموثوقة في بيئة شبكة لا تعتمد على الثقة، وتشكيل الأساس التقني للتدريب اللامركزي. في الوقت نفسه، يدمج Flock، بصفته ممثلاً للطبقة الوسطى، من خلال مسار التعلم الفيدرالي، تجميع النماذج، والتحقق على السلسلة، وآليات الحوافز متعددة الأطراف، ويؤسس جسرًا عمليًا وتعاونيًا بين التدريب والنشر، مما يوفر نموذجًا عمليًا للتعلم التعاوني متعدد العقد. تركز بيئة ما بعد السلسلة على ضبط النموذج ونشر طبقة التطبيقات. تتمحور مشاريع مثل Pond وBagel وRPS Labs حول أسلوب ضبط LoRA الدقيق: يوفر Bagel آلية تحقق موثوقة على السلسلة، بينما يركز Pond على تطوير نماذج صغيرة من الشبكات العصبية البيانية، بينما يطبق RPS نموذج الضبط الدقيق هذا على صناعة السوق الذكية في سيناريوهات التمويل اللامركزي. من خلال مكونات مثل واجهة برمجة التطبيقات المنطقية ومجموعة أدوات تطوير برامج الوكلاء، توفر هذه المشاريع للمطورين والمستخدمين النهائيين استدعاءات نماذج قابلة للتكوين وحلول تخصيص شخصية، وهي نقطة انطلاق مهمة لتطبيق الذكاء الاصطناعي اللامركزي.
نؤمن بأن التدريب اللامركزي ليس مجرد امتداد طبيعي لروح سلسلة الكتل في عصر الذكاء الاصطناعي، بل هو أيضًا النموذج الأولي للبنية التحتية لنظام إنتاجية ذكي تعاوني عالمي. في المستقبل، عندما نستعيد هذه الرحلة الصعبة، سنظل نشجع بعضنا البعض على هذا الهدف الأصلي: اللامركزية ليست مجرد وسيلة، بل هي قيمة بحد ذاتها.
Preview
احصل على فهم أوسع لصناعة العملات المشفرة من خلال التقارير الإعلامية، وشارك في مناقشات متعمقة مع المؤلفين والقراء الآخرين ذوي التفكير المماثل. مرحبًا بك للانضمام إلينا في مجتمع Coinlive المتنامي:https://t.me/CoinliveSG