المؤلف: بول فيراديتاكيت، شريك في بانتيرا كابيتال؛ المترجم: جينس فاينانس شياوزو
الملخص:
VLAيقود الابتكار والحجم ولادة روبوتات بشرية بأسعار معقولة وفعالة وعالمية.
مع توسع روبوتات المستودعات في سوق روبوتات المستهلك، تستحق سلامة الروبوتات وآليات التمويل والتقييم مزيدًا من الاستكشاف.
ستدفع تقنية التشفير عجلة تطوير صناعة الروبوتات من خلال توفير ضمانات اقتصادية لسلامة الروبوتات وتحسين بنيتها التحتية للرسو وزمن الوصول وعمليات جمع البيانات.
يُغير ChatGPT التوقعات البشرية للذكاء الاصطناعي تمامًا. عندما بدأت نماذج اللغة الكبيرة بالتفاعل مع عالم البرمجيات الخارجي، اعتقد الكثيرون أن وكلاء الذكاء الاصطناعي هم الشكل الأمثل. ولكن إذا تأملتَ أفلام الخيال العلمي الكلاسيكية مثل "حرب النجوم" و"بليد رانر" و"روبوكوب"، ستجد أن ما يحلم به البشر حقًا هو قدرة الذكاء الاصطناعي على التفاعل مع العالم المادي من خلال الروبوتات.
من وجهة نظر بانتيرا كابيتال، فإن "لحظة ChatGPT" في مجال الروبوتات قادمة. سنحلل أولًا كيف غيّرت الاختراقات في مجال الذكاء الاصطناعي مشهد الصناعة في السنوات القليلة الماضية، ثم نستكشف كيف ستُشكّل تكنولوجيا البطاريات وتحسين زمن الوصول وتحسينات جمع البيانات المشهد المستقبلي، ودور تكنولوجيا التشفير في ذلك. وأخيرًا، سنشرح لماذا نعتقد أن سلامة الروبوتات وتمويلها وتقييمها وتعليمها هي المجالات الرئيسية التي يجب التركيز عليها. 1. عوامل التغيير: (1) إنجازٌ في الذكاء الاصطناعي: تُزوّد التطورات في مجال نماذج اللغات الكبيرة متعددة الوسائط الروبوتات بالقدرات اللازمة لأداء مهام معقدة. تُدرك الروبوتات البيئة بشكل رئيسي من خلال حاستين: البصر والسمع. تُجيد نماذج الرؤية الحاسوبية التقليدية (مثل الشبكات العصبية التلافيفية) مهام كشف الأجسام وتصنيفها، لكنها تواجه صعوبة في تحويل المعلومات المرئية إلى تعليمات عملية هادفة. على الرغم من أن نماذج اللغات الكبيرة تُحسّن أداءها في فهم النصوص وتوليدها، إلا أن قدرتها على إدراك العالم المادي محدودة. من خلال نموذج الرؤية واللغة والفعل (VLA)، تستطيع الروبوتات دمج الإدراك البصري وفهم اللغة والحركات الجسدية في إطار حوسبة موحد. في فبراير 2025، أصدرت شركة Figure AI نموذج Helix، وهو نموذج تحكم عالمي بالروبوتات البشرية. يُرسي نموذج VLA هذا معيارًا جديدًا في هذه الصناعة بفضل قدرته على التعميم الفوري وبنيته الثنائية بين النظامين 1 و2. تتيح ميزة التعميم الفوري للروبوتات التكيف الفوري مع المشاهد والأشياء والتعليمات الجديدة دون الحاجة إلى تدريب متكرر لكل مهمة. يفصل هيكل النظام ١/النظام ٢ بين التفكير عالي المستوى والتفكير البسيط، مما يُنتج روبوتًا بشريًا تجاريًا يتمتع بتفكير بشري ودقة آنية.
(٢)الروبوتات بأسعار معقولة تصبح حقيقة واقعة
تشترك جميع التقنيات التي تُغير العالم في ميزة واحدة، وهي سهولة الوصول. أصبحت الهواتف الذكية، وأجهزة الكمبيوتر الشخصية، وتقنيات الطباعة ثلاثية الأبعاد متاحة بأسعار في متناول الطبقة المتوسطة. عندما تكون تكلفة روبوتات مثل Unitree G1 أقل من سيارة هوندا أكورد سيدان أو أقل من الحد الأدنى للدخل السنوي البالغ 34,000 دولار أمريكي في الولايات المتحدة، فليس من المستغرب أن نتخيل عالمًا تُنجز فيه الروبوتات العمل اليدوي والمهام اليومية بشكل رئيسي.

(3)من التخزين إلى أسواق المستهلكين
تتوسع الروبوتات من حلول التخزين إلى قطاع المستهلكين. صُمم العالم للبشر - يمكن للبشر القيام بجميع أعمال الروبوتات الاحترافية، لكن الروبوتات الاحترافية لا يمكنها القيام بكل عمل البشر. لم تعد شركات الروبوتات تقتصر على تصنيع روبوتات مخصصة للمصانع، بل تعمل على تطوير روبوتات بشرية متعددة الاستخدامات. لذلك، لا يقتصر استخدام تكنولوجيا الروبوتات على المستودعات فحسب، بل سيشمل الحياة اليومية أيضًا.
تُعدّ التكلفة من أهمّ المعوقات التي تعيق التوسع. المقياس الذي نوليه اهتمامًا بالغًا هو التكلفة الشاملة للساعة، والتي تُحسب بمجموع تكلفة الفرصة البديلة للتدريب ووقت الشحن، وتكلفة تنفيذ المهمة، وتكلفة اقتناء الروبوت، مقسومًا على إجمالي وقت تشغيله. يجب أن تكون هذه التكلفة أقل من متوسط الأجور في القطاع المعني لتكون قادرة على المنافسة.

للانتشار الكامل في مجال التخزين، يجب أن تكون التكلفة الشاملة للروبوتات في الساعة أقل من 31.39 دولارًا. في أكبر سوق استهلاكي، وهو قطاع التعليم الخاص والخدمات الصحية، يجب أن تبقى التكلفة أقل من 35.18 دولارًا. تتطور الروبوتات حاليًا لتصبح أرخص وأكثر كفاءة وأكثر تنوعًا. 2. الإنجاز القادم في مجال الروبوتات (1) تحسين البطارية: لطالما شكلت تقنية البطاريات عقبة أمام الروبوتات سهلة الاستخدام. كان من الصعب ترويج السيارات الكهربائية المبكرة مثل BMW i3 بسبب قيود تقنية البطاريات، مما أدى إلى قصر عمر البطارية وارتفاع تكلفتها وانخفاض فعاليتها. تواجه الروبوتات نفس المعضلة. روبوت "سبوت" من "بوسطن ديناميكس" يعمل ببطارية واحدة لمدة 90 دقيقة فقط، بينما يعمل روبوت "يونيتري جي1" لمدة ساعتين تقريبًا. من الواضح أن المستخدمين لا يرغبون في الشحن يدويًا كل ساعتين، لذا أصبح الشحن الذاتي والالتحام بالبنية التحتية التوجه الرئيسي للتطوير. يوجد حاليًا وضعان رئيسيان لشحن الروبوت: استبدال البطارية أو الشحن المباشر.
يُتيح وضع تبديل البطارية التشغيل المستمر عن طريق استبدال البطاريات المستنفدة بسرعة، مما يُقلل من وقت التوقف، وهو مناسب للعمل في الميدان أو المصانع. يمكن إجراء هذه العملية يدويًا أو تلقائيًا.
يستخدم الشحن الحثي مصدر طاقة لاسلكيًا. على الرغم من أن الشحن الكامل يستغرق وقتًا طويلاً، إلا أنه يُمكن بسهولة أتمتة العملية بالكامل.
(2) تحسين زمن الوصول
يمكن تقسيم العمليات ذات زمن الوصول المنخفض إلى فئتين: الإدراك البيئي والتحكم عن بُعد. يشير الإدراك إلى الإدراك المكاني للروبوت للبيئة، بينما يشير التحكم عن بعد على وجه التحديد إلى التحكم في الوقت الفعلي من قبل المشغلين البشريين. p>
وفقًا لبحث Cintrini، تبدأ أنظمة إدراك الروبوت بأجهزة استشعار رخيصة، ولكن يكمن الخندق الفني في دمج البرامج والحوسبة منخفضة الطاقة وحلقات التحكم الدقيقة على مستوى الملي ثانية. عندما يكمل الروبوت تحديد الموقع المكاني، ستحدد الشبكات العصبية خفيفة الوزن العوائق أو المنصات أو البشر. بعد إدخال تسميات المشهد في نظام التخطيط، يتم إنشاء الأوامر الحركية المرسلة إلى الأقدام أو العجلات أو الأذرع الروبوتية على الفور. إن زمن انتقال الإدراك الذي يقل عن 50 مللي ثانية يعادل سرعة رد الفعل البشري - أي زمن انتقال أعلى من هذه العتبة سيؤدي إلى تحرك الروبوت بشكل أخرق. لذلك، يجب اتخاذ 90٪ من القرارات محليًا من خلال شبكة واحدة للرؤية واللغة والفعل. تحتاج الروبوتات ذاتية التشغيل بالكامل إلى ضمان أن يكون زمن انتقال نماذج VLA عالية الأداء أقل من 50 مللي ثانية؛ تتطلب الروبوتات التي يتم التحكم فيها عن بُعد ألا يتجاوز زمن انتقال الإشارة بين المشغل والروبوت 50 مللي ثانية. تبرز أهمية نماذج VLA بشكل خاص هنا - إذا تمت معالجة المدخلات المرئية والنصية بواسطة نماذج مختلفة ثم إدخالها في نموذج لغوي كبير، فإن زمن الانتقال الإجمالي سيتجاوز بكثير عتبة 50 مللي ثانية. (3) تحسين جمع البيانات هناك ثلاث طرق رئيسية لجمع البيانات: بيانات الفيديو في العالم الحقيقي، والبيانات الاصطناعية، والبيانات التي يتم التحكم فيها عن بُعد. يتمثل الاختناق الأساسي للبيانات الحقيقية والبيانات الاصطناعية في سد الفجوة بين السلوك المادي للروبوت ونماذج الفيديو/المحاكاة. تفتقر بيانات الفيديو الحقيقية إلى التفاصيل المادية مثل ردود الفعل القوية وأخطاء حركة المفصل وتشوه المواد؛ وتفتقر بيانات المحاكاة إلى متغيرات غير متوقعة مثل فشل المستشعر ومعامل الاحتكاك.
إن أكثر طرق جمع البيانات الواعدة هي التحكم عن بُعد - حيث يتحكم المشغل البشري عن بُعد في الروبوت لأداء المهام. ومع ذلك، فإن تكاليف العمالة هي القيد الرئيسي لجمع بيانات التحكم عن بُعد. يُوفر تطوير الأجهزة المُخصصة حلولاً جديدة لجمع بيانات عالية الجودة. تجمع ميكا بين الأساليب الشائعة والأجهزة المُخصصة لجمع بيانات حركة الإنسان متعددة الأبعاد، والتي تُعالج وتُحوّل إلى مجموعة بيانات مناسبة لتدريب الشبكات العصبية للروبوتات، كما تُوفر بيانات هائلة عالية الجودة لتدريب روبوتات الذكاء الاصطناعي بدورة تكرار سريعة. تُختصر هذه الأنابيب التقنية معًا مسار التحويل من البيانات الخام إلى روبوتات قابلة للنشر. 3 مجالات الاستكشاف الرئيسية: (1) دمج تقنية التشفير والروبوتات: يُمكن لتقنية التشفير أن تُحفز الأطراف غير الموثوقة على تحسين كفاءة شبكات الروبوتات. بناءً على المجالات الرئيسية المذكورة أعلاه، نعتقد أن التشفير يُمكن أن يُحسّن الكفاءة في ثلاثة جوانب: ربط البنية التحتية، وتحسين زمن الوصول، وجمع البيانات. من المتوقع أن تُحدث شبكة البنية التحتية المادية اللامركزية (DePIN) ثورة في البنية التحتية للشحن. عندما تعمل الروبوتات الشبيهة بالبشر عالميًا كالسيارات، يجب أن تكون محطات الشحن سهلة الوصول كمحطات الوقود. تتطلب الشبكات المركزية استثمارات أولية ضخمة، بينما يوزع DePIN التكاليف على مشغلي العقد، مما يسمح لمرافق الشحن بالتوسع بسرعة إلى مناطق أوسع.
يمكن لـ DePIN أيضًا تحسين زمن وصول التحكم عن بُعد باستخدام بنية تحتية موزعة. من خلال تجميع موارد حوسبة عقد الحافة الموزعة جغرافيًا، يمكن معالجة أوامر التحكم عن بُعد بواسطة العقد المحلية أو أقرب عقدة متاحة، مما يقلل مسافة نقل البيانات ويقلل بشكل كبير من زمن وصول الاتصالات. مع ذلك، تركز مشاريع DePIN الحالية بشكل رئيسي على التخزين اللامركزي، وتوزيع المحتوى، ومشاركة النطاق الترددي. على الرغم من أن بعض المشاريع تُظهر مزايا تطبيقات حوسبة الحافة في بث الوسائط أو إنترنت الأشياء، إلا أنها لم تمتد بعد إلى مجالات الروبوتات أو التحكم عن بُعد.
يُعد التحكم عن بُعد الطريقة الأكثر واعدة لجمع البيانات، إلا أن توظيف متخصصين لجمع البيانات أمر مكلف للغاية بالنسبة للكيانات المركزية. يحل DePIN هذه المشكلة من خلال تحفيز جهات خارجية على توفير بيانات التحكم عن بُعد من خلال رموز تشفيرية. يبني مشروع "Reborn" شبكة عالمية من المشغلين عن بُعد، ويحوّل مساهماتهم إلى أصول رقمية رمزية، ويشكل نظامًا لامركزيًا دون إذن - لا يمكن للمشاركين الحصول على المزايا فحسب، بل أيضًا المشاركة في الحوكمة والمساعدة في تدريب روبوتات الذكاء الاصطناعي العام.
(2) السلامة دائمًا شاغل أساسي
الهدف النهائي للروبوتات هو تحقيق الاستقلالية الكاملة، ولكن كما تُحذّر سلسلة أفلام "Terminator"، فإن البشر أكثر ترددًا في رؤية الاستقلالية تُحوّل الروبوتات إلى أسلحة هجومية. وقد جذبت قضايا أمن نماذج اللغة الكبيرة الانتباه، وعندما تتمتع هذه النماذج بقدرات فعل مادية، تُصبح سلامة الروبوت شرطًا أساسيًا للقبول الاجتماعي.
يُعد الأمن الاقتصادي أحد ركائز ازدهار منظومة الروبوتات. تعمل شركة OpenMind، وهي شركة متخصصة في هذا المجال، على بناء FABRIC، وهي طبقة تنسيق آلية لامركزية تُحقق مصادقة هوية الجهاز، والتحقق من الوجود المادي، والحصول على الموارد من خلال الإثبات التشفيري. بخلاف إدارة سوق المهام البسيطة، يُمكّن FABRIC الروبوتات من إثبات معلومات الهوية والموقع الجغرافي وسجلات السلوك بشكل مستقل دون الاعتماد على وسطاء مركزيين.
تُطبّق قيود السلوك ومصادقة الهوية على السلسلة، مما يضمن إمكانية تدقيق الامتثال من قِبل أي شخص. ستُكافأ الروبوتات التي تُلبي معايير السلامة ومتطلبات الجودة واللوائح الإقليمية، بينما سيُواجه المخالفون عقوبات أو استبعادًا، مما يُرسي آليات المساءلة والثقة في شبكات الآلات المستقلة.
يمكن لشبكات إعادة الرهان التابعة لجهات خارجية (مثل Symbiotic) أيضًا توفير ضمانات أمان من نظير إلى نظير. على الرغم من أن نظام معايير العقوبة لا يزال بحاجة إلى تحسين، إلا أن التكنولوجيا ذات الصلة قد دخلت المرحلة العملية. نتوقع صياغة إرشادات السلامة في الصناعة قريبًا، وسيتم تصميم معايير العقوبة بناءً على هذه الإرشادات.
مثال على التنفيذ:
انضمام شركة روبوتات إلى شبكة Symbiotic.
تحديد معايير قطع قابلة للتحقق (مثل "تطبيق قوة تلامس بشرية تتجاوز 2500 نيوتن")؛
يقدم المُراهن وديعة لضمان امتثال الروبوت للمعايير؛
في حال حدوث أي انتهاك، تُستخدم الوديعة كتعويض للضحية.
يُحفز هذا النموذج الشركات على إعطاء الأولوية للأمن، كما يُعزز قبول المستهلك من خلال آلية تأمين مجموعة التعهدات.
تتمثل رؤية فريق سيمبيوتيك في مجال الروبوتات فيما يلي:
يهدف إطار التعهد الشامل لشركة سيمبيوتيك إلى توسيع مفهوم التعهد ليشمل جميع المجالات التي تتطلب اعتماد الأمن الاقتصادي، سواءً من خلال نماذج مشتركة أو مستقلة. تتراوح سيناريوهات تطبيقه من التأمين إلى تكنولوجيا الروبوتات، وتتطلب تصميمًا خاصًا لحالات محددة. على سبيل المثال، يمكن بناء شبكة روبوتات بالكامل على إطار سيمبيوتيك، مما يسمح لأصحاب المصلحة بتقديم ضمانات مالية لسلامة الشبكة. ٤. سدّ الثغرات في مجموعة تقنيات الروبوتات. ساهم OpenAI في ترويج الذكاء الاصطناعي، إلا أن أساس ChatGPT قد وُضع منذ فترة طويلة. فقد كسرت الخدمات السحابية اعتماد النموذج على قوة الحوسبة المحلية، وجعلت Huggingface النموذج مفتوح المصدر، ووفرت Kaggle منصة تجريبية لمهندسي الذكاء الاصطناعي. ساهمت هذه الإنجازات التدريجية في ترويج الذكاء الاصطناعي. على عكس الذكاء الاصطناعي، يصعب البدء في مجال الروبوتات عندما تكون الأموال محدودة. ولتحقيق ترويج الروبوتات، يجب خفض عتبة التطوير إلى نفس مستوى سهولة تطوير تطبيقات الذكاء الاصطناعي. نعتقد أن هناك مجالًا للتحسين في ثلاثة جوانب: آلية التمويل، ونظام التقييم، وبيئة التعليم. يُعد التمويل نقطة ضعف في مجال الروبوتات. يتطلب تطوير برنامج حاسوبي جهاز حاسوب وموارد حوسبة سحابية فقط، بينما يتطلب بناء روبوت يعمل بكامل طاقته شراء أجهزة مثل المحركات وأجهزة الاستشعار والبطاريات، والتي قد تكلف بسهولة أكثر من 100,000 دولار. هذه الخاصية المادية تجعل تطوير الروبوت أقل مرونة وأكثر تكلفة من الذكاء الاصطناعي. لا تزال البنية التحتية لتقييم سيناريوهات الروبوتات الواقعية في بداياتها. وقد أنشأ مجال الذكاء الاصطناعي نظامًا واضحًا لدالة الخسارة، ويمكن إجراء الاختبارات افتراضيًا بالكامل. لكن لا يمكن ترجمة الاستراتيجيات الافتراضية الممتازة مباشرةً إلى حلول فعّالة في العالم الواقعي. تحتاج الروبوتات إلى مرافق تقييم لاختبار الاستراتيجيات المستقلة في بيئات واقعية متنوعة لتحقيق تحسين تكراري. عندما تنضج هذه البنى التحتية، ستتدفق المواهب، وستُكرر الروبوتات الشبيهة بالبشر منحنى الانفجار الهائل لتقنية Web2. وتتجه شركة OpenMind، المتخصصة في الروبوتات المشفرة، في هذا الاتجاه - حيث يُحوّل مشروعها مفتوح المصدر OM1 ("أندرويد للروبوتات") الأجهزة الخام إلى وكيل ذكي واعي اقتصاديًا وقابل للترقية. يمكن توصيل وحدات تخطيط الرؤية واللغة والحركة وتشغيلها مباشرةً مثل تطبيقات الهاتف المحمول، وتُعرض جميع خطوات التفكير بلغة إنجليزية بسيطة، مما يسمح للمشغلين بتدقيق السلوك أو تعديله دون الحاجة إلى تغيير البرامج الثابتة. تتيح هذه القدرة على التفكير اللغوي الطبيعي لجيل جديد من المواهب دخول مجال الروبوتات بسلاسة، مما يُمثل خطوةً أساسيةً نحو منصة مفتوحة تُشعل ثورة الروبوتات، تمامًا كما سرّعت حركة المصادر المفتوحة من وتيرة الذكاء الاصطناعي.

تُحدد كثافة المواهب مسار الصناعة. يُعدّ نظام التعليم الشامل والمهيكل أمرًا بالغ الأهمية لتأهيل المواهب في مجال الروبوتات. يُمثل إدراج OpenMind في بورصة ناسداك بداية حقبة جديدة تُشارك فيها الآلات الذكية في كلٍّ من الابتكار المالي والتربية البدنية. أعلنت شركتا OpenMind وRobostore بشكل مشترك عن إطلاق أول منهج تعليمي عام قائم على روبوتات Unitree G1 الشبيهة بالبشر في المدارس الحكومية من الروضة وحتى الصف الثاني عشر في الولايات المتحدة. يتميز تصميم المنهج بأنه مستقل عن أي منصة، ويمكن تكييفه مع مختلف أشكال الروبوتات، مما يوفر للطلاب فرصًا عملية. تعزز هذه الإشارة الإيجابية رؤيتنا: في السنوات القليلة القادمة، ستكون موارد تعليم الروبوتات غنيةً بمثل ما هو موجود في مجال الذكاء الاصطناعي. 5. التوقعات المستقبلية: أدى الابتكار واقتصادات الحجم في نموذج الرؤية واللغة والفعل (VLA) إلى ظهور روبوتات بشرية ميسورة التكلفة وفعالة ومتعددة الاستخدامات. مع توسع روبوتات المستودعات في سوق المستهلكين، أصبحت نماذج الأمن والتمويل وأنظمة التقييم اتجاهات استكشاف رئيسية. نحن نؤمن بشدة أن تقنية التشفير سوف تعزز تطوير الروبوتات من خلال ثلاثة مسارات: توفير الضمانات الاقتصادية للسلامة، وتحسين البنية التحتية للشحن، وتحسين أداء زمن الوصول وأنابيب جمع البيانات.