تسجيل الدخول/ اشتراك

اختبار متعمق لـ Manus: هذه هي لحظة DeepSeek لصناعة وكلاء الذكاء الاصطناعي

٢٠٢٥/٠٣/٠٦ ١٩:٠٤

يتبع

المؤلف: لان شي

سيطرت مانوس على الشاشة ليوم واحد، بدءًا من شهرتها بين عشية وضحاها في البداية، إلى صعوبة الحصول على رمز في المنتصف، إلى التساؤل حول استثمارها الضخم في الدعاية والترويج. طوال العملية برمتها، تشابكت مشاعر الخوف من تفويت الفرصة واليقظة الحدسية، وهو نموذج تواصل مثير للاهتمام للغاية. في الواقع، كانت صناعة الذكاء الاصطناعي مدفوعة بنموذج معلومات "مدفوع بالانفجار" في السنوات القليلة الماضية. أولئك الذين يفهمونه قد تم بالفعل إزالة الغموض عنه، ولكن أولئك الذين لا يفهمونه ما زالوا مندهشين منه.ولكن بصراحة، مع كل هذا الانفجار كل يوم، سيكون هناك بشكل موضوعي بعض الانفجارات الحقيقية المختلطة.

وتقييمي لـ Manus هو أنه حقًا أحد تلك الأعمال المتفجرة حقًا، ويمكن تسميتها بلحظة DeepSeek في صناعة وكلاء الذكاء الاصطناعي. ومع ذلك، هناك تصحيح، سأضيفه في النهاية.

أولاً، دعنا نلقي نظرة على تأثير توضيحي لـ Manus:

دعه يطور لعبة تفاعلية نصية يمكنك من خلالها لعب دور الرئيس التنفيذي لشركة Google وتجربة القرارات المهمة في تاريخ الشركة. لن تتمكن من الاستمتاع باللعبة فحسب، بل ستتعرف أيضًا على ثقافة الشركة.

استغرق الأمر من مانوس حوالي ساعة لتطوير لعبة الويب Google CEO Simulator. اللعبة كاملة للغاية. عند النقر لبدء اللعبة، يمكنك اختيار الصعوبة بنفسك. ثم ستواجه كل نقطة تحول في تاريخ تطوير Google. سيحدد اختيارك التغييرات في موارد الشركة ويؤثر على النتيجة النهائية للعبة.

في ساعة واحدة، وباستخدام جملة واحدة فقط، يمكنك إنشاء لعبة. هذه هي قدرة AI Agent.

إنه مختلف عن الذكاء الاصطناعي التقليدي. فهو لم يعد يقدم إجابات على مستوى المعلومات فحسب، بل يمكنه تشغيل أجهزة الكمبيوتر لإكمال مهام عمل أكثر تحديدًا، بما في ذلك على سبيل المثال لا الحصر كتابة البرامج، وإنشاء صفحات الويب، وتجميع التقارير، وفحص السير الذاتية، وما إلى ذلك. ويمكنه حل الصعوبات المختلفة التي تواجهها العملية بشكل مستقل وتقديم نتائج العمل. بالطبع، هناك استثناءات، والتي سنتحدث عنها لاحقًا.

حاليًا، لا توجد العديد من خدمات وكلاء الذكاء الاصطناعي السائدة، وهي باهظة الثمن عمومًا. على سبيل المثال، يتطلب ChatGPT Operator عضوية احترافية بقيمة 200 دولار أمريكي شهريًا لاستخدامه، وDevin، منتج مهندس الذكاء الاصطناعي الذي يستهدف سوق البرمجة، يكلف 500 دولار أمريكي شهريًا.

مطور Manus هو فريق النماذج الصيني الكبير Monica. وهو حاليًا في مرحلة الاختبار المجاني. وقد تم تخفيض تكلفة المهمة الواحدة إلى 2 دولار أمريكي، وهو ما يمثل 1/10 من تكلفة OpenAI. وفي الوقت نفسه، تجاوزت OpenAI في تصنيفات اختبار المعايير وأصبحت الأقوى في العالم.

بعد الحصول على رمز الدعوة، استنفدت موارد الحوسبة اليومية لدى مانوس في غضون ساعات قليلة. لقد كنت متحمسًا حقًا وكان التأثير صادمًا.

دعني أعرض عليك بعض الحالات الفعلية:

أولاً، طلبت منه مساعدتي في إنشاء صفحة رئيسية شخصية بأسلوب Linktree. قسم Manus هذه المهمة إلى 8 خطوات. أولاً، جمع معلوماتي على الإنترنت بالكامل، بما في ذلك روابطي وأعمالي التمثيلية على منصات مختلفة، ثم بدأ في كتابة كود صفحة الويب بناءً على أسلوب تصميم Linktree. وبعد نصف ساعة، سلمني هذا العمل.

‍

بسيط، لكنه يلبي المتطلبات تمامًا، ولا توجد مشكلة في التفاعل. يحتوي على تأثير نسخ على مستوى الشارينغان. إذا كنت تريد جعله أكثر جمالًا، يمكنك الاستمرار في كتابة المطالبات لتعديله.

كان الاختبار الثاني هو أنني استخدمت مانوس لمساعدة أحد أعضاء مجموعة المهندسين في حل مشكلة عملية. كان ذراع الروبوت أطلس الذي كان مسؤولاً عن صيانته في المصنع يعاني من مشكلة بسيطة. إذا طلب خدمة ما بعد البيع، فستكلفه عدة آلاف من اليوان، لذلك سيكون من الأفضل إيجاد طريقة لتعويض ذلك بنفسه. كان كسولًا جدًا لقراءة المستندات، لذلك أعطاني فقرة مباشرة وطلب من مانوس أن يرى كيفية التعامل معها.

يرجى ملاحظة أنه من الناحية النظرية، يمكن للذكاء الاصطناعي العادي للمحادثة تلبية هذا المطلب أيضًا، لكنه سيتطلب عمليات تفاعلية أكثر. على سبيل المثال، عليك إطعامه المستندات والحصول على الإجابات خطوة بخطوة. ومع ذلك، لا يحتاج Manus إلى ذلك. سيقوم بتنزيل المستندات من موقع Atlas الرسمي بنفسه، والعثور على المحتوى الرئيسي المطلوب لحل المشكلة بعد قراءتها، وتحليلها بعناية، وإنشاء برنامج. لقد أرسلت الكود النهائي إلى صديق. كان به بعض العيوب البسيطة، لكنه كان صالحًا للاستخدام تمامًا بعد التعديل اليدوي، مما وفر مكالمة ما بعد البيع مباشرة. كان الاختبار الثالث عبارة عن اقتراح من قرائي على موقع Weibo، حيث طلبوا من مانوس إنشاء سجل بسيط لبلد ما. أضفت متطلبات لاختيار طاولات القصص المصورة وتصميم الويب. كان من الصعب فهم مطابقة الألوان للعمل النهائي - لا يتمتع الذكاء الاصطناعي بحس جمالي، ويجب التأكيد على ذلك مرارًا وتكرارًا - ولكن في هذا الوقت تعطل خادم مانوس ولم يكن من الممكن تعديله في الوقت الحالي، لذلك عرضت المنتج شبه النهائي فقط.

يمكنك أن ترى أن مانوس قسم التاريخ البريطاني إلى 10 عصور مختلفة، ورسم صور SVG بناءً على أنماط العصر، وأخيرًا قدمها على صفحة الويب HTML. ويمكن القول إنها غرفة نموذجية للتعاون بين الإنسان والحاسوب. سواء تم استخدامها كخطة تدريس خارج المنهج الدراسي أو معاينة عمل، فهي تتمتع بعتبة دخول مريحة للغاية.

الحالة الأخيرة هي أنني طلبت من مانوس صنع لعبة Candy Crush Saga، لكن الرمز كان لابد أن يكون شخصية Genshin Impact. بدأ أولاً في دراسة آلية اللعبة وطريقة تنفيذ Candy Crush Saga، ثم حاول جمع مواد مصورة من Genshin Impact. في هذا الوقت، حدث استثناء. أصدر طلب استحواذ لأول مرة. كان السبب أيضًا بلا كلام. تم حظر منطق التشغيل الخاص به بواسطة قرص الشبكة، وكان من المستحيل تسجيل حساب، لذلك لم يتمكن من تنزيل الموارد، وأراد مني مساعدته في التنزيل.

يبدو أنه بغض النظر عن مدى قوة الذكاء الاصطناعي، فسيتم حظره من قبل أعضاء القرص المتصل بالإنترنت.

استنادًا إلى مبدأ السماح لوكيل الذكاء الاصطناعي بإكمال عمله بشكل مستقل قدر الإمكان، لم أفعل هذا. بدلاً من ذلك، قمت بتغيير المتطلبات قليلاً وطلبت من Manus استخدام شعار شركة التكنولوجيا كأيقونة للعبة. نظرًا لأن مواد SVG مفتوحة الحقوق منتشرة في جميع أنحاء الإنترنت، فلا توجد مشكلة في تشغيل Manus الآن. لقد أكملت بسرعة لعبة مطابقة 3 بالنقاط، وكانت سلسة للغاية للعب.

ومع ذلك، يمكننا أن نرى أيضًا أنه عند حل مثل هذه المشكلات المعقدة نسبيًا، لا يزال مانوس يفتقر إلى بعض التفاصيل. ويرتبط هذا أيضًا بعدم مشاركة الإنسان (أنا). على سبيل المثال، تتطلب مشكلة تكيف الشاشة مزيدًا من التوضيح. إن استجابة مانوس للتعديل ليست بطيئة، ولكن بسبب نفس مشكلة تعطل الخادم، لم يتم تحسين هذه المهمة بشكل أكبر في الوقت الحالي. أعتقد أن هذه الأمثلة العملية القليلة قد أظهرت بوضوح قدرات ونقاط ضعف AI Agent في هذه المرحلة. لم يعد Manus منتجًا يمكنه العمل في متصفح فقط. لديه بيئة اختبار خاصة به ويمكنه اختبار نفسه قبل إكمال العمل. يمكن تسليمه بعد اجتياز اختبار القبول. ومع ذلك، فهو يقتصر أيضًا على حدود بيانات الإنترنت. إذا لم تكن هناك موارد كافية على الشبكة، فلن يكون قادرًا على إنتاج موارد كافية ذاتيًا.

لقد أجريت أيضًا بعض الاختبارات الكتابية، والتي يمكن استخدامها أيضًا لمقارنة خصائص وكلاء الذكاء الاصطناعي:

على سبيل المثال، طلبت من مانوس أن تقدم مهارات التشغيل الخاصة بها بناءً على مقاطع فيديو Hoshimi-ya (شخصية اللعبة) الأكثر شهرة على Bilibili.

لقد شاهد مانوس حقًا جميع مقاطع الفيديو العشرة - والتي استغرقت أكثر من ساعة - ثم قام بتنقيح مقالات كل مضيف UP إلى المادة التي أحتاجها، وكانت دقيقة تمامًا. إذا تم إعطاء نفس المهمة لنموذج شبكي كبير، فيمكن إكمالها أيضًا، لكن احتمالية الهلوسة عالية جدًا، وهي ليست موثوقة مثل وكيل الذكاء الاصطناعي من حيث "الصدق". على سبيل المثال، طلبت من مانوس دراسة إمكانيات التحكيم في بولي ماركت. ورغم أنني كنت أشعر بأمل كبير وأردت الحصول على دليل استثماري يضمن لي الربح - لا تضحك - إلا أن مانوس قام بواجبه على أكمل وجه وقام بإدراج أربع فرص للتحكيم، بحيث يمكنني وضع رهان وفقًا للقواعد دون تفكير طالما رأيت مشروعًا مؤهلاً في بولي ماركت.

من إعادة التشغيل، يبدأ مانوس دائمًا بالمعلومات الأساسية. فهو يفهم أولاً ماهية PolyMarket، ثم يحلل طريقة اللعب في سوق التنبؤ، ثم يبني استراتيجية للمخاطرة بناءً على قواعد المنصة. وهو يتمتع بأسلوب العمل النموذجي للمتدربين، حيث يعمل بجد ويكون واقعيًا.

بالمناسبة، يعد تصميم التشغيل أحد أبرز مميزات مانوس في رأيي. فهو يشبه إلى حد ما نموذج التفكير الذي يكشف عن اختيار سلسلة التفكير. وفي كثير من الحالات، تكون عملية التفكير في الذكاء الاصطناعي أكثر إلهامًا من توفير الإجابة. كل مهمة في مانوس لها وظيفة تشغيل ويمكن مشاركتها. ويمكن اعتبار الوسائل التي يوضحها في طريق حل المشكلات شكلاً آخر من أشكال الأصول الذكية، والتي يمكن أن تعمل كمعلم للبشر.

لذا، وبعد أن قلت ذلك، أود أن أقول إن مانوس هي لحظة DeepSeek في صناعة وكلاء الذكاء الاصطناعي. هناك حاجة إلى تصحيح هنا، وهي لحظة DeepSeek-V2. في مايو 2024، قامت DeepSeek بإصدار نسخة V2 من النموذج مفتوحة المصدر. كانت هذه هي المرة الأولى التي انتشر فيها الفيروس لأن السعر كان رخيصًا جدًا. ومع ذلك، نظرًا لأن النموذج نفسه كان متوسط القدرات، فقد اعتقد الكثير من الناس في ذلك الوقت أن DeepSeek ستبدأ حرب أسعار. لقد فوجئوا لكنهم لم يأخذوا الأمر على محمل الجد، ولم تدم الشعبية طويلاً.

لم يدرك الجميع أن الأمور كانت مختلفة تمامًا إلا بعد الإصدارات المتتالية لـ DeepSeek-V3 وR1. بين عشية وضحاها، انقلب منطق التكلفة في سوق النماذج الكبيرة بالكامل. في البداية، لم يكن أحد يهتم بهذه الكارثة. كانت مجرد حريق غابات، أو جفاف، أو انقراض نوع من الكائنات الحية، أو اختفاء مدينة، حتى أصبحت هذه الكارثة مرتبطة ارتباطًا وثيقًا بالجميع. ——"الأرض المتجولة"

ما أعنيه هو أن تطوير تكنولوجيا الذكاء الاصطناعي مستمر، وعلى هذا المنحنى المتقلب، تحدد قوة الإشارة في كل مرة عمق الاختراق اللاحق، تمامًا كما لم يكن لدى DeepSeek الإصدار 3 بدون الإصدار 2، ناهيك عن R1. لم يتغير رأيي في Manus. عند نقطة التحول التاريخية المتمثلة في جلب خدمات AI Agent من السيناريوهات الاحترافية إلى السيناريوهات العامة، فهي العلامة التجارية المؤسسة للمدرسة.

من وجهة نظر حالة الاستخدام، فإن وظائف وكيل الذكاء الاصطناعي قوية جدًا، وكفاءة تقسيم المهام عالية جدًا. إن مراقبة CoA (سلسلة الوكلاء) تشبه إلى حد كبير مراقبة CoT (سلسلة التفكير)، ويمكن "رؤية" الذكاء الاصطناعي وهو يقيم ويبحث عن الحل الأمثل بين خيارات متعددة. من الناحية النظرية، يجب أن يكون لديها قدر هائل من CoA مدمج لتتولى المسؤولية. تمامًا مثل نماذج التفكير مثل DeepSeek، سيتم دفعها إلى السوق الشامل فقط بعد أن تستوعب قدرًا كافيًا من CoT مسبقًا، وتغطي الاحتياجات السائدة قدر الإمكان، والتي يمكن رؤيتها من حالة الاستخدام على الموقع الرسمي.

احصل على فهم أوسع لصناعة العملات المشفرة من خلال التقارير الإعلامية، وشارك في مناقشات متعمقة مع المؤلفين والقراء الآخرين ذوي التفكير المماثل. مرحبًا بك للانضمام إلينا في مجتمع Coinlive المتنامي:https://t.me/CoinliveSG

أضف تعليق

تسجيل الدخوللترك تعليقك الرائع ...

0 تعليقات

باكرا جدا

تحميل المزيد من التعليقات

تحديثات حية

8 منذ ساعات
Strategy Executive Sells MSTR Shares for $13 Million
صاعد
سبحة
8 منذ ساعات
مدير الاستثمار في Bitwise: الآن فرصة شراء ممتازة لمستثمري عام 2026 والمستثمرين على المدى الطويل.
صاعد
سبحة
8 منذ ساعات
محلل Bitwise: "أكبر نقطة ألم في Bitcoin" تكمن بين سعر تكلفة Strategy البالغ 73000 دولار وسعر تكلفة IBIT لشركة BlackRock البالغ 84000 دولار.
صاعد
سبحة
9 منذ ساعات
خسر المستخدم الذي احتل المركز السادس في قائمة المتصدرين لأرباح المراهنات الرياضية في Polymarket كل أمواله بعد رهان فاشل على هوكي NHL، كل ذلك في أسبوع واحد فقط، بعد أن نمت أصوله 760 مرة في شهر واحد.
صاعد
سبحة
9 منذ ساعات
Grayscale Dogecoin and XRP Trust ETFs to Debut on NYSE Arca
صاعد
سبحة
9 منذ ساعات
Crypto Expert on Bitcoin Collapse: Wait for U.S. Stocks to Fall Before Going All In
صاعد
سبحة
9 منذ ساعات
قام الحوت الذي اقترض سابقًا العملة المشفرة لبيع 66000 ETH بزيادة حيازاته بمقدار 23995 ETH، ليصل إجمالي حيازاته إلى 1.35 مليار دولار.
صاعد
سبحة
9 منذ ساعات
تباطؤ إنتاج بلوكات شبكة كاردانو لمدة ساعة حيث يشير تحليل الأسعار إلى 0.30 دولار
صاعد
سبحة
9 منذ ساعات
Bitcoiners perk up as odds of a December Fed rate cut almost double
صاعد
سبحة
9 منذ ساعات
Coinbase Derivatives to expand 24/7 futures trading for bevy of altcoins including ADA, AVAX, DOGE and SHIB
صاعد
سبحة

أكثر

الأخبار الشائعة

أكثر

اختبار متعمق لـ Manus: هذه هي لحظة DeepSeek لصناعة وكلاء الذكاء الاصطناعي

تحديثات حية

الأخبار الشائعة

الحزب الديمقراطي الحاكم في كوريا الجنوبية يُشكّل فريق عمل جديد لتسريع قوانين العملات المستقرة وتعزيز نمو العملات المشفرة

تستكشف Circle معاملات USDC القابلة للعكس لحماية المستخدمين من الاحتيال ولكن هل تقوض اللامركزية؟

شنغهاي تصبح قوة اليوان الرقمي في الصين مع مركز جديد للدفع عبر الحدود والبلوكشين - هل سيعزز هذا نفوذ الصين في أسواق الحزام والطريق؟

نجمة الدراما الكورية هوانغ جونغ-يوم تتجول بحرية بعد اختلاس 3 ملايين دولار للعملات المشفرة - إذن، كيف هربت من السجن؟

أعلنت شركة التكنولوجيا الأمريكية العملاقة Cloudflare عن عملة مستقرة مدعومة بالدولار الأمريكي NET Dollar لاقتصاد الذكاء الاصطناعي وصانعي القرار

شركة الذكاء الاصطناعي الناشئة التابعة لإيلون ماسك تزعم أن OpenAI استدرجت المهندسين إلى إساءة استخدام التعليمات البرمجية السرية وأساليب التدريب

بورصة العملات المشفرة KuCoin تتعرض لأكبر غرامة على الإطلاق في كندا لمكافحة غسل الأموال بعد إغفالها ما يقرب من 3000 تقرير معاملات

صانع الكيمونو الياباني التاريخي ماروشو هوتا يعيد تسمية علامته التجارية إلى بيتكوين اليابان ويطلق صندوق بيتكوين تريجري للشركات

إخوة من تكساس متهمون باحتجاز عائلة من مينيسوتا رهينة لمدة تسع ساعات لسرقة 8 ملايين دولار من العملات المشفرة