المصدر: Quantum Number
وفقًا لصحيفة نيويورك تايمز، تم منح جائزة تورينج لعام 2025 إلى اثنين من رواد الذكاء الاصطناعي، أندرو بارتو وريتشارد ساتون، الذين طوروا تقنية التعلم المعزز، وهو أمر بالغ الأهمية لبرامج الدردشة الآلية مثل ChatGPT. تلعب أبحاث أندرو بارتو (يسار) وريتشارد ساتون من جامعة ماساتشوستس أمهرست دورًا رئيسيًا في أنظمة الذكاء الاصطناعي اليوم. (مصدر الصورة: عبر جمعية آلات الحوسبة)
في عام 1977، بدأ أندرو بارتو، وهو باحث في جامعة ماساتشوستس أمهرست، في استكشاف نظرية جديدة مفادها أن الخلايا العصبية تتصرف مثل اللادينيين. الفكرة الأساسية هي أن الدماغ البشري مدفوع بمليارات الخلايا العصبية، وكل منها تعمل على تعظيم المتعة وتقليل الألم.
بعد مرور عام، انضم باحث شاب آخر، ريتشارد سوتون، إلى فريقه. لقد استخدموا معًا هذا المفهوم البسيط لشرح الذكاء البشري وتطبيقه على الذكاء الاصطناعي. النتيجة هي "التعلم المعزز"، وهي طريقة تستخدمها أنظمة الذكاء الاصطناعي لتعلم المتعة والألم من العالم الرقمي. أعلنت جمعية آلات الحوسبة، وهي أكبر جمعية مهنية لعلماء الكمبيوتر في العالم، يوم الأربعاء أن الدكتور بارتو والدكتور ساتون قد فازا بجائزة تورينج لهذا العام عن أبحاثهما في مجال التعلم المعزز. جائزة تورينج، التي تأسست في عام 1966، يشار إليها في كثير من الأحيان باسم جائزة نوبل في الحوسبة. ومن المقرر أن يتقاسم العالمان جائزة قيمتها مليون دولار أمريكي (حوالي 7.2596 مليون يوان صيني). لقد لعب التعلم التعزيزي دورًا حاسمًا في صعود الذكاء الاصطناعي على مدار العقد الماضي، بما في ذلك الاختراقات مثل AlphaGo من Google و ChatGPT من OpenAI. وتستمد التكنولوجيا المستخدمة في هذه الأنظمة من أبحاث الدكتور بارتو والدكتور ساتون. وقال أورين إيتزيوني، أستاذ فخري لعلوم الكمبيوتر في جامعة واشنطن ومؤسس ومدير تنفيذي لمعهد ألين للذكاء الاصطناعي: "إنهم رواد بلا منازع في مجال التعلم المعزز". "لقد توصلوا إلى الأفكار الرئيسية وكتبوا كتابًا حول هذا الموضوع." ويظل كتابهم "التعلم المعزز: مقدمة"، الذي نُشر عام 1998، الاستكشاف النهائي لفكرة يعتقد العديد من الخبراء أنها بدأت للتو في تحقيق إمكاناتها. لقد درس علماء النفس منذ فترة طويلة كيفية تعلم البشر والحيوانات من خلال التجارب. في أربعينيات القرن العشرين، اقترح عالم الكمبيوتر البريطاني الرائد آلان تورينج أن الآلات يمكن أن تتعلم بطريقة مماثلة. لكن الدكتور بارتو والدكتور ساتون بدأوا في استكشاف الرياضيات الخاصة بهذا النوع من التعلم، بناءً على نظرية طورها أ. هاري كلوبف، عالم الكمبيوتر الذي عمل لدى الحكومة. وبعد ذلك أنشأ الدكتور بارتو مختبرًا في جامعة ماساتشوستس أمهرست لمتابعة الفكرة، بينما أنشأ الدكتور ساتون مختبرًا مشابهًا في جامعة ألبرتا في كندا. وقال الدكتور ساتون، وهو أيضًا باحث علمي في شركة Keen Technologies الناشئة للذكاء الاصطناعي وباحث في معهد ألبرتا للذكاء الآلي، أحد مختبرات الذكاء الاصطناعي الوطنية الثلاثة في كندا: "إنها فكرة واضحة عندما تتحدث عن البشر والحيوانات". "عندما قمنا بإحياء هذا المشروع، كان الأمر يتعلق بالآلات". وظل المشروع مسعى أكاديميا حتى ظهور برنامج AlphaGo في عام 2016. يعتقد معظم الخبراء أن الأمر سيستغرق عشر سنوات أخرى قبل أن يتمكن أحد من تطوير نظام ذكاء اصطناعي قادر على التغلب على أفضل لاعبي العالم في لعبة "جو".
ولكن في مباراة في سيول، كوريا الجنوبية، هزم ألفاجو لي سيدول، أفضل لاعب جو في العقد الماضي. والسر هو أن النظام لعب ملايين الألعاب ضد نفسه، وتعلم من خلال التجربة والخطأ. يتعلم أي الحركات تؤدي إلى النجاح (السعادة) وأي الحركات تؤدي إلى الفشل (الألم). كان فريق جوجل الذي بنى النظام بقيادة ديفيد سيلفر، وهو باحث درس التعلم المعزز مع الدكتور ساتون في جامعة ألبرتا. لا يزال العديد من الخبراء يتساءلون عما إذا كان التعلم المعزز يمكن أن يكون مفيدًا خارج نطاق الألعاب. يتم تحديد فوز اللعبة من خلال النتائج، مما يجعل من السهل على الآلة التمييز بين النجاح والفشل.
ولكن التعلم التعزيزي يلعب أيضًا دورًا مهمًا في برامج الدردشة عبر الإنترنت. قبل إصدار ChatGPT في خريف عام 2022، قامت OpenAI بتوظيف مئات الأشخاص لاستخدام الإصدارات المبكرة وتقديم نصائح دقيقة لصقل مهارات روبوت المحادثة. لقد أظهروا للدردشة الآلية كيفية الإجابة على أسئلة محددة، وتقييم ردودها وتصحيح أخطائها. من خلال تحليل هذه الاقتراحات، تعلم ChatGPT كيفية أن يصبح روبوت محادثة أفضل. ويطلق الباحثون على هذه العملية اسم التعلم التعزيزي من ردود الفعل البشرية، أو RLHF، وهو أحد الأسباب الرئيسية التي تجعل برامج الدردشة اليوم قادرة على الاستجابة باستجابات واقعية بشكل مذهل. (قامت صحيفة نيويورك تايمز برفع دعوى قضائية ضد شركة OpenAI وشريكتها مايكروسوفت بتهمة انتهاك حقوق الطبع والنشر في محتوى إخباري يتعلق بأنظمة الذكاء الاصطناعي الخاصة بها. وقد نفت كل من OpenAI وMicrosoft هذه الاتهامات.) في الآونة الأخيرة، طورت شركات مثل OpenAI وDeepSeek نهج التعلم التعزيزي الذي يمكن روبوتات الدردشة من التعلم لأنفسها - تمامًا مثل AlphaGo. على سبيل المثال، من خلال حل مسائل الرياضيات المختلفة، يمكن للدردشة الآلية أن تتعلم أي الأساليب تؤدي إلى الإجابة الصحيحة وأي الأساليب لا تؤدي إلى ذلك.
إذا كررت هذه العملية مع عدد كبير من الأسئلة، يمكن لبرنامج المحادثة الآلي أن يتعلم محاكاة الطريقة التي يفكر بها البشر - على الأقل في بعض الجوانب. وتكون النتيجة ما يسمى بأنظمة الاستدلال، مثل o1 من OpenAI أو R1 من DeepSeek. وقال الدكتور بارتو والدكتور ساتون إن هذه الأنظمة تشير إلى كيفية قدرة الآلات على التعلم في المستقبل. وفي نهاية المطاف، يقولون إن الروبوتات المجهزة بالذكاء الاصطناعي سوف تتعلم من خلال التجربة والخطأ في العالم الحقيقي، تماماً كما يفعل البشر والحيوانات.
قال الدكتور بارتو: "إن تعلم التحكم في جسدك من خلال التعلم المعزز هو أمر طبيعي للغاية".