اختبار رياضي صعب يكشف حدود الذكاء الاصطناعي أمام العلماء
أخبارنا المغربية - وكالات
خضع الذكاء الاصطناعي لاختبار رياضي غير مسبوق ضمن مشروع “First Proof”، بعدما طُلب من أربعة أنظمة متقدمة حل عشر مسائل بحثية معقدة، لم تكن ضمن بيانات التدريب الخاصة بها، قبل أن يتولى علماء رياضيات متخصصون مراجعة الإجابات وتقييمها.
ويعد هذا الاختبار من بين الأصعب في هذا المجال، لأنه جمع بين مسائل جديدة عالية التعقيد، وتقييما علميا مباشرا من طرف خبراء، ما جعله مؤشرا مهما على قدرة النماذج الحالية على التعامل مع تحديات رياضية قريبة من البحث الأكاديمي المتقدم.
وأظهرت النتائج أن أنظمة الذكاء الاصطناعي، رغم التطور الكبير الذي حققته، ما تزال بعيدة عن مستوى كبار علماء الرياضيات في مثل هذه المهام، خاصة أنها تفتقر في بعض الحالات إلى الحدس الرياضي، وتظل عرضة لارتكاب أخطاء أو تقديم استنتاجات غير دقيقة.
واقترح عشرة باحثين المسائل المعتمدة في الاختبار من أعمال علمية غير منشورة، فيما اقتصرت المشاركة على نماذج متاحة للجمهور، من بينها ChatGPT 5.5 Pro من OpenAI، إلى جانب أنظمة طورتها فرق أكاديمية من جامعة كاليفورنيا وبرينستون والمعهد الفيدرالي السويسري للتكنولوجيا في زيورخ.
واعتمدت بعض الفرق على ما يعرف بـ“الأنظمة الوسيطة”، حيث يقترح أحد روبوتات الدردشة الحلول، بينما يتولى روبوت آخر مراجعتها والتحقق منها، مع تبادل متكرر للمعلومات بينهما لتحسين النتيجة النهائية.
وسجل نظام المعهد الفيدرالي السويسري للتكنولوجيا أفضل أداء، بعدما نجح في حل ست مسائل من أصل عشر، بفضل آلية اعتمدت على تحسين إجابات ChatGPT عبر “مجلس استشاري” مكون من ثلاثة روبوتات دردشة متقدمة. وجاء بعده فريق جامعة كاليفورنيا، ثم فريق OpenAI، ثم فريق جامعة برينستون الذي استخدم نظاما قائما على Gemini 3.1 Pro.
ورغم هذه النتائج، لم يتمكن أي فريق من حل ثلاث مسائل من أصل عشر، وهو ما أبرز استمرار وجود فجوة واضحة بين الذكاء الاصطناعي والبشر في مجال التفكير الرياضي العميق. ففي بعض الحالات، غابت عن النماذج الفكرة الجوهرية التي قد يلتقطها الباحث البشري، بينما نجحت في حالات أخرى في اختيار المسار الصحيح لكنها فشلت في تنفيذ التفاصيل بدقة.
ومن بين أبرز التحديات التي رصدها الباحثون ظاهرة “الهلوسة”، حيث قدمت بعض الأنظمة نتائج غير صحيحة رغم مطالبتها بالتحقق من المراجع، كما لوحظ أن نماذج معينة أعادت استخدام أجزاء من مصادر منشورة دون توثيق واضح.
ويرى القائمون على المشروع أن نشر هذه المسائل سيفتح المجال أمام شركات ومؤسسات أخرى لاستخدامها مستقبلا في اختبار قدرات أنظمة الذكاء الاصطناعي، وقياس مدى قدرتها على التعامل مع مسائل رياضية معقدة تتطلب أكثر من مجرد الحساب أو البحث عن أنماط جاهزة.
