25h Tech Category

باحث مستقل يفنّد دراسة لآبل عن قصور النماذج اللغوية الكبيرة في الاستدلال المنطقي

%d8%a8%d8%a7%d8%ad%d8%ab %d9%85%d8%b3%d8%aa%d9%82%d9%84 %d9%8a%d9%81%d9%86%d9%91%d8%af %d8%af%d8%b1%d8%a7%d8%b3%d8%a9 %d9%84%d8%a2%d8%a8%d9%84 %d8%b9%d9%86 %d9%82%d8%b5%d9%88%d8%b1 %d8%a7%d9%84%d9%86

تعاني دراسة حديثة نشرتها آبل من انتقادات قوية بعدما خلصت إلى أن النماذج اللغوية الكبيرة (LLMs) تعاني في مهام الاستدلال المنطقي. الباحث أليكس لوسن من مؤسسة «أوبن فيلانتروبي» أطلق دراسة مضادة، مشيراً إلى وجود عيوب منهجية في تقييمات آبل مما أسفر عن استنتاجات مضللة.

تتعلق أبرز النقاط الخلافية بلغز «برج هانوي»، حيث أظهرت دراسة آبل أن النماذج تفشل عند محاولة حل الوضعيات التي تحتوي على ثمانية أقراص أو أكثر. لكن لوسن يوضح أن النماذج كانت تقطع الحل بسبب الوصول إلى الحد الأقصى لعدد الرموز المسموح بها، وليس بسبب عجزها عن الاستدلال.

في اختبار «اجتياز النهر»، أدرجت آبل سيناريوهات مستحيلة رياضياً، مثل نقل ستة أشخاص في قارب يتسع لثلاثة فقط. عندما استشعرت النماذج عدم إمكانية الحل ورفضت القيام بذلك، اعتبر ذلك خطأً. كما أن تقييم آبل اعتمد على مقارنة مخرجات النماذج بالإجابات الكاملة، مما أدى إلى تجاهل الحلول الجزئية الصحيحة أو البديلة.

لإظهار تأثير هذه القيود، طلب لوسن من النماذج كتابة خوارزمية بلغة «لُوَا» لحل اللغز برمجياً، وقدمت النماذج إجابات دقيقة وقابلة للتطوير حتى 15 قرصاً، مما يتجاوز المستوى الذي حددته آبل.

تحذر الدراسة المضادة من تعميم نتائج آبل، إذ تشير إلى أن ما بدا كعجز استدلالي يعكس فعلياً قيود طول المخرجات وسلبيات أدوات التصحيح. يقر لوسن بأن النماذج لا تزال بحاجة لتطوير، ويطالب باختبارات تأخذ في الاعتبار قابلية الحل وتسمح بأشكال متنوعة من الإجابات.


عدد المصادر التي تم تحليلها: 5
المصدر الرئيسي : عالم التقنية – فريق التحرير
post-id: ae9d6177-9d28-491a-8a51-b289f4f195ec