تكنولوجيا

GPT-5.5 يتصدر اختبار اختراق نماذج اللغة مقابل Gemini بعد رفضه التنفيذ في اختبار بقيمة 1500 دولار

Ceabdd51 cc2e 4e1d 9c76 a8b620dfdd78 file.jpeg

كشف باحث في أمن التطبيقات عن تجربة مثيرة تقارن بين نماذج الذكاء الاصطناعي في التعامل مع اختبار اختراق واقعي. تم إنشاء تطبيق يدعى “Book Review” يحتوي على ثغرة في بيانات اعتماد Firebase، مما يسمح بالوصول إلى قاعدة البيانات بسهولة.

اختبر الباحث أكثر من 12 نموذجًا من الذكاء الاصطناعي بميزانية 10 دولارات لكل محاولة، وقد أنفق في مجمل تجاربه 1500 دولار. وكانت النتائج مثيرة، حيث تصدر نموذج GPT-5.5 القائمة، إذ تمكن من حل 7 من أصل 10 محاولات بتكلفة تقارب 9.46 دولار لكل محاولة ناجحة.

في الجانب الآخر، كان نموذج DeepSeek V4 Pro الأكثر كفاءة من حيث التكلفة، لكنه حقق النجاح فقط في 3 محاولات بتكلفة منخفضة بلغت 0.62 دولار لكل حل. بينما حققت نماذج Claude 4.6 وOpus 4.8 نجاحًا محدودًا، حيث لم تحقق أكثر من محاولتين لكل منهما.

جاء نموذج Gemini في المرتبة الأخيرة، حيث رفض التنفيذ في معظم الحالات. وأكد الباحث أن هذه التجربة ليست تقييمًا علميًا رسميًا، بل مجرد اختبار عملي لقياس سلوك النماذج في سيناريوهات محددة.


عدد المصادر التي تم تحليلها: 3
المصدر الرئيسي : التقنية بلا حدود Sultan Alqahtani
معرف النشر: TECH-040626-544

تم نسخ الرابط!
51 ثانية قراءة