كشف باحث في أمن التطبيقات عن تجربة مثيرة تقارن بين نماذج الذكاء الاصطناعي في التعامل مع اختبار اختراق واقعي. تم إنشاء تطبيق يدعى “Book Review” يحتوي على ثغرة في بيانات اعتماد Firebase، مما يسمح بالوصول إلى قاعدة البيانات بسهولة.
اختبر الباحث أكثر من 12 نموذجًا من الذكاء الاصطناعي بميزانية 10 دولارات لكل محاولة، وقد أنفق في مجمل تجاربه 1500 دولار. وكانت النتائج مثيرة، حيث تصدر نموذج GPT-5.5 القائمة، إذ تمكن من حل 7 من أصل 10 محاولات بتكلفة تقارب 9.46 دولار لكل محاولة ناجحة.
في الجانب الآخر، كان نموذج DeepSeek V4 Pro الأكثر كفاءة من حيث التكلفة، لكنه حقق النجاح فقط في 3 محاولات بتكلفة منخفضة بلغت 0.62 دولار لكل حل. بينما حققت نماذج Claude 4.6 وOpus 4.8 نجاحًا محدودًا، حيث لم تحقق أكثر من محاولتين لكل منهما.
جاء نموذج Gemini في المرتبة الأخيرة، حيث رفض التنفيذ في معظم الحالات. وأكد الباحث أن هذه التجربة ليست تقييمًا علميًا رسميًا، بل مجرد اختبار عملي لقياس سلوك النماذج في سيناريوهات محددة.
عدد المصادر التي تم تحليلها: 3
المصدر الرئيسي : التقنية بلا حدود Sultan Alqahtani
معرف النشر: TECH-040626-544

