25h Tech Category

دراسة بريطانية: الذكاء الاصطناعي يبرع في الاختبارات ويفشل مع المرضى

%d8%af%d8%b1%d8%a7%d8%b3%d8%a9 %d8%a8%d8%b1%d9%8a%d8%b7%d8%a7%d9%86%d9%8a%d8%a9 %d8%a7%d9%84%d8%b0%d9%83%d8%a7%d8%a1 %d8%a7%d9%84%d8%a7%d8%b5%d8%b7%d9%86%d8%a7%d8%b9%d9%8a %d9%8a%d8%a8%d8%b1%d8%b9

أظهرت دراسة بريطانية أجراها باحثون من جامعة أكسفورد أن نماذج الذكاء الاصطناعي الطبية مثل “GPT-4″ و”Command R+” تؤدي بشكل جيد في الاختبارات المعملية، لكن أدائها يتدهور عندما يستخدمها المرضى لتشخيص مشكلاتهم الصحية. فبينما حقق نموذج “GPT-4” دقة بنسبة 95% عند طرح أسئلة التشخيص في بيئة محكومة، انخفضت هذه النسبة إلى أقل من 35% عندما اعتمد 1298 مشاركًا على هذه الأدوات لاتخاذ قرارات صحية خاصة بهم.

المشاركون الذين لم يستخدموا الذكاء الاصطناعي حققوا نجاحًا أكبر، حيث بلغ معدل دقتهم 76% مقارنة بمستخدمي الأدوات. شملت التجربة تقديم حالات طبية تتضمن أعراضًا ومعلومات شخصية، وطُلب من المتطوعين تحديد التشخيص والعلاج المناسب، بالتعاون مع استشاريين طبيين.

تشير النتائج إلى أن المستخدمين غالبًا ما يفتقدون التفاصيل المهمة أو يساء فهم ردود النماذج. في حالة واحدة، تم افتراض عسر الهضم بدلًا من حصوات المرارة بسبب غياب تفاصيل مهمة من قبل المشاركة. حتى عندما قدمت النماذج التشخيص الصحيح، لم يُدرج في إجابات المستخدمين إلا أقل من 35%.

هذه الفجوة بين الأداء في المختبرين والتطبيقات العملية تُظهر أن تصميم النماذج لا يتناسب في كثير من الأحيان مع طريقة تفكير المستخدمين تحت الضغط. يؤكد الباحثون على ضرورة اختبار هذه الأنظمة مع مستخدمين حقيقيين قبل اعتمادها كحلول لتشخيص الأمراض، محذرين من الاعتماد فقط على نتائج الاختبارات المعملية.


عدد المصادر التي تم تحليلها: 6
المصدر الرئيسي : عالم التقنية – فريق التحرير
post-id: 7884fe6b-792c-4a9e-ad36-78d3b33a0a9f