كشفت دراسة حديثة أجراها باحثون من كلية الطب بجامعة هارفارد وجامعة ستانفورد أن نموذج الذكاء الاصطناعي o1 (في الوضع التجريبي) من شركة OpenAI قد يتفوق على الأطباء في تشخيص الحالات الطبية المعقدة.
خضع النموذج خلال الدراسة لسلسلة شاملة من اختبارات التشخيص الطبي، وأظهرت النتائج أنه حقق أداءً ملحوظًا مقارنةً بالإصدارات السابقة. تمكن نموذج o1-preview من تشخيص 78.3% من الحالات بدقة. وفي مقارنة مباشرة شملت 70 حالة محددة، ارتفعت دقة النظام إلى 88.6%، متفوقًا بفارق كبير على نظام GPT-4 السابق الذي سجل نسبة قدرها 72.9%.
أظهر النظام كفاءته العالية في مجال الاستدلال الطبي، حيث حصل على درجات مرتفعة في 78 من أصل 80 حالة وفق مقياس R-IDEA المستخدم لتقييم جودة الاستدلال، بينما حقق الأطباء المتمرسون درجات عالية في 28 حالة فقط، ولم يتمكن الأطباء المقيمون من الحصول على درجات مرتفعة سوى في 16 حالة.
وأشار الباحثون إلى احتمال تضمن بيانات التدريب الخاصة بالنموذج بعض الحالات المستخدمة في الدراسة، لكن أداء النموذج ظل مرتفعًا عند اختباره على حالات جديدة لم يسبق أن تعامل معها، مع انخفاض طفيف في الأداء.
وفي تعليق له، صرح الدكتور آدم رودمان، أحد المشاركين في الدراسة، أن نتائجهم تحمل انعكاسات كبيرة على الممارسة الطبية، لذا كان من الضروري نشرها سريعًا. وقد برز نموذج o1-preview بشكل خاص في إدارة الحالات الطبية المعقدة التي صممها 25 أخصائيًا كأحد التحديات للنموذج والأطباء.
رغم هذا النجاح، يعاني النظام من مشكلات في تقدير الاحتمالات، حيث لم يظهر تحسينات تذكر مقارنة بالنماذج السابقة. على سبيل المثال، قدر النموذج احتمال الإصابة بالالتهاب الرئوي بنسبة قدرها 70%، وهي نسبة أعلى بكثير من النطاق العلمي المتعارف عليه.
أوضح مؤسسو OpenAI أن الأنظمة الحالية ما زالت تعاني نقصًا في التدريب، وتحتاج إلى تدريب يزيد بين 100 إلى 1000 ضعف مقارنة بتدريبها الحالي. يظهر نموذج o1-preview تفوقًا في مهام التفكير النقدي، مثل التشخيص وتقديم التوصيات العلاجية، لكنه يواجه صعوبات في المهام التجريدية، كتقدير الاحتمالات.
وأشار الباحثون إلى أن إجابات النظام التفصيلية قد أسهمت في رفع تقييمه، مؤكدين أن الدراسة اقتصرت على أدائه منفردًا دون دراسة كيفية تعاونه مع الأطباء.
وقد أعلنت شركة OpenAI مؤخرًا عن إطلاق الإصدار الكامل النهائي o1، بالإضافة إلى الإصدار الجديد o3 الذي أظهر تحسينات كبيرة في التفكير التحليلي. ومع ذلك، لا تزال هناك انتقادات للنموذج بشأن التكلفة المرتفعة للفحوصات التي يقترحها وصعوبة تطبيقها في بيئات الرعاية الصحية الفعلية.
حذر رودمان من المبالغة في التوقعات، مشيرًا إلى أن هذه دراسة معيارية تستخدم معايير ذهبية لتقييم الأطباء البشريين، لكنها لا تعكس واقع الرعاية الطبية. ودعا الباحثون إلى تطوير طرق تقييم أفضل لأنظمة الذكاء الاصطناعي في المجال الطبي تشمل تجارب سريرية واقعية وبنية تحتية تقنية متقدمة لتعزيز التعاون بين الأطباء والذكاء الاصطناعي، بهدف تحقيق استخدام أكثر فعالية في بيئات الرعاية الصحية.
عدد المصادر التي تم تحليلها: 2
المصدر الرئيسي : دبي – البوابة التقنية

post-id: ae1b68f7-b082-46cc-a867-58ba4f20944e