الذكاء الاصطناعي والتاريخ: لماذا تخطئ النماذج اللغوية؟
رغم التطور الملحوظ في الذكاء الاصطناعي، لا يزال يواجه صعوبات كبيرة في فهم التاريخ. النماذج اللغوية الكبيرة مثل GPT-4 وLlama وGemini تُظهر أداءً قويًا في المهام التقنية والإبداعية، لكن عندما يتعلق الأمر بالمعلومات التاريخية، تظهر عيوب واضحة.
دراسة عُرضت في مؤتمر NeurIPS كشفت أن نموذج GPT-4 Turbo حقق دقة بنسبة 46% فقط في الإجابة عن أسئلة تاريخية معقدة، مما يعكس قصورًا في أدائه. لذا، طور الباحثون معيارًا جديدًا يسمى Hist-LLM، يعتمد على قاعدة بيانات Seshat لتقييم مدى دقة المعلومات التاريخية التي تقدمها النماذج.
تُظهر النتائج أن هذه النماذج تُعاني من مشاكل عديدة، منها:
- اعتماد النماذج على البيانات الشائعة: تميل هذه النماذج إلى الاستنباط من المعلومات المتكررة، مما يعيق قدرتها على تقديم إجابات دقيقة حول المواضيع التاريخية المتخصصة.
- عدم القدرة على التحليل النقدي: رغم قدرتها على استرجاع المعلومات، تفتقر النماذج إلى المهارات التحليلية التي تتيح فهم السياق التاريخي.
-
التحيز في بيانات التدريب: أظهرت الدراسة قصورًا في تغطية بعض المناطق التاريخية، مثل أفريقيا جنوب الصحراء، مما يدل على نقص المعلومات الموثوقة في البيانات التدريبية.
لتحسين أداء الذكاء الاصطناعي في دراسة التاريخ، يجب التركيز على تحسين نوعية بيانات التدريب، وتطوير نماذج أكثر قدرة على التحليل النقدي، وزيادة دقة معايير التقييم. على الرغم من أن الذكاء الاصطناعي قد يصبح شريكًا مفيدًا في البحث التاريخي، إلا أنه لا يمكنه استبدال الخبرات البشرية.
عدد المصادر التي تم تحليلها: 3
المصدر الرئيسي : رافي برازي
post-id: 32f70a3b-4a83-4f42-855e-10f35c3c76e2