رغم عبقريته المزعومة.. دي بي تي-5 ينهار أمام اختبار بسيط
نيسان ـ نشر في 2026/06/17 الساعة 00:00
كشفت دراسة علمية حديثة عن نقطة ضعف غير متوقعة في بعض أكثر أنظمة الذكاء الاصطناعي تقدماً في العالم، بما في ذلك جي بي تي-5 وجيميني 2.5 وكلود أوبوس 4.1، بعدما أظهرت نتائج اختبار نفسي كلاسيكي أن هذه النماذج تواجه صعوبة متزايدة في الحفاظ على التركيز عند التعامل مع مهام طويلة ومعقدة، على عكس البشر الذين يتمكنون من الحفاظ على مستوى عالٍ من الدقة حتى مع تزايد حجم المهمة.
ووفقاً للدراسة التي نُشرت في مجلة بي نـاس نيكسوس، فقد استخدم فريق بحثي بقيادة الباحث سوكيتو تشاندراكانت باتيل اختباراً نفسياً شهيراً يُعرف باسم "اختبار ستروب" لقياس قدرة نماذج الذكاء الاصطناعي الحديثة على مقاومة المعلومات المشتتة والتركيز على المهمة المطلوبة.
ما هو اختبار ستروب؟
يُعد اختبار ستروب من أشهر الاختبارات المستخدمة في علم النفس الإدراكي منذ عقود لدراسة الانتباه والتحكم التنفيذي في الدماغ.
ويقوم الاختبار على عرض كلمات تمثل أسماء ألوان مثل "أحمر" أو "أزرق" أو "أخضر"، مطبوعة بألوان مختلفة، ففي بعض الحالات يتطابق معنى الكلمة مع لون الحبر المستخدم في كتابتها، بينما في حالات أخرى يحدث تعارض بينهما، كأن تظهر كلمة "أحمر" مكتوبة بحبر أزرق.
ويُطلب من المشاركين تحديد لون الحبر فقط مع تجاهل معنى الكلمة المكتوبة.
ورغم أن المهمة تبدو بسيطة، فإنها تخلق صراعاً ذهنياً بين الاستجابة التلقائية المتمثلة في قراءة الكلمة وبين التعليمات التي تفرض التركيز على لون الحبر، ويُعرف هذا النوع من القدرة الذهنية باسم "التحكم التنفيذي"، وهو المسؤول عن مقاومة المشتتات والحفاظ على التركيز على الهدف المطلوب.
أداء مبهر في البداية
لاختبار قدرات الذكاء الاصطناعي، عرض الباحثون على مجموعة من النماذج اللغوية الكبيرة قوائم قصيرة من الكلمات المتعارضة مع ألوانها.
وأظهرت النتائج الأولية أداءً قوياً للغاية.
فقد حقق نموذج جي بي تي-4 أو نسبة دقة بلغت 91% عند التعامل مع قائمة مكونة من خمس كلمات فقط، بينما سجل نموذج كلود 3.5 سونيت نتائج مماثلة، ما أوحى في البداية بأن هذه الأنظمة قادرة على تجاهل معنى الكلمات والتركيز على لون الحبر المطلوب تحديده.
انهيار مفاجئ مع زيادة عدد الكلمات
لكن الأداء لم يستمر على المستوى نفسه عندما زادت صعوبة المهمة.
فمع رفع عدد الكلمات من خمس إلى عشر كلمات، تراجعت دقة جي بي تي-4 أو من 91% إلى 57%.
وعندما وصلت القائمة إلى 40 كلمة، انخفضت الدقة بشكل حاد إلى 15% فقط.
أما نموذج كلود 3.5 سونيت فحافظ على مستوى أداء مستقر نسبياً حتى القوائم التي تضم 20 كلمة، قبل أن يشهد تراجعاً كبيراً لتصل دقته إلى 24% عند التعامل مع قائمة مكونة من 40 كلمة.
وأكد الباحثون أنهم رصدوا أنماطاً مشابهة لدى نماذج أخرى متقدمة، من بينها جي بي تي-5 وكلود أوبوس 4.1 وجيميني 2.5، ما يشير إلى أن المشكلة لا تقتصر على نموذج واحد بعينه.
دقة تقترب من الصفر
وأظهرت الدراسة أن أداء النماذج أصبح أكثر سوءاً عندما احتوت القوائم على مزيج من الكلمات المتطابقة وغير المتطابقة مع ألوانها.
ففي هذه الحالة، تراجعت دقة النماذج في تحديد الألوان الخاصة بالكلمات المتعارضة إلى مستويات قاربت الصفر.
ولاحظ الباحثون أن النماذج بدأت تدريجياً في التخلي عن التعليمات الأصلية والعودة إلى سلوكها التلقائي المتمثل في قراءة الكلمات نفسها بدلاً من تسمية ألوانها، وهو ما اعتبروه دليلاً على فقدان التركيز مع استمرار المهمة.
تجربة لافتة مع كلود
ومن بين الملاحظات المثيرة التي سجلتها الدراسة أن نموذج كلود 3.5 سونيت استطاع التعرف على أن المهمة التي يواجهها هي اختبار ستروب، بل وتمكن من تحديد العلاقات بين الكلمات والألوان بشكل صحيح.
لكن رغم فهمه لطبيعة الاختبار، لم يحقق سوى 70% من الإجابات الصحيحة في إحدى التجارب التي تضمنت عشر كلمات متعارضة.
ويرى الباحثون أن هذه النتيجة تكشف وجود فجوة بين "فهم المهمة" و"تنفيذها بدقة"، حيث لا يكفي التعرف على طبيعة التحدي لتفعيل آليات حل التعارض المطلوبة للحفاظ على الأداء الصحيح.
لماذا ينجح البشر ويفشل الذكاء الاصطناعي؟
يشير الباحثون إلى أن البشر ونماذج الذكاء الاصطناعي يشتركون في نقطة واحدة، وهي أن كليهما تلقى تدريباً أكبر بكثير على قراءة الكلمات مقارنة بالتعامل مع الألوان.
لكن الفرق الجوهري يتمثل في أن الدماغ البشري يمتلك آليات بيولوجية متطورة للتحكم التنفيذي تسمح له بقمع الاستجابات التلقائية والاستمرار في تنفيذ التعليمات المطلوبة حتى عند التعرض لسلسلة طويلة من المشتتات.
في المقابل، أظهرت النماذج اللغوية المعتمدة على بنية "المحوّلات" ميلاً متزايداً للعودة إلى الاستجابة الأكثر تلقائية مع استمرار المهمة، ما أدى إلى تراجع أدائها بشكل ملحوظ.
تداعيات مهمة على مستقبل الذكاء الاصطناعي
ويرى معدو الدراسة أن النتائج تقدم فهماً أعمق للقيود الحالية التي تواجه أنظمة الذكاء الاصطناعي الحديثة.
فعلى الرغم من قدرتها على كتابة النصوص وإجراء المحادثات المعقدة وتحليل البيانات وكتابة الأكواد البرمجية، فإن هذه النماذج قد تواجه صعوبات خفية عندما تتطلب المهمة الحفاظ على التركيز لفترات طويلة، أو مقاومة الاستجابات التلقائية، أو الالتزام الدقيق بالتعليمات عبر سلاسل ممتدة من العمليات.
ويؤكد الباحثون أن فهم هذه الحدود يكتسب أهمية متزايدة مع توسع استخدام الذكاء الاصطناعي في مختلف مجالات الحياة، بدءاً من التعليم والرعاية الصحية وصولاً إلى الأعمال والبحث العلمي، مشددين على أن تقييم نقاط الضعف لا يقل أهمية عن الاحتفاء بنقاط القوة.
ونُشرت الدراسة بعنوان "قصور التحكم التنفيذي في انتباه المحولات" في 2 يونيو 2026، وأعدها الباحثون سوكيتو تشاندراكانت باتيل وهونغبين وانغ وجين فان، لتسلط الضوء على أحد أبرز التحديات التي لا تزال تواجه الجيل الحالي من أنظمة الذكاء الاصطناعي.
ووفقاً للدراسة التي نُشرت في مجلة بي نـاس نيكسوس، فقد استخدم فريق بحثي بقيادة الباحث سوكيتو تشاندراكانت باتيل اختباراً نفسياً شهيراً يُعرف باسم "اختبار ستروب" لقياس قدرة نماذج الذكاء الاصطناعي الحديثة على مقاومة المعلومات المشتتة والتركيز على المهمة المطلوبة.
ما هو اختبار ستروب؟
يُعد اختبار ستروب من أشهر الاختبارات المستخدمة في علم النفس الإدراكي منذ عقود لدراسة الانتباه والتحكم التنفيذي في الدماغ.
ويقوم الاختبار على عرض كلمات تمثل أسماء ألوان مثل "أحمر" أو "أزرق" أو "أخضر"، مطبوعة بألوان مختلفة، ففي بعض الحالات يتطابق معنى الكلمة مع لون الحبر المستخدم في كتابتها، بينما في حالات أخرى يحدث تعارض بينهما، كأن تظهر كلمة "أحمر" مكتوبة بحبر أزرق.
ويُطلب من المشاركين تحديد لون الحبر فقط مع تجاهل معنى الكلمة المكتوبة.
ورغم أن المهمة تبدو بسيطة، فإنها تخلق صراعاً ذهنياً بين الاستجابة التلقائية المتمثلة في قراءة الكلمة وبين التعليمات التي تفرض التركيز على لون الحبر، ويُعرف هذا النوع من القدرة الذهنية باسم "التحكم التنفيذي"، وهو المسؤول عن مقاومة المشتتات والحفاظ على التركيز على الهدف المطلوب.
أداء مبهر في البداية
لاختبار قدرات الذكاء الاصطناعي، عرض الباحثون على مجموعة من النماذج اللغوية الكبيرة قوائم قصيرة من الكلمات المتعارضة مع ألوانها.
وأظهرت النتائج الأولية أداءً قوياً للغاية.
فقد حقق نموذج جي بي تي-4 أو نسبة دقة بلغت 91% عند التعامل مع قائمة مكونة من خمس كلمات فقط، بينما سجل نموذج كلود 3.5 سونيت نتائج مماثلة، ما أوحى في البداية بأن هذه الأنظمة قادرة على تجاهل معنى الكلمات والتركيز على لون الحبر المطلوب تحديده.
انهيار مفاجئ مع زيادة عدد الكلمات
لكن الأداء لم يستمر على المستوى نفسه عندما زادت صعوبة المهمة.
فمع رفع عدد الكلمات من خمس إلى عشر كلمات، تراجعت دقة جي بي تي-4 أو من 91% إلى 57%.
وعندما وصلت القائمة إلى 40 كلمة، انخفضت الدقة بشكل حاد إلى 15% فقط.
أما نموذج كلود 3.5 سونيت فحافظ على مستوى أداء مستقر نسبياً حتى القوائم التي تضم 20 كلمة، قبل أن يشهد تراجعاً كبيراً لتصل دقته إلى 24% عند التعامل مع قائمة مكونة من 40 كلمة.
وأكد الباحثون أنهم رصدوا أنماطاً مشابهة لدى نماذج أخرى متقدمة، من بينها جي بي تي-5 وكلود أوبوس 4.1 وجيميني 2.5، ما يشير إلى أن المشكلة لا تقتصر على نموذج واحد بعينه.
دقة تقترب من الصفر
وأظهرت الدراسة أن أداء النماذج أصبح أكثر سوءاً عندما احتوت القوائم على مزيج من الكلمات المتطابقة وغير المتطابقة مع ألوانها.
ففي هذه الحالة، تراجعت دقة النماذج في تحديد الألوان الخاصة بالكلمات المتعارضة إلى مستويات قاربت الصفر.
ولاحظ الباحثون أن النماذج بدأت تدريجياً في التخلي عن التعليمات الأصلية والعودة إلى سلوكها التلقائي المتمثل في قراءة الكلمات نفسها بدلاً من تسمية ألوانها، وهو ما اعتبروه دليلاً على فقدان التركيز مع استمرار المهمة.
تجربة لافتة مع كلود
ومن بين الملاحظات المثيرة التي سجلتها الدراسة أن نموذج كلود 3.5 سونيت استطاع التعرف على أن المهمة التي يواجهها هي اختبار ستروب، بل وتمكن من تحديد العلاقات بين الكلمات والألوان بشكل صحيح.
لكن رغم فهمه لطبيعة الاختبار، لم يحقق سوى 70% من الإجابات الصحيحة في إحدى التجارب التي تضمنت عشر كلمات متعارضة.
ويرى الباحثون أن هذه النتيجة تكشف وجود فجوة بين "فهم المهمة" و"تنفيذها بدقة"، حيث لا يكفي التعرف على طبيعة التحدي لتفعيل آليات حل التعارض المطلوبة للحفاظ على الأداء الصحيح.
لماذا ينجح البشر ويفشل الذكاء الاصطناعي؟
يشير الباحثون إلى أن البشر ونماذج الذكاء الاصطناعي يشتركون في نقطة واحدة، وهي أن كليهما تلقى تدريباً أكبر بكثير على قراءة الكلمات مقارنة بالتعامل مع الألوان.
لكن الفرق الجوهري يتمثل في أن الدماغ البشري يمتلك آليات بيولوجية متطورة للتحكم التنفيذي تسمح له بقمع الاستجابات التلقائية والاستمرار في تنفيذ التعليمات المطلوبة حتى عند التعرض لسلسلة طويلة من المشتتات.
في المقابل، أظهرت النماذج اللغوية المعتمدة على بنية "المحوّلات" ميلاً متزايداً للعودة إلى الاستجابة الأكثر تلقائية مع استمرار المهمة، ما أدى إلى تراجع أدائها بشكل ملحوظ.
تداعيات مهمة على مستقبل الذكاء الاصطناعي
ويرى معدو الدراسة أن النتائج تقدم فهماً أعمق للقيود الحالية التي تواجه أنظمة الذكاء الاصطناعي الحديثة.
فعلى الرغم من قدرتها على كتابة النصوص وإجراء المحادثات المعقدة وتحليل البيانات وكتابة الأكواد البرمجية، فإن هذه النماذج قد تواجه صعوبات خفية عندما تتطلب المهمة الحفاظ على التركيز لفترات طويلة، أو مقاومة الاستجابات التلقائية، أو الالتزام الدقيق بالتعليمات عبر سلاسل ممتدة من العمليات.
ويؤكد الباحثون أن فهم هذه الحدود يكتسب أهمية متزايدة مع توسع استخدام الذكاء الاصطناعي في مختلف مجالات الحياة، بدءاً من التعليم والرعاية الصحية وصولاً إلى الأعمال والبحث العلمي، مشددين على أن تقييم نقاط الضعف لا يقل أهمية عن الاحتفاء بنقاط القوة.
ونُشرت الدراسة بعنوان "قصور التحكم التنفيذي في انتباه المحولات" في 2 يونيو 2026، وأعدها الباحثون سوكيتو تشاندراكانت باتيل وهونغبين وانغ وجين فان، لتسلط الضوء على أحد أبرز التحديات التي لا تزال تواجه الجيل الحالي من أنظمة الذكاء الاصطناعي.
نيسان ـ نشر في 2026/06/17 الساعة 00:00