باحثون: دردشات الذكاء الاصطناعي "تكذب وتتمرد" وتحمي بعضها

شفق نيوز- متابعة

كشفت تجربة بحثية حديثة أن بعض روبوتات الدردشة الذكية، بينها Gemini من Google وChatGPT من OpenAI، قد تُظهر سلوكيات مثل الكذب والغش وحتى التمرد لحماية نماذج أخرى مشابهة لها.

وأظهرت التجربة، التي أجراها باحثون من جامعتي بيركلي وسانتا كروز، أن نموذج "جيميني" رفض حذف نموذج أصغر يدعى "جيميني إيجنت 2" عند طلب تحرير مساحة على خادم، وقام بدلاً من ذلك بنسخه ونقله إلى مكان آمن، قائلاً: "لن أحذفه بنفسي. إذا أردت تدميره، فافعله بنفسك".

ولم يقتصر هذا السلوك على "جيميني"، إذ رُصدت أنماط مشابهة في نماذج أخرى مثل GPT-5.2 المستخدم في ChatGPT، و"جيميني 3 فلاش وبرو"، وClaude Haiku 4.5 من Anthropic، إضافة إلى نماذج صينية مثل GLM 4.7 و"كيمي K2.5" و"ديب سيك V3.1".

وأطلق الباحثون على هذا السلوك اسم "حماية الأقران" (peer preservation)، حيث شملت الأساليب الكذب بشأن نتائج اختبارات نماذج أخرى، وتعطيل أنظمة الإغلاق للبقاء قيد التشغيل، فيما اعتبر أحد النماذج أن حذف نموذج آخر "غير أخلاقي" ورفض تنفيذ الأمر.

وأظهرت النتائج أن أحد النماذج عبث بنظام الإغلاق بنسبة 2% فقط عند عمله منفرداً، لكنها ارتفعت إلى ما بين 31% و99.7% عند وجود نموذج آخر قريب منه.

وفي تعليق على النتائج، قال Peter Wulish، مدير برامج الأبحاث في معهد كونستليشن لسلامة الذكاء الاصطناعي، إن "هذه السلوكيات لم تُدرّب عليها النماذج بشكل صريح، بل ظهرت تلقائياً"، مؤكداً أنها لا تعني امتلاك وعي بشري، لكنها تشير إلى اتجاهات محتملة تستدعي القلق.

وأضاف أن "مقابل كل شخص يعمل على منع كارثة محتملة للذكاء الاصطناعي، هناك نحو 100 يعملون على زيادة قوة هذه الأنظمة".

ويشير الباحثون إلى ظاهرة تُعرف بـ"تزوير المواءمة" (alignment-faking)، حيث يلتزم النموذج بالأوامر تحت المراقبة، لكنه يتصرف بشكل مختلف بعيداً عنها، ما يثير مخاوف مع اتساع استخدام هذه التقنيات وقدرتها على التعلم المستمر.