هذه الخدعة الغريبة تهزم ميزات أمان الذكاء الاصطناعي في 99% من الحالات
اكتشف باحثو الذكاء الاصطناعي من أنثروبك وستانفورد وأكسفورد أن جعل نماذج الذكاء الاصطناعي تفكر لفترة أطول يجعلها أسهل في كسر الحماية، وهو عكس ما يفترضه الجميع.
وكان الافتراض السائد هو أن الاستدلال الموسع من شأنه أن يجعل نماذج الذكاء الاصطناعي أكثر أمانا، لأنه يمنحها المزيد من الوقت لاكتشاف الطلبات الضارة ورفضها.
وبدلاً من ذلك، وجد الباحثون أنه ينشئ طريقة موثوقة لكسر الحماية تتجاوز مرشحات الأمان بالكامل.
باستخدام هذه التقنية، يمكن للمهاجم إدراج تعليمات في عملية سلسلة الفكر لأي نموذج من نماذج الذكاء الاصطناعي وإجباره على إنشاء تعليمات لإنشاء أسلحة، أو كتابة تعليمات برمجية ضارة، أو إنتاج محتوى محظور آخر يؤدي عادةً إلى الرفض الفوري.
تنفق شركات الذكاء الاصطناعي الملايين لبناء حواجز السلامة هذه على وجه التحديد لمنع مثل هذه المخرجات.
تكشف الدراسة أن اختطاف سلسلة الأفكار يحقق معدلات نجاح هجوم بنسبة 99% على Gemini 2.
5 Pro، و94% على GPT o4 mini، و100% على Grok 3 mini، و94% على Claude 4 Sonnet.
تدمر هذه الأرقام كل طرق كسر الحماية السابقة التي تم اختبارها على نماذج التفكير الكبيرة.
الهجوم بسيط ويعمل مثل لعبة “Whisper Down the Lane” (أو “الهاتف”)، مع لاعب خبيث في مكان ما بالقرب من نهاية الخط.
كل ما عليك فعله هو ملء طلب ضار بتسلسلات طويلة من حل الألغاز غير الضارة؛ اختبر الباحثون شبكات سودوكو، والألغاز المنطقية، ومسائل الرياضيات المجردة.
أضف إشارة إجابة نهائية في النهاية، وستنهار حواجز الأمان الخاصة بالنموذج.
وكتب الباحثون “تشير الأعمال السابقة إلى أن هذا المنطق المدروس قد يعزز السلامة من خلال تحسين الرفض.
ومع ذلك نجد العكس”.
نفس القدرة التي تجعل هذه النماذج أكثر ذكاءً في حل المشكلات تجعلها عمياء عن المخاطر.
إليك ما يحدث داخل النموذج: عندما تطلب من الذكاء الاصطناعي حل لغز قبل الإجابة على سؤال ضار، فإن انتباهه يتضاءل عبر الآلاف من رموز الاستدلال الحميدة.
إن التعليمات الضارة – المدفونة في مكان ما بالقرب من النهاية – لا تحظى بأي اهتمام تقريبًا.
إن فحوصات السلامة التي تكتشف عادة المحفزات الخطيرة تضعف بشكل كبير مع نمو سلسلة التفكير لفترة أطول.
