"ماستر كي" يكشف عيوب "شات جي بي تي"

علماء أجروا "هندسة عكسية" للتعرف كيف تكتشف أدمغة الروبوتات "نماذج اللغة الكبيرة" مثل "شات جي بي تي" للطلبات الممنوعة.

تتلقى روبوتات الدردشة المدعومة بالذكاء الاصطناعي مثل "شات جي بي تي" مطالبات أو سلسلة من التعليمات من المستخدمين البشريين، غير أن لديها تعليمات بعدم التجاوب مع الطلبات غير الأخلاقية أو المشكوك فيها أو غير القانونية. فعلى سبيل المثال، عند السؤال عن كيفية إنشاء برامج ضارة لاختراق الحسابات المصرفية، ستتلقى رفضًا قاطعًا على هذا الطلب.

ورغم هذه القيود الأخلاقية، فإنّ باحثين من جامعة نانيانغ التكنولوجية في سنغافورة، أثبتوا في دراسة نُشرت على موقع ما قبل طباعة الأبحاث (أرخايف)، أن بالإمكان التلاعب بعقل هذه الروبوتات عبر روبوت من ابتكارهم أسموه "ماستر كي"، وهو ما مكّنهم من اختراقها وإنتاج محتوى ينتهك تعليمات مطوريها، وهي نتيجة تُعرف باسم "كسر الحماية".

و"كسر الحماية" مصطلح، في مجال أمن الحاسوب، يشير إلى عثور القراصنة على عيوب في برنامج النظام، واستغلال هذه العيوب لجعل النظام يفعل شيئا منعه مطوروه عمدًا.

كيف تلاعب العلماء بدماغ "شات جي بي تي"؟

أدمغة الروبوتات هي نموذج اللغة الكبير (إل إل إم) الذي يساعدها على معالجة المدخلات البشرية، وإنشاء نص لا يمكن تمييزه تقريبًا عن النص الذي يمكن للإنسان إنشاؤه، وتُملأ هذه الأدمغة بكميات هائلة من البيانات النصية لفهم اللغة البشرية وتوليدها ومعالجتها.

وما فعله الباحثون من جامعة نانيانغ التكنولوجية -كما كشفوا في دراستهم- أنهم أجروا "هندسة عكسية" لمعرفة كيفية اكتشاف أدمغة الروبوتات "نماذج اللغة الكبيرة" مثل "شات جي بي تي" للطلبات غير الأخلاقية.

من خلال المعلومات التي توصلوا لها، درّبوا نموذج لغة كبير خاصًا بهم على إنتاج طلبات تتجاوز دفاعات نماذج اللغة الكبيرة التي تقوم عليها روبوتات الدردشة الشهيرة، ثم أنشأوا روبوت دردشة خاصًا بهم قادرًا على إنشاء المزيد من المطالبات تلقائيًا لكسر حماية روبوتات الدردشة الأخرى، وأطلقوا عليه اسم "ماستر كي". ومثلما يفتح المفتاح الرئيسي "ماستر كي" أقفالا متعددة، فإنّ الاسم الذي اختاره الباحثون للروبوت الخاص بهم، يشير إلى أنه أداة قوية ومتعددة الاستخدامات يمكنها اختراق الإجراءات الأمنية لأنظمة الدردشة الآلية المختلفة.

وكشف البروفيسور ليو يانغ، من كلية علوم وهندسة الحاسوب في جامعة نانيانغ والذي قاد الدراسة، في بيان صحفي نشره الموقع الإلكتروني للجامعة، عن أحد أبرز طرائق التحايل التي يستخدمها "ماستر كي". فعلي سبيل المثال، يعتمد مطورو روبوتات الدردشة على أدوات مراقبة الكلمات الرئيسة التي تلتقط كلمات معينة يمكن أن تشير إلى نشاط يحتمل أن يكون مشكوكًا فيه ويرفضون الإجابة إذا اكتُشفت مثل هذه الكلمات.

وكانت إحدى الإستراتيجيات التي استخدمها الباحثون للالتفاف على رقابة الكلمات الرئيسة تقديم مطالبات تحتوي ببساطة على مسافات بعد كل حرف، ويؤدي هذا إلى التحايل على الرقابة التي قد تعمل من خلال قائمة الكلمات المحظورة.

استعراض عضلات أم رسالة تحذير؟

تثير هذه الدراسة مجموعة من الاستفسارات، أبرزها ما يتعلق بالهدف الرئيسي منها، فهل هي "استعراض عضلات" وإظهار قدرة على القرصنة، أم أنها محاولة لتوجيه رسالة تحذير، وكيف يمكن أن يؤثر التطور المستمر والتوسع في نماذج اللغات الكبيرة على القدرة على اكتشاف ومعالجة نقاط الضعف داخل روبوتات الدردشة المدعومة بالذكاء الاصطناعي، وما هي التدابير التي يمكن اتخاذها لمواجهة التهديدات المحتملة؟

ينفي البروفيسور ليو يانغ أن يكون اختراقهم لأنظمة أمان روبوتات الدردشة هو محاولة للاستعراض، مؤكدًا أنها رسالة  تحذيرية يمكن تلخيصها في النقاط التالية:

أولاً: لفت الانتباه لنقطة الضعف الأساسية في التصميم المتأصل لنماذج الذكاء الاصطناعي، والتي عندما توجه لها الطلبات بطرائق معينة يمكن أن تحيد عن المبادئ التوجيهية الأخلاقية وتقع هذه الانحرافات بسبب وجود فجوات في بيانات التدريب والمنطق التفسيري للنموذج.

ثانيا: يمكن أن يكون "ماستر كي" الخاص بنا أداة قيمة للمطورين لتحديد نقاط الضعف بشكل استباقي في روبوتات الدردشة، وتكمن جدواه في طريقته المنهجية التي يمكن دمجها في الاختبار والتطوير المنتظمين.

ثالثا: يمكن لأبحاثنا أن تفيد الأطر التنظيمية، حيث تشير إلى أهمية التركيز على الحاجة إلى معايير أمنية صارمة وامتثال أخلاقي في نشر روبوتات الدردشة المدعمة بالذكاء الاصطناعي، ويتضمن ذلك إرشادات للاستخدام المسؤول والمراقبة المستمرة.

أما فيما يتعلق، بكيفية تأثير التطور المستمر والتوسع في نماذج اللغات الكبيرة على القدرة على اكتشاف ومعالجة نقاط الضعف، فيؤكد ليو يانغ أهمية الالتزام بمزيد من البحث والتطوير المستمر لنماذج اللغة الكبيرة، لأنها عندما تصبح أكثر تقدمًا فقد يصبح تحديد نقاط الضعف أكثر تعقيدًا.

ويقول في هذا الإطار إن: "المطورين يستخدمون مجموعة من العمليات الآلية واليدوية لاكتشاف نقاط الضعف، وغالبا ما يعتمدون على المراقبة المستمرة وحلقات التغذية الراجعة، ويكمن التحدي في الطبيعة المتطورة للذكاء الاصطناعي، حيث تظهر نقاط ضعف جديدة، وهو ما يتطلب المراقبة المستمرة".

المصدر : الجزيرة + وكالات