تعرّف العلامات الخفية للفيديوهات المصنوعة بالذكاء الصناعي

تعرّف العلامات الخفية للفيديوهات المصنوعة بالذكاء الصناعي

تزايد خطر العروض المرئية الصناعية وتآكل الثقة الرقمية

يشهد الفضاء الرقمي تحولًا جذريًا بفعل التقدم في نماذج الذكاء الصناعي التوليدي، لا سيما تقنية التزييف العميق «Deepfake»، وتُعد هذه التقنية التي تستخدم خوارزميات الذكاء الصناعي لتركيب الوجوه وتغيير التعبيرات والكلام والإيماءات في عروض الفيديو سلاحًا إلكترونيًا متناميًا، مما يشكل تحديًا مباشرًا لقدرة المستخدم على التمييز بين الواقع والمحتوى الصناعي.

نذكر في هذا الموضوع نصائح وأدوات للمساعدة في التعرف على ما إذا كان فيديو ما مصنوعًا بتقنيات الذكاء الصناعي أم لا.

يُنذر التطور السريع لتقنيات التزييف العميق وإمكانية الوصول إليها بمخاطر جسيمة، بما في ذلك الانتشار الواسع للمعلومات المضللة وسرقة الهوية والاستغلال. ولا يتضخم الخطر فقط بسبب الجودة المتزايدة للفيديو النهائي، ولكن بسبب سهولة استغلالها. وتستطيع أدوات اليوم توظيف أقل من 3 ثوانٍ من صوت شخص إلى إنشاء نسخة صوتية مزيفة تُستخدم في عمليات الاحتيال. وعليه، يجب أن يبدأ الكشف عنها بتدريب العين البشرية على اكتشاف صفات عروض الفيديو المولدة صناعيًا قبل الاستعانة بالأدوات التقنية المتخصصة.

كشف التزييف العميق

أول خطوة في التعرف المباشر على الفيديوهات المزيفة هي معرفة أن عروض الفيديو المولدة بواسطة الذكاء الصناعي الحديث نادرًا ما تبدو سيئة الصنع، بل غالبًا ما تكون مثالية بشكل غير طبيعي.

• عدم التناسق: لذلك، لا يجب البحث عن الأخطاء الفادحة، بل عن التفاصيل الدقيقة والمستويات المتعارضة من التناسق التي يُخفق الذكاء الصناعي في دمجها بشكل متكامل. ويجب أن ينصب التركيز الأولي على منطقة العينين، حيث غالبًا ما تظهر زجاجية أو آلية أو تشوبها ومضات غير طبيعية.

• عدم التزامن السمعي البصري: مع ذلك، تبقى العلامة الأكثر شيوعًا للكشف هي عدم التزامن السمعي البصري بين حركات الشفاه والصوت.

• ملامح بيولوجية: على الرغم من التقدم الكبير، لا تزال الخوارزميات تجد صعوبة في محاكاة التباين الطبيعي للملامح، وينبغي فحص جلد الشخص: هل يبدو ناعمًا بشكل مفرط ويفتقر إلى الملمس المسامي الطبيعي؟ كما يُخفق الذكاء الصناعي غالبًا في محاكاة التفاصيل الصغيرة والدائمة، مثل الشامات على الخد أو التجاعيد الدقيقة.

هناك نقطة ضعف حيوية أخرى تكمن في غياب الوظائف البيولوجية المستمرة. يجب على المشاهد أن يلاحظ ما إذا كان هناك غياب واضح لحركة التنفس المنتظم في الصدر، مثلًا، أو رمش العينين بمعدل طبيعي.

• تحليل الحركة: تظل الأيدي والأصابع نقطة الفشل الكلاسيكية في الفيديوهات المصنوعة. ويجب فحص عدد الأصابع بدقة، فقد تظهر الأصابع مشوهة أو بأعداد غير صحيحة. بالإضافة إلى ذلك، يجب الانتباه إلى كيفية تحرك اليدين والمفاصل والأطراف: هل تبدو الحركة عائمة أو طافية أو مشوهة في شكلها؟ كما يجب تحليل الحركة العامة للشخص الذي يظهر في الفيديو. هل تظهر حركات الشخص موجية أو مهتزة وغير طبيعية أو هل يوجد تذبذب واهتزاز في الوجه أو تكتل وتشوه؟ بالإضافة إلى ذلك، يجب الأخذ بعين الاعتبار سلوك الشخص: هل يقوم بشيء غير معقول أو يتعارض مع سياق الموقف أو شخصيته المعروفة؟

• الصوت والإيقاع: عند تحليل المكون الصوتي يجب الانتباه إلى الإيقاع؛ هل يوجد نمط غير طبيعي في الكلام يفتقر إلى الترددات البشرية الطبيعية، مثل التوقفات العادية أو توقفات التنفس التي تميز الخطاب البشري؟ يجب التحقق مما إذا كان النطق مثاليًا جدًا لدرجة تفتقر إلى النبرة أو العمق العاطفي الطبيعي أو العمر المناسب للشخص الظاهر. كما يجب الانتباه لغياب ضوضاء البيئة في الخلفية التي ينبغي أن تكون موجودة بشكل طبيعي.

• الإضاءة والظلال: وغالبًا ما يفشل الذكاء الصناعي في دمج العنصر المزيف مع الخلفية المحيطة، مما يخلق ما يُسمّى «التماس البصري». هل تبدو الأشياء في الخلفية ذائبة أو متكررة أو متشابهة بشكل غريب؟ الأهم من ذلك، يجب التحقق مما إذا كانت الإضاءة والظلال متطابقة مع مصدر الضوء المفترض في المشهد، فالتناقضات في الإضاءة والانعكاسات والظلال تُعدّ من الدلائل البصرية الأكثر إفشاء للتلاعب.

أدوات الذكاء الصناعي المضاد

في ظل التطور المتسارع لتقنيات التوليد، لم تعد الملاحظة البشرية كافية بمفردها لتوفير قرار قاطع، وأصبحت الحاجة ملحة إلى استخدام أدوات تقنية متقدمة تستخدم الذكاء الصناعي المضاد للكشف عن البصمة الخوارزمية المخفية التي لا يمكن للعين المجردة رؤيتها. وتُمثل هذه الأدوات الخطوة شبه الحاسمة، حيث تعمل بوصفها مستشعرات متخصصة قادرة على تحليل بيانات الصوت والصورة بسرعة فائقة لتقديم تقييم موضوعي للمصداقية.

جدير بالذكر أنه لا يمكن لأداة واحدة أن تكشف جميع أشكال التزييف بكفاءة عالية، مما يستدعي استخدام مجموعة من الأدوات المتخصصة. ويتمثل التحدي الأكبر في أن جميع طرق الكشف الآلي لديها معدلات فشل، وهذا يتطلب من المطورين والباحثين توقع طرق جديدة لإنشاء الوسائط الصناعية بشكل مستمر. ويجب إدراك أن سباق التسلح مستمر، وأن أدوات الكشف الحالية يجب التعامل مع نتائجها بحذر بصفتها مؤشرات وليست أحكامًا نهائية.

نذكر فيما يلي أبرز الأدوات التقنية المتاحة، للمساعدة في كشف عروض الفيديو المصنوعة بتقنيات الذكاء الصناعي:

• كاشف التلاعب الصوتي: تُمثل أداة «ديب فيك ديتيكتر» McAfee Deepfake Detector من «مكافي» دفاعًا متخصصًا ضد الاحتيال الذي يعتمد على استنساخ الصوت عبر الذكاء الصناعي، فقد أصبح من السهل جدًا على مجرمي الإنترنت استغلال الأصوات المقلدة. وتستخدم هذه الأداة نماذج الشبكات العصبية العميقة التي يتم تدريبها بخبرة للكشف عن الصوت الذي تم توليده أو التلاعب به بواسطة الذكاء الصناعي. يمكن لهذه الأداة إرسال تنبيهات في غضون ثوانٍ مباشرة في متصفح المستخدم، مما يساعد على التمييز السريع بين الحقيقي والمزيف.

• تقنية كاشف البصمة البيولوجية: تُعد تقنية «فيك كاتشر» Intel FakeCatcher من «إنتل» الأولى عالميًا في توفير منصة كشف عن التزييف العميق في الوقت الفوري، وتتمتع بدقة عالية تصل إلى 96 في المائة. وتعتمد آلية عمل هذه الأداة على مبدأ مبتكر يُعرف باسم «البصمة البشرية». فبدلًا من البحث عن عيوب في الصورة المولّدة، تركز الأداة على تحليل وحدات الـ«بكسل» في الفيديو، للكشف عن علامات تدفق الدم الناتجة عن عمل القلب. وبما أن نماذج الذكاء الصناعي لا يمكنها محاكاة هذه الوظيفة الفسيولوجية الحية، فإن غياب تلك الإشارات البيولوجية يُعدّ دليلًا قاطعًا على التلاعب.

• الماسح العميق العام: توفر منصة «ديبووير سكانر» Deepware Scanner أداة مصممة لمسح واكتشاف عروض الفيديو والصوتيات المُتلاعب بها اصطناعيًا. وتستخدم الأداة تقنية كشف عامة تستهدف التلاعب البصري والسمعي في الوسائط، وهي حل عملي لإجراء فحص سريع ومباشر عبر الإنترنت.

• منصة الأبحاث المفتوحة: تُمثل «ديب فيك أو ميتير» DeepFake o meter منصة تعمل على دمج أحدث طرق البحث مفتوحة المصدر للكشف عن الوسائط الصناعية، بما في ذلك الصور وعروض الفيديو والصوتيات. وتم تطوير هذه المنصة بدعم من جامعات ومؤسسات بحثية، وتهدف إلى توفير أداة مجانية للجمهور لتجربة وفهم التطورات الحديثة في اكتشاف الوسائط الصناعية. وتستخدم المنصة نماذج بحثية أولية، مثل LipFD لكشف التلاعب بحركة الشفاه في الفيديو، وRawNet2-Vocoder-v3 لكشف الصوت المزيف.