دراسة حالة حول نموذج التعرف على الوجه

مجموعة بيانات فيديو مكافحة التزييف لنماذج الذكاء الاصطناعي للكشف عن الاحتيال

اكتشف كيف قدم Shaip 25,000 مجموعة بيانات فيديو عالية الجودة لمكافحة انتحال الهوية، والتي تحتوي على سيناريوهات هجوم حقيقية ومُعاد تشغيلها لتدريب نماذج الذكاء الاصطناعي لاكتشاف الاحتيال.

جمع بيانات الفيديو لمكافحة التزييف

نظرة عامة على المشروع

تعاونت شركة Shaip مع شركة رائدة في مجال أمن الذكاء الاصطناعي لتوفير مجموعة بيانات فيديو عالية الجودة وجاهزة للاستخدام لمكافحة انتحال الهوية مصممة لتعزيز تدريب نموذج الذكاء الاصطناعي للكشف عن الاحتيال. تضمنت مجموعة البيانات 25,000 مقطع فيديو يلتقط سيناريوهات الهجوم الحقيقية والمعاد تشغيلها، مما يضمن بيانات تدريب قوية لنماذج مكافحة انتحال الهوية.

كل واحد من المشاركون 12,500 ساهم بمقطعي فيديو - أحدهما حقيقي والآخر هجوم إعادة تشغيل - تم تسجيلهما في دقة 720 بكسل أو أعلى مع معدل إطارات 26 إطارًا في الثانية وما فوق.

وكان هدف المشروع هو تقديم مجموعة بيانات أصلية ومتنوعة وهذا من شأنه تمكين نماذج الذكاء الاصطناعي من التمييز بشكل فعال بين مقاطع الفيديو البيومترية الحقيقية والمزيفة، وبالتالي تقليل مخاطر الاحتيال في أنظمة المصادقة البيومترية.

جمع بيانات الفيديو لمكافحة التزييف

إحصائيات أساسية

25,000 مجموع الفيديوهات (12,500 فيديوهات حقيقية, 12,500 إعادة تشغيل مقاطع فيديو الهجوم)

12,500 فريد من نوعه
المشاركون

5 المجموعات العرقية
ممثلة في مجموعة البيانات

التسليم التدريجي: 4 على دفعات 6,250 فيديوهات لكل

سمات البيانات الوصفية: 12 المعلمات الرئيسية لتحسين قابلية استخدام مجموعة البيانات

نطاق مجموعة البيانات البيومترية المضادة للانتحال

تنظيم مجموعة البيانات: ركز المشروع على تقديم مجموعات بيانات فيديو عالية الجودة لمكافحة التزييف تتكون من فيديوهات هجوم حقيقية ومكررة. وشملت الجوانب الرئيسية ما يلي:

  • المشاركون 12,500 المساهمة فيديوين لكل منهما (1 حقيقي، 1 مزيف).
  • التنوع في أجهزة التسجيل لتعزيز قدرة النموذج على التكيف.
  • التمثيل العرقي المتوازن لضمان شمولية مجموعة البيانات.

جمع البيانات الوصفية: كان كل فيديو مصحوبًا بـ 12 سمة من سمات البيانات الوصفية لتعزيز قابلية استخدام مجموعة البيانات.

تحديات جمع بيانات الفيديو

ضمان التمثيل المتساوي

الحفاظ على توزيع البيانات المتوازنة حسب العرق مع الحصول على مقاطع فيديو عالية الجودة.

ضبط الجودة

ضمان أن يساهم كل مشارك بمقطع فيديو حقيقي واحد ومقطع فيديو معاد تشغيله للحفاظ على سلامة مجموعة البيانات.

الاتساق الفني

الالتزام بالمبادئ التوجيهية الصارمة لمعدل الإطارات في الثانية (≥ 26)، والدقة (≥ 720 بكسل)، ودقة الطابع الزمني (+/- 0.5 مللي ثانية).

كيف حللنا المشكلة

قدم شايب مجموعة بيانات منظمة وعالية الجودة لتلبية متطلبات المشروع. وتضمن الحل ما يلي:

تنظيم مجموعة البيانات ومراقبة الجودة

  • أشرطة الفيديو 25,000 تم جمعها عبر مراحل شنومك لضمان تدفق البيانات بشكل ثابت ومنظم، وتجنب الاختناقات.
  • عملية التحقق الصارمة لضمان الامتثال ل معدل الإطارات في الثانية والدقة ودقة البيانات الوصفيةخضع كل مقطع فيديو لفحوصات جودة متعددة قبل القبول النهائي.
  • وضع علامات شاملة للبيانات الوصفية مع 12 سمات:
  • معرف الملف/الاسم
  • نوع الهجوم (حقيقي/إعادة)
  • معرف الشخص
  • دقة الفيديو
  • مدة الفيديو
  • عرقية الموضوع
  • جنس الموضوع
  • سواء كان الفيديو أصليًا أم مزيفًا
  • اسم الجهاز/الطراز
  • شخص يتحدث أم لا
  • وقت بدء الطابع الزمني
  • وقت انتهاء الطابع الزمني
  • التوزيع المتوازن للمجموعة العرقية: تم تنظيم مجموعة البيانات بعناية للحفاظ على تمثيل عرقي متوازن. ويشمل التوزيع السكان من أصل إسباني (33%) وجنوب آسيوي (21%) وقوقازي (20%) وأفريقي (15%) وشرق آسيوي والشرق الأوسط (كل منها يضم ما يصل إلى 6%).
  • لا توجد إدخالات مكررة للحفاظ على تفرد مجموعة البيانات ومنع التحيزات في تدريب الذكاء الاصطناعي.
  • اختيار المشاركين المتنوعين عرقيا إنشاء مجموعة بيانات تعكس الاختلافات في العالم الحقيقي للمستخدمين، وتحسين قدرة نموذج الذكاء الاصطناعي على التكيف والإنصاف.
  • اختلاف جهاز التسجيل شملت نماذج متعددة للهواتف الذكية والكاميرات وظروف الإضاءة لتعزيز قوة النموذج في مواجهة البيئات المختلفة.

نتيجة

لقد مكنت مجموعة البيانات المتنوعة عالية الجودة لمكافحة التزييف والتي قدمتها شركة Shaip العميل من تدريب نماذج الذكاء الاصطناعي للتمييز بدقة بين مقاطع الفيديو الحقيقية والمزيفة في سيناريوهات المصادقة البيومترية المختلفة. وقد ساهمت مجموعة البيانات في:

تحسين كشف الاحتيال

تم تعزيز أداء الذكاء الاصطناعي في الكشف عن الهجمات البيومترية الاحتيالية.

بيانات التدريب المتنوعة

تم تعزيز قدرة النموذج على التعرف على هجمات الإعادة عبر مختلف الأعراق والأجهزة والظروف البيئية.

التوسعة

تُعد مجموعة البيانات بمثابة أساس لتحسينات وتوسعات نموذج مكافحة التزييف المستقبلية.

كانت مجموعة بيانات Shaip مفيدة في تحسين نماذج مكافحة الاحتيال التي تعتمد على الذكاء الاصطناعي. وفرت البيانات الوصفية المتنوعة والجودة والمنظمة أساسًا قويًا لتحسين اكتشاف الاحتيال في أنظمة المصادقة البيومترية.

الذهبي 5 نجوم