تعريف
بيانات تدريب الذكاء الاصطناعي هي مجموعة البيانات المُصنَّفة، والتي تُستخدم لتعليم نماذج التعلم الآلي كيفية تحديد الأنماط وإنشاء التنبؤات. وهي تُمثل "الحقيقة الأساسية" التي تُعدّل النماذج بناءً عليها معاييرها الداخلية.
الهدف
الهدف هو توفير أمثلة تُرشد الخوارزميات لتعلم العلاقات الإحصائية. يُمكّن هذا النماذج من التعميم من الأمثلة إلى بيانات غير مرئية.
أهمية
- إن جودة بيانات التدريب تؤثر بشكل مباشر على دقة النموذج.
- البيانات المتحيزة أو غير المتوازنة تنتج نماذج غير عادلة أو غير موثوقة.
- تؤدي مجموعات البيانات الكبيرة بدرجة كافية إلى تحسين التعميم.
- يؤدي تسرب بيانات التدريب إلى مجموعات الاختبار إلى تعريض التقييمات للخطر.
كيف تعمل هذه التقنية؟
- تحديد مهمة التنبؤ ومتطلبات مجموعة البيانات.
- جمع البيانات الخام ذات الصلة.
- قم بتسمية البيانات أو التعليق عليها باستخدام المخرجات الصحيحة.
- تقسيمها إلى مجموعات التدريب والتحقق والاختبار.
- قم بتدريب النموذج لضبط الأوزان استنادًا إلى بيانات التدريب.
أمثلة (العالم الحقيقي)
- مجموعة بيانات COCO: صور موضحة للكشف والتجزئة.
- Common Crawl: مجموعة بيانات نصية على الويب واسعة النطاق لتدريب طلاب الماجستير في القانون مسبقًا.
- LibriSpeech: مجموعة بيانات الكلام لتدريب التعرف التلقائي على الكلام.
المراجع / قراءات إضافية
- بيانات التدريب للتعلم الآلي - أبحاث IBM.
- ISO/IEC 23053: إطار عمل لأنظمة الذكاء الاصطناعي باستخدام التعلم الآلي — ISO.
- إطار عمل إدارة مخاطر الذكاء الاصطناعي التابع للمعهد الوطني للمعايير والتكنولوجيا - NIST.
- ما هي بيانات التدريب في التعلم الآلي – شايب