بيانات تدريب الذكاء الاصطناعي

ما مقدار بيانات التدريب التي تحتاجها حقًا للتعلم الآلي في عام 2026؟

يبدأ نموذج التعلم الآلي الناجح ببيانات تدريب عالية الجودة. ولكن أحد أكثر الأسئلة شيوعًا التي تطرحها الفرق في بداية أي مشروع ذكاء اصطناعي هو: ما هو مقدار بيانات التدريب الكافي؟

بصراحة، لا يوجد عدد ثابت يناسب جميع المشاريع. يعتمد حجم البيانات المطلوبة على المهمة، ومدى تعقيد النموذج، وعدد الفئات، وجودة البيانات، ودقة التصنيفات، ومعيار الأداء المطلوب تحقيقه.

عمليًا، أفضل طريقة لتقدير متطلبات بيانات التدريب هي البدء بعينة تمثيلية، ثم التدريب على مجموعات فرعية أكبر تدريجيًا، وقياس متى يبدأ أداء النموذج بالاستقرار. يساعد هذا الفرق على اتخاذ قرارات مدروسة بشأن التكلفة والجدول الزمني وجهد الشرح والنتائج المتوقعة.

في هذه المدونة، نقوم بتحليل العوامل الرئيسية التي تؤثر على حجم بيانات التدريب، ونشرح كيفية تقدير المتطلبات عمليًا، ونوضح ما يجب فعله عندما تحتاج إلى المزيد من البيانات دون تأخير خارطة طريق الذكاء الاصطناعي الخاصة بك.

لماذا تُعد بيانات التدريب مهمة؟

تُعدّ بيانات التدريب أساس كل نظام تعلّم آلي. فمهما بلغت الخوارزمية من تطور، فإنها لا تستطيع تعلّم الأنماط إلا من البيانات المستخدمة في تدريبها. وإذا كانت البيانات غير مكتملة، أو متحيزة، أو مشوّشة، أو محدودة للغاية، فسيواجه النموذج صعوبة في التعميم في العالم الحقيقي.

تساعد بيانات التدريب القوية الفرق على:

  • تحسين دقة النموذج
  • تقليل التحيز والنقاط العمياء
  • تقدير تكلفة المشروع وجدواه بدقة أكبر
  • تقليل إعادة العمل أثناء تكرار النموذج
  • بناء مسارات تحقق واختبار أكثر موثوقية

لهذا السبب، غالباً ما تستحوذ عمليات جمع البيانات وتنظيفها وتصنيفها والتحقق من صحتها على الجزء الأكبر من الجهد المبذول في مشاريع الذكاء الاصطناعي. فإذا كانت البيانات ضعيفة، ستكون التنبؤات ضعيفة أيضاً.

لا يوجد رقم عالمي محدد، ولكن هناك طريقة عملية لتقديره.

تحاول العديد من المقالات الإجابة على هذا السؤال برقم واحد، لكن هذا نادراً ما يكون مفيداً.

قد يُحقق نموذج التصنيف الثنائي البسيط أداءً جيدًا مع مجموعة بيانات صغيرة نسبيًا، بينما قد يتطلب نموذج لغوي كبير، أو نظام رؤية حاسوبية للحالات الشاذة، عددًا أكبر بكثير من الأمثلة. السؤال الأنسب ليس "ما هو العدد الأمثل؟" بل:

ما هو الحد الأدنى من بيانات التدريب عالية الجودة والممثلة المطلوبة للوصول إلى الأداء المستهدف لحالة الاستخدام هذه؟

إحدى الطرق العملية للإجابة على هذا السؤال هي استخدام منحنيات التعلم: تدريب النموذج على كميات متزايدة من البيانات ومراقبة مدى تحسن الأداء مع كل خطوة. عندما يبدأ التحسن بالتباطؤ، ستحصل على مؤشر أوضح بكثير حول ما إذا كان جمع المزيد من البيانات يستحق الاستثمار. يُوصى بهذا النهج عادةً في سير عمل التعلم الآلي العملي.

7 عوامل تحدد كمية بيانات التدريب التي تحتاجها

1. نوع النموذج: التعلم الآلي التقليدي مقابل التعلم العميق

يؤثر نوع النموذج بشكل كبير على متطلبات البيانات. غالبًا ما تحقق نماذج التعلم الآلي التقليدية، مثل الانحدار اللوجستي وأشجار القرار وتعزيز التدرج، أداءً جيدًا على مجموعات البيانات المنظمة الصغيرة، خاصةً عندما تكون الميزات مصممة بشكل جيد.

تتطلب نماذج التعلم العميق عمومًا كمية أكبر من البيانات لأنها تتعلم الميزات تلقائيًا وتحتوي على عدد أكبر من المعلمات. بالنسبة لمهام الصور والصوت واللغة، تستفيد النماذج العميقة عادةً بشكل كبير من زيادة حجم البيانات وتنوعها.

2. التعلم الخاضع للإشراف مقابل التعلم غير الخاضع للإشراف

يتطلب التعلم الخاضع للإشراف بيانات مصنفة، وهو أمر غالباً ما يكون أكثر صعوبة وتكلفة في جمعها. إذا كان نموذجك يحتاج إلى تدخل بشري لتصنيف الصور، أو نسخ الملفات الصوتية، أو تحديد الكيانات، أو تصنيف المستندات، فيجب أن تراعي متطلبات البيانات كلاً من الكمية وجهد التصنيف.

لا يتطلب التعلم غير الخاضع للإشراف بيانات مصنفة، ولكنه مع ذلك يستفيد من مجموعات البيانات الكبيرة والممثلة. حتى بدون تصنيفات، يحتاج النموذج إلى تغطية كافية لاكتشاف الأنماط والبنية ذات الدلالة. 

3. تعقيد المهمة وعدد الفئات

تختلف مهمة التصنيف الثنائي البسيطة اختلافًا كبيرًا عن مشكلة التصوير الطبي متعدد الفئات أو نظام التعرف على الكلام متعدد اللغات.

مع ازدياد تعقيد المهمة، تزداد عادةً متطلبات بيانات التدريب لأن النموذج يجب أن يتعلم:

  • المزيد من الحصص
  • تمييز أدق بين الفئات
  • حالات استثنائية أخرى
  • مزيد من التباين السياقي

على سبيل المثال، يعد التمييز بين "القط" و "الكلب" أسهل بكثير من تحديد عشرات العيوب المتشابهة بصريًا في المنتج عبر ظروف الإضاءة وزوايا الكاميرا والخلفيات.

4. جودة البيانات ودقة التصنيف

لا يعني توفر المزيد من البيانات بالضرورة تحسناً إذا كانت جودتها رديئة.

يمكن لمجموعة بيانات أصغر حجماً ذات تصنيفات دقيقة وتمثيل متوازن وتنسيق متسق أن تتفوق على مجموعة بيانات أكبر حجماً ولكنها مليئة بالتشويش. وتؤدي التصنيفات منخفضة الجودة، والسجلات المكررة، وتعريفات الفئات الضعيفة، والبيانات الوصفية المفقودة، وإرشادات الشرح غير المتسقة، إلى انخفاض أداء النموذج.

قبل جمع المزيد من البيانات، ينبغي على الفرق أن تسأل:

  • هل التصنيفات متسقة؟
  • هل نغطي جميع سيناريوهات المستخدم المهمة؟
  • هل البيانات تمثل ظروف الإنتاج؟
  • هل تم فصل مجموعات التدريب والتحقق والاختبار بشكل صحيح؟

بالنسبة للعديد من المشاريع، فإن تحسين جودة البيانات يحقق مكاسب أسرع من مجرد زيادة حجم البيانات.

5. التنوع والتغطية والتوازن الطبقي

ينبغي للنموذج أن يتعلم من التباين الواقعي الذي سيواجهه بعد نشره. وهذا يعني أن مجموعة البيانات يجب أن تعكس سيناريوهات مختلفة، ومجموعات مستخدمين، وأنواع أجهزة، ولهجات، وبيئات، وتنسيقات مستندات، وظروف صور، وحالات استثنائية.

إذا كانت فئة أو شريحة معينة ممثلة تمثيلاً ناقصاً، فقد يبدو النموذج دقيقاً بشكل عام، ولكنه يفشل فشلاً ذريعاً في تمثيل مجموعات فرعية حاسمة. ولهذا السبب، فإن التنوع والتوازن بين الفئات لا يقلان أهمية عن الحجم المطلق.

في كثير من الحالات، لا يكون السؤال "هل لدينا بيانات كافية؟" بل "هل لدينا ما يكفي من البيانات الصحيحة؟"

6. التعلم بالنقل والنماذج المدربة مسبقًا

إذا كنت تبدأ من نموذج مدرب مسبقًا، فقد تحتاج إلى بيانات خاصة بالمهمة أقل بكثير مما لو كنت تقوم بالتدريب من الصفر.

وهذا ينطبق بشكل خاص على:

  • تصنيف الصور باستخدام هياكل الرؤية الأساسية
  • مهام معالجة اللغة الطبيعية باستخدام نماذج قائمة على المحولات
  • نماذج الكلام المُكيَّفة مع لهجة أو مجال جديد
  • سير عمل تكييف المجال

يُمكّن التعلّم بالنقل الفرق من إعادة استخدام المعرفة المكتسبة من مجموعات البيانات الكبيرة الموجودة، مما يُقلل بشكل كبير من عبء إضافة التعليقات التوضيحية. وقد تناولت المقالة الأصلية هذا الموضوع بشكل وافٍ؛ لذا ينبغي الإبقاء عليه، ولكن مع أمثلة أوضح.

7. استراتيجية التحقق والأداء المستهدف

كما أن كمية البيانات التي تحتاجها تتحدد أيضاً بمدى جودة النموذج المطلوب.

قد ينجح النموذج الأولي بكميات بيانات متواضعة. أما نموذج الإنتاج في قطاعات الرعاية الصحية، والمالية، والتأمين، والسيارات، أو البيئات التي تتطلب التزاماً كبيراً بالمعايير، فسيتطلب تغطية أوسع، وتصنيفات أدق، وتحققاً أفضل، وأداءً أكثر موثوقية في الحالات الاستثنائية. كلما كان معدل الخطأ المقبول أكثر صرامة، كلما كان يجب أن تكون مجموعة البيانات الخاصة بك أكثر قوة.

كيفية تقدير متطلبات بيانات التدريب عملياً

بدلاً من التخمين، استخدم عملية تقدير منظمة.

الخطوة 1: ابدأ بمجموعة بيانات تجريبية تمثيلية

اجمع عينة أصغر ولكنها تمثيلية لمجال المشكلة. قم بتضمين الفئات المهمة، والتنسيقات، وأنواع المستخدمين، والاختلافات الواقعية.

الخطوة الثانية: تقسيم البيانات بشكل صحيح

أنشئ مجموعات تدريب وتحقق واختبار منفصلة. تأكد من أن مجموعة الاختبار تعكس ظروف الإنتاج ولا تُستخدم مطلقًا أثناء التدريب.

الخطوة 3: التدريب على عينات أكبر تدريجياً

قم بتدريب النموذج باستخدام أجزاء متزايدة من مجموعة البيانات، مثل 10٪، 20٪، 40٪، 60٪، 80٪، و 100٪.

الخطوة الرابعة: رسم منحنى التعلم

تتبع مقاييس الأداء مثل الدقة، ودرجة F1، والاستدعاء، والدقة، أو مقاييس الجودة الخاصة بالمهمة مع زيادة حجم مجموعة البيانات.

الخطوة 5: ابحث عن الهضبة

إذا تحسّن أداء النموذج بشكل ملحوظ مع زيادة البيانات، فربما تحتاج إلى المزيد. أما إذا استقرت التحسينات، فقد لا يكون حجم البيانات هو العامل المحدد للنجاح، بل قد يكون جودة البيانات المصنفة، أو تصميم الميزات، أو اختيار النموذج، أو عدم توازن الفئات.

الخطوة السادسة: مراجعة أداء القطاع

تحقق من أداء النموذج ليس فقط بشكل عام، بل عبر الفئات المهمة والحالات الاستثنائية. قد يصل أداء النموذج إلى مستوى ثابت بشكل عام، بينما يظل أداؤه ضعيفًا للغاية في شرائح الأقليات. تمنح هذه الطريقة أصحاب المصلحة تقديرًا أكثر واقعية لمقدار البيانات الإضافية التي تستحق جمعها.

كيف تعرف متى يكون لديك بيانات تدريب كافية

من المحتمل أن يكون لديك بيانات كافية عندما:

  • لا يتحسن أداء النموذج إلا بشكل طفيف مع إضافة المزيد من البيانات
  • تكون نتائج التحقق مستقرة عبر عمليات تشغيل متعددة أو طيات متعددة
  • تؤدي الفئات المهمة أداءً مقبولاً، وليس فقط فئة الأغلبية.
  • يحافظ الأداء على مجموعة اختبار نظيفة وغير معدلة
  • أما الأخطاء المتبقية فتنتج بشكل أكبر عن تشويش أو غموض في التصنيفات أكثر من نقص الأمثلة

من المحتمل أنك تحتاج إلى المزيد من البيانات عندما:

  • لا يزال منحنى التعلم في تصاعد
  • أداء الفئات النادرة ضعيف
  • يفشل النموذج في مواجهة الاختلافات الشائعة في العالم الحقيقي
  • تتفاوت النتائج بشكل كبير بين عمليات التشغيل
  • ينخفض ​​أداء الاختبار بشكل حاد مقارنة بأداء التحقق.

كيفية تقليل متطلبات بيانات التدريب

أحيانًا لا يكمن التحدي في تصميم النموذج، بل في ندرة البيانات، أو الميزانية، أو سرعة طرح المنتج في السوق. في هذه الحالات، يمكن للفرق تقليل اعتمادها على كميات هائلة من البيانات من خلال الاستراتيجيات المناسبة.

زيادة البيانات

تُنشئ عملية زيادة البيانات أمثلة تدريبية جديدة من البيانات الموجودة. في مجال رؤية الحاسوب، قد يشمل ذلك القص، والتدوير، والقلب، أو تعديل السطوع. أما في مجال معالجة اللغة الطبيعية والكلام، فيجب توخي الحذر الشديد عند استخدام هذه التقنية، ولكن التحويلات المُتحكَّم بها لا تزال مفيدة.

عند استخدامها بشكل صحيح، تُحسّن تقنية التوسيع من متانة النماذج وتساعدها على التعميم بشكل أفضل. أما عند استخدامها بشكل سيئ، فقد تُدخل تشويشًا أو أمثلة غير واقعية.

نقل التعلم

تتيح لك تقنية التعلم بالنقل تكييف نموذج موجود لمهمة جديدة بدلاً من تدريبه من الصفر. وغالبًا ما تكون هذه إحدى أكثر الطرق فعالية لتقليل متطلبات بيانات التدريب.

النماذج المدربة مسبقًا

يمكن للنماذج المدربة مسبقًا، مثل نماذج معالجة اللغة الطبيعية الشبيهة بنموذج BERT أو هياكل الرؤية الراسخة، أن توفر نقاط انطلاق قوية. فبدلاً من تعلم كل شيء من الصفر، يبدأ النموذج بمعرفة مسبقة مفيدة.

تعليم فعال

إذا كانت عملية تصنيف البيانات مكلفة، يمكن للتعلم النشط أن يساعد في إعطاء الأولوية للأمثلة الأكثر إفادة أولاً. وهذا يحسن كفاءة عملية التصنيف ويقلل من عدد التصنيفات اللازمة لتحقيق أداء مفيد.

البيانات التركيبية

يمكن أن تكون البيانات الاصطناعية مفيدة عندما تكون بيانات العالم الحقيقي نادرة أو حساسة أو يصعب جمعها، لا سيما في مجالات مثل الرعاية الصحية والتمويل والأنظمة ذاتية التشغيل ومحاكاة الحالات الاستثنائية. ولكن ينبغي أن تُكمّل هذه البيانات البيانات الحقيقية التمثيلية، لا أن تحل محلها تمامًا.

أمثلة واقعية لمشاريع التعلم الآلي باستخدام مجموعات بيانات قليلة

رغم أنه قد يبدو من المستحيل تنفيذ بعض مشاريع التعلم الآلي الطموحة باستخدام الحد الأدنى من المواد الخام، إلا أن بعض الحالات تكون حقيقية بشكل مذهل. استعد للدهشة.

تقرير كاجلقطاع الرعاية الصحيةعلم الأورام السريري
يكشف استطلاع Kaggle أن أكثر من 70% من مشاريع التعلم الآلي تم إكمالها باستخدام أقل من 10,000 عينة.باستخدام 500 صورة فقط، قام فريق من معهد ماساتشوستس للتكنولوجيا بتدريب نموذج للكشف عن اعتلال الأعصاب السكري في الصور الطبية من عمليات مسح العين.ومواصلة للمثال المتعلق بالرعاية الصحية، تمكن فريق من جامعة ستانفورد من تطوير نموذج لكشف سرطان الجلد باستخدام 1000 صورة فقط.

عمل التخمينات المتعلمة

تقدير متطلبات بيانات التدريب

لا يوجد رقم سحري فيما يتعلق بالحد الأدنى من البيانات المطلوبة ، ولكن هناك بعض القواعد العامة التي يمكنك استخدامها للوصول إلى رقم منطقي.

حكم 10

ك حكم التجربةمن أجل تطوير نموذج فعال للذكاء الاصطناعي ، يجب أن يكون عدد مجموعات البيانات التدريبية المطلوبة أكبر بعشر مرات من كل معلمة نموذجية ، وتسمى أيضًا درجات الحرية. تهدف قواعد "العشر" إلى الحد من التباين وزيادة تنوع البيانات. على هذا النحو ، يمكن أن تساعدك هذه القاعدة الأساسية في بدء مشروعك من خلال إعطائك فكرة أساسية عن الكمية المطلوبة من مجموعات البيانات.  

تعلم عميق

تساعد طرق التعلم العميق في تطوير نماذج عالية الجودة إذا تم توفير المزيد من البيانات للنظام. من المقبول عمومًا أن وجود 5000 صورة مصنفة لكل فئة يجب أن يكون كافيًا لإنشاء خوارزمية التعلم العميق التي يمكن أن تعمل على قدم المساواة مع البشر. لتطوير نماذج معقدة بشكل استثنائي ، يلزم ما لا يقل عن 10 ملايين عنصر مصنّف.

رؤية الكمبيوتر

إذا كنت تستخدم التعلم العميق لتصنيف الصور ، فهناك إجماع على أن مجموعة البيانات المكونة من 1000 صورة معنونة لكل فئة هي رقم معقول. 

منحنيات التعلم

تُستخدم منحنيات التعلم لإثبات أداء خوارزمية التعلم الآلي مقابل كمية البيانات. من خلال امتلاك مهارة النموذج على المحور الصادي ومجموعة بيانات التدريب على المحور السيني ، من الممكن فهم كيفية تأثير حجم البيانات على نتيجة المشروع.

تكلفة امتلاك بيانات قليلة جدًا

عندما تقوم الفرق بالتدريب على مجموعات بيانات محدودة أو ضيقة أو متحيزة، قد يبدو النموذج واعدًا في مرحلة التطوير ولكنه يفشل في مرحلة الإنتاج.

قد يؤدي نقص البيانات إلى ما يلي:

  • المفرط
  • تعميم ضعيف
  • تنبؤات غير مستقرة
  • الأداء الضعيف لدى الأقليات
  • مخاطر تحيز أعلى
  • مزيد من وقت التكرار لاحقاً

بمعنى آخر، غالباً ما تصبح القيود الموجودة في بيانات التدريب الخاصة بك هي قيود منتجك.

ماذا تفعل إذا كنت بحاجة إلى المزيد من مجموعات البيانات

تقنيات/مصادر جمع البيانات

عندما تحدد فجوة في البيانات، فإن الحل ليس دائماً "جمع كل شيء". النهج الأكثر ذكاءً هو توسيع مجموعة البيانات بشكل استراتيجي.

1. استخدم مجموعات البيانات المفتوحة بحذر

يمكن أن تساعد مجموعات البيانات المفتوحة في إنشاء النماذج الأولية أو قياس الأداء، لكنها ليست مناسبة دائمًا للاستخدام في بيئة الإنتاج. لذا، ينبغي على الفرق مراجعة مصدر البيانات، والموافقة عليها، وجودتها، ومدى ملاءمتها، وتغطيتها قبل الاعتماد عليها.

2. جمع بيانات مخصصة لحالة الاستخدام الخاصة بك

إذا كانت البيئة المستهدفة شديدة التخصص، فإن جمع البيانات المخصصة غالباً ما يكون الخيار الأمثل. وينطبق هذا بشكل خاص على سير العمل الذي يركز على مجالات محددة، مثل الذكاء الاصطناعي في الرعاية الصحية، والذكاء الاصطناعي التفاعلي، وحالات الرؤية الحاسوبية المعقدة، والأنظمة متعددة اللغات.

3. تحسين البيانات الحالية من خلال إضافة التعليقات التوضيحية

تمتلك العديد من الفرق بيانات خام بالفعل، لكنها تفتقر إلى التنظيم. ويمكن أن يؤدي الشرح والتصنيف والتنقيح ومراجعة الجودة إلى تحقيق قيمة أسرع من جمع مجموعات بيانات جديدة تمامًا.

4. إعادة التوازن للفئات الممثلة تمثيلاً ناقصاً

إذا كان الأداء ضعيفًا في فئات محددة، فركز على جمع البيانات وتصنيفها في تلك الفجوات ذات التأثير الكبير بدلاً من توسيع مجموعة البيانات بأكملها بالتساوي.

5. إضافة بيانات اصطناعية أو مُعززة عند الاقتضاء

عندما تكون البيانات الحقيقية محدودة أو حساسة، يمكن للبيانات الاصطناعية والمعززة أن تساعد في تحسين التغطية - ولكن يجب التحقق منها بعناية مقابل التوزيعات الواقعية.

6. العمل مع شريك بيانات متخصص

بالنسبة للفرق التي تبني الذكاء الاصطناعي الإنتاجي على نطاق واسع، فإن الشراكة مع مزود يمكنه جمع بيانات التدريب عالية الجودة وترخيصها وشرحها والتحقق من صحتها وإدارتها يمكن أن يقلل بشكل كبير من مخاطر المشروع ويسرع عملية النشر.

الخلاصة

لا يوجد عدد مثالي لبيانات التدريب في مجال التعلم الآلي. يعتمد العدد الأمثل على حالة الاستخدام، ونوع النموذج، وجودة البيانات، وتنوع الفئات، واستراتيجية التحقق، والأداء المستهدف.

إن الطريقة الأكثر فعالية لتقدير احتياجات بيانات التدريب هي البدء بعينة تمثيلية، وقياس الأداء باستخدام منحنيات التعلم، وتوسيع مجموعة البيانات بشكل استراتيجي بناءً على المكان الذي لا يزال النموذج يفشل فيه.

بالنسبة لبعض المشاريع، قد تكون مجموعة بيانات متواضعة وعالية الجودة كافية. أما بالنسبة لمشاريع أخرى، وخاصة تلك التي تنطوي على مخاطر عالية أو بيئات متغيرة للغاية، فإن النجاح يعتمد على مجموعات بيانات كبيرة ومنسقة بعناية ومُعَلَّمة بشكل جيد.

الأهم ليس مجرد امتلاك المزيد من البيانات، بل امتلاك... البيانات الصحيحة.

هل تفكر في مشروع رائع ولكنك تنتظر مجموعات بيانات مصممة خصيصًا لتدريب نماذجك أو تكافح من أجل الحصول على النتيجة الصحيحة من مشروعك؟ نحن نقدم مجموعات بيانات تدريبية مكثفة لمجموعة متنوعة من احتياجات المشروع. الاستفادة من إمكانات شيب من خلال التحدث إلى أحد علماء البيانات اليوم وفهم كيف قدمنا ​​مجموعات بيانات عالية الأداء وعالية الجودة للعملاء في الماضي.

لا يوجد عدد ثابت. يعتمد العدد الأمثل على المهمة، ومدى تعقيد النموذج، وجودة البيانات المصنفة، وتوازن الفئات، ودقة النموذج المستهدف. وأفضل طريقة لتقديره هي التدريب على مجموعات فرعية متزايدة وقياس تحسينات الأداء.

من المحتمل أنك تحتاج إلى المزيد من بيانات التدريب إذا استمر أداء النموذج في التحسن مع زيادة حجم البيانات، أو إذا كان أداء الفئات النادرة ضعيفًا، أو إذا كانت النتائج غير مستقرة عبر عمليات التشغيل.

نعم. يسمح التعلم بالنقل للنماذج بإعادة استخدام المعرفة من الأنظمة المدربة مسبقًا، مما يمكن أن يقلل بشكل كبير من كمية البيانات المصنفة الخاصة بالمهمة المطلوبة.

ليس بالضرورة. فزيادة البيانات ذات الجودة المنخفضة أو المصنفة بشكل سيئ قد تؤثر سلبًا على الأداء. في كثير من الحالات، يكون تحسين جودة البيانات وتوازنها وتمثيلها أكثر قيمة من مجرد زيادة حجمها.

تتطلب نماذج التعلم العميق عادةً بيانات أكثر من نماذج التعلم الآلي التقليدية، لا سيما في مهام معالجة الصور والكلام واللغة. ومع ذلك، يمكن للنماذج المدربة مسبقًا والتعلم بالنقل أن يقللا من هذا المطلب.

هل أعجبك هذا المقال؟ تابع شيب على لينكدإن للمزيد من التحديثات.

شارك الاجتماعية