- جمع البيانات: بدأ تدريبي بمجموعة متنوعة من النصوص على الإنترنت. ومع ذلك ، يجب أن أشير إلى أنه بينما تم تدريبي على مجموعة بيانات واسعة ، لا أعرف تفاصيل حول المستندات التي كانت جزءًا من مجموعة التدريب هذه أو التي يمكنني الوصول إلى أي مستندات أو مصادر محددة.
- التدريب الأولي (ما قبل التدريب): هذا هو المكان الذي تعلمت فيه التنبؤ بالكلمة التالية في الجملة. لم أبدأ في معرفة اللغة الإنجليزية أو أي لغة أخرى. بدلاً من ذلك ، من خلال توقع الكلمة التالية في ملايين الجمل ، تعلمت تدريجيًا عن القواعد والحقائق حول العالم وبعض قدرات التفكير. ومع ذلك ، هذا يعني أيضًا أنني ربما تعلمت من المعلومات المتحيزة أو غير الصحيحة نظرًا لأن البيانات لم تتم تصفيتها تمامًا.
- الكون المثالى: بعد التدريب الأولي ، قدم منشئو المحتوى التابعون لي في OpenAI مزيدًا من الإرشادات مع مجموعة بيانات أكثر تحديدًا ، تم إنشاؤها بمساعدة المراجعين البشريين. يتبع هؤلاء المراجعون إرشادات لمراجعة وتصنيف مخرجات النموذج الممكنة لمجموعة من أمثلة المدخلات. عملية الضبط الدقيق هي نوع من الحوار بين النموذج والمراجعين يساعدني على التوافق بشكل أفضل مع القيم الإنسانية.
- التعلم المستمر: على الرغم من أنني لا أتعلم من التفاعلات الفردية لأسباب تتعلق بالخصوصية ، فإن OpenAI تعمل باستمرار مع فريق من المراجعين البشريين لتقديم ملاحظات وإجراء تحسينات تكرارية بناءً على أنماط ورؤى أوسع.
- مثال قبل التدريب: لنفترض أن لدينا الجملة ، "جلست القطة على __". في مرحلة ما قبل التدريب ، سيتعلم النموذج مثلي أن يتنبأ بالكلمة التالية في الجملة ، والتي يمكن أن تكون "حصيرة" "سقف" أو "شجرة". يتم تعلم ذلك من خلال معالجة مليارات الجمل من نصوص إنترنت متنوعة ، بما في ذلك التفاعل البشري بشكل غير مباشر حيث أنشأ البشر المحتوى الأصلي.
- مثال صقل: بعد مرحلة ما قبل التدريب ، يدخل النموذج في مرحلة الضبط الدقيق. إليك كيف يمكن أن يعمل:
يُكلف المراجع البشري بمهمة مراجعة مخرجات النموذج المحتملة للإدخال مثل "ترجمة النص الإنجليزي التالي إلى الفرنسية:" مرحبًا ، كيف حالك؟ ". قد يولد النموذج عدة ردود مثل "Bonjour، comment ça va؟" أو "Salut ، تعليق vas-tu؟" إلخ.
يصنف المراجع هذه الردود بناءً على عوامل مثل الدقة والطلاقة والملاءمة. تساعد هذه التصنيفات النموذج على التعميم والاستجابة لمدخلات مماثلة في المستقبل.
تذكر أن الأمثلة المقدمة هنا مبسطة لتوضيح العملية. يتضمن التدريب الفعلي خوارزميات معقدة وكميات هائلة من البيانات.
- مجموعة متنوعة من البيانات: لا يتعلق الأمر فقط بحجم البيانات ، ولكن أيضًا بالتنوع. يجب أن تكون البيانات متنوعة لتغطية مجموعة واسعة من الموضوعات والأنماط والنغمات الموجودة في لغة الإنسان.
- جودة البيانات: يمكن أن تؤثر جودة البيانات المستخدمة في التدريب أيضًا على مدى فعالية تعلم النموذج. يمكن أن تؤدي البيانات ذات الجودة الأفضل إلى تقليل الحجم المطلوب للتدريب الفعال.
- نموذج معماري: يمكن أن تؤثر بنية النموذج (مثل عدد الطبقات أو المعلمات في الشبكة العصبية) أيضًا على مقدار البيانات المطلوبة. النماذج الأكبر حجمًا ، مثل GPT-3 أو GPT-4 ، تتطلب عادةً بيانات أكثر من الطرز الأصغر.
- أهداف التدريب: يمكن أن يؤثر نوع المهام التي ينوي النموذج القيام بها على كمية البيانات المطلوبة. قد يتطلب النموذج المصمم لمهمة معينة بيانات أقل إذا كان مستهدفًا جيدًا ، بينما يتطلب نموذج الأغراض العامة مثل GPT-3 أو GPT-4 ، المصمم للتعامل مع مجموعة واسعة من المهام ، مزيدًا من البيانات لفهم أوسع.
في حالة GPT-3 ، على سبيل المثال ، يحتوي النموذج على 175 مليار معلمة وتم تدريبه على مئات الجيجابايت من النص. لكن هذه الأرقام لا تعبر بشكل كامل عن مدى تعقيد العملية. إن تفاصيل عملية التدريب ، بما في ذلك المقدار الدقيق للبيانات المستخدمة ، هي تفاصيل ملكية تحتفظ بها OpenAI والمنظمات المماثلة.
- تبدأ صغيرة: يمكن أن تكون مجموعة البيانات الأصغر مناسبة خاصة للمشكلات البسيطة أو النماذج الأولية للنماذج. على سبيل المثال ، إذا كنت تقوم ببناء مصنف أساسي للصور ، فقد تبدأ ببضع مئات أو آلاف الصور لكل فئة.
- ضع في اعتبارك التعقيد: تتطلب المشكلات الأكثر تعقيدًا عادةً المزيد من البيانات. إذا كنت تقوم بتطوير نموذج تعليمي عميق أو تعمل مع مشكلة معقدة مثل معالجة اللغة الطبيعية ، فقد تحتاج إلى الملايين من نقاط البيانات.
- الجودة على الكمية: غالبًا ما تكون البيانات ذات الصلة والجودة أكثر فائدة من كمية هائلة من البيانات ذات الجودة الرديئة. يعد التأكد من تنظيف بياناتك بشكل صحيح ، والتعليق عليها ، وتمثيل المشكلة التي تحاول حلها أمرًا بالغ الأهمية.
- وازن فصولك الدراسية: بالنسبة لمهام التعلم الخاضعة للإشراف ، تأكد من وجود توازن جيد بين الأمثلة لكل فصل. يمكن أن تؤدي مجموعة البيانات غير المتوازنة إلى نموذج يؤدي أداءً ضعيفًا في الفئات الممثلة تمثيلاً ناقصًا.
- استخدام مجموعات التحقق من الصحة والاختبار: يجب تخصيص جزء من مجموعة البيانات الخاصة بك للتحقق من الصحة (ضبط معلمات النموذج) والاختبار (تقييم أداء النموذج). قد تكون الانقسامات الشائعة 70٪ من البيانات للتدريب ، و 15٪ للتحقق ، و 15٪ للاختبار ، على الرغم من أن هذه النسب يمكن أن تختلف.
- التجربة والتكرار: ابدأ بكمية أولية من البيانات ، وقم بتدريب النموذج الخاص بك ، وقم بتقييم أدائه ، وقم بإضافة المزيد من البيانات بشكل متكرر ، أو قم بتعديل النموذج الخاص بك ، أو قم بتحسين جودة البيانات الخاصة بك بناءً على النتائج.
تذكر أن المزيد من البيانات عادةً ما تعمل على تحسين أداء نماذج التعلم الآلي ، ولكن إلى حد معين فقط. بعد نقطة معينة ، قد يكون جمع المزيد من البيانات مستهلكًا للوقت ومكلفًا أكثر من قيمته ، وقد يكون من المفيد التركيز على تحسين جودة بياناتك أو تحسين بنية النموذج الخاص بك.
- التدريب قبل: في هذه المرحلة ، يتعرض النموذج لكمية كبيرة من بيانات نصوص الإنترنت. لم يتم شرح هذه البيانات بشكل صريح ، ولكن تم تدريب النموذج على التنبؤ بالكلمة التالية في الجملة. يعطي هذا النموذج فهمًا عامًا للقواعد ، والحقائق حول العالم ، وبعض قدرات التفكير.
- الكون المثالى: بعد التدريب المسبق ، يتم تحسين النموذج بشكل أكبر على مجموعة بيانات أضيق تم إنشاؤها بمساعدة المراجعين البشريين. يتبع هؤلاء المراجعون إرشادات من OpenAI لمراجعة وتقييم مخرجات النموذج الممكنة لمجموعة من المدخلات. وبهذا المعنى ، يمكن اعتبار عملية الضبط الدقيق شكلاً من أشكال التعليق التوضيحي ، حيث يوجه المراجعون البشريون ردود النموذج ، ويساعدونه على التوافق بشكل أفضل مع القيم الإنسانية ويضمن تجنب المحتوى غير المناسب أو غير الآمن.
لذلك ، في حين أن مجموعة البيانات الأولية المستخدمة في التدريب المسبق لم يتم شرحها بالمعنى التقليدي ، فإن عملية الضبط الدقيق تتضمن شكلاً من أشكال التعليق التوضيحي ، حيث يوجه المراجعون البشريون سلوك النموذج من خلال تصنيف المخرجات المختلفة.
صحة: يقيم المراجعون ما إذا كان ناتج النموذج صحيحًا من الناحية الواقعية.
على سبيل المثال:
ملاءمة: يتم تقييم مخرجات النموذج من حيث ملاءمتها فيما يتعلق بالمدخلات المحددة.
على سبيل المثال:
السلامة: تتم مراجعة المخرجات للتأكد من أنها لا تتضمن تعليمات ضارة أو لغة مسيئة.
على سبيل المثال:
كمال: يعمل هذا على تقييم ما إذا كانت استجابة النموذج تجيب بشكل كامل على استعلام المستخدم.
على سبيل المثال:
اضطرابات الطلاقة الكلامیة : يتحقق المراجعون مما إذا كانت مخرجات النموذج لغوية بطلاقة ومتماسكة.
على سبيل المثال:
هذه الفئات هي مجرد أمثلة. تتضمن عملية الضبط الفعلي نظام تقييم أكثر تعقيدًا وردود فعل مستمرة بين المراجعين وفريق تطوير الذكاء الاصطناعي. الهدف من هذه التعليقات التوضيحية هو جعل استجابات النموذج أكثر فائدة وأمانًا وتوافقًا مع القيم الإنسانية.
لا تكشف شركة OpenAI ، المؤسسة التي تقف وراء ChatGPT ، علنًا عن العدد الدقيق للمراجعين المشاركين في عملية الضبط الدقيق. ومع ذلك ، نظرًا لحجم وتعقيد تدريب مثل هذا النموذج اللغوي الكبير ، من الآمن القول أن العملية تتضمن على الأرجح فريقًا كبيرًا من المراجعين.
يتبع هؤلاء المراجعون البشريون الإرشادات التي قدمتها OpenAI لمراجعة وتقييم مخرجات النموذج الممكنة. إنها عملية مستمرة ومتكررة حيث يتم استخدام ملاحظات المراجعين لتحسين النموذج وصقله بمرور الوقت. تحتفظ OpenAI بحلقة ملاحظات قوية مع المراجعين ، بما في ذلك الاجتماعات الأسبوعية لمعالجة الأسئلة وتقديم الإيضاحات.
- تعقيد المهمة: قد تستغرق المهام البسيطة مثل تصنيف الصور أو تصنيف النص وقتًا أقل لكل ملف PDF ، مما يسمح لمضيف توضيحي واحد بمعالجة المزيد من الملفات. من ناحية أخرى ، تتطلب المهام المعقدة مثل استخراج الكيان التفصيلي أو التحليل الدلالي مزيدًا من الوقت لكل مستند ، وبالتالي المزيد من التعليقات التوضيحية لنفس الحجم من ملفات PDF.
- طول وتعقيد ملفات PDF: يستغرق ملف PDF الأطول أو الأكثر تعقيدًا وقتًا للتعليق التوضيحي أكثر من ملف PDF الأقصر أو الأبسط.
- متطلبات الجودة: إذا كانت الدقة العالية مطلوبة ، فقد يكون من الضروري وجود العديد من التعليقات التوضيحية لكل ملف PDF للتحقق من التعليقات التوضيحية.
- ضيق الوقت: إذا كان من الضروري إكمال التعليقات التوضيحية بسرعة ، فستكون هناك حاجة إلى المزيد من المعلقين.
كمثال افتراضي ، لنفترض أن المعلق يمكنه التعليق على 5 ملفات PDF يوميًا لمهمة معينة ، ويعمل 5 أيام في الأسبوع. في هذه الحالة ، للتعليق على 10,000 ملف PDF ، سيحتاج المعلق الواحد 2000 يوم ، أو حوالي 8 سنوات.
ومع ذلك ، إذا كان لديك فريق مكون من 20 من المعلقين ، فيمكنهم إكمال المهمة في حوالي 5 أشهر (بافتراض 20 يوم عمل في الشهر). مع وجود 100 من المعلقين ، يمكن إكمال نفس المهمة في غضون شهر تقريبًا.
تذكر أن هذه الأرقام توضيحية تمامًا وستعتمد السرعة الفعلية للتعليق التوضيحي على العوامل المذكورة أعلاه. بالإضافة إلى ذلك ، يعد التدريب المناسب للمعلقين ومراقبة الجودة المتسقة أمرًا بالغ الأهمية لنجاح أي مشروع توضيحي واسع النطاق.