إذا طلبت من نموذج Gen AI أن يكتب كلمات أغنية مثل فرقة البيتلز وإذا قام بعمل مثير للإعجاب، فهناك سبب لذلك. أو، إذا طلبت من نموذج أن يكتب نثرًا بأسلوب مؤلفك المفضل وقام بتكرار الأسلوب بدقة، فهناك سبب لذلك.
حتى ببساطة، أنت في بلد مختلف وعندما تريد ترجمة اسم وجبة خفيفة مثيرة للاهتمام تجدها في ممر السوبر ماركت، يكتشف هاتفك الذكي الملصقات ويترجم النص بسلاسة.
يقف الذكاء الاصطناعي في نقطة ارتكاز كل هذه الاحتمالات، ويرجع ذلك في المقام الأول إلى أن نماذج الذكاء الاصطناعي قد تم تدريبها على كميات هائلة من هذه البيانات - في حالتنا، مئات من أغاني فرقة البيتلز وربما كتب لكاتبك المفضل.
مع ظهور الذكاء الاصطناعي التوليدي، أصبح الجميع موسيقيين، أو كاتبين، أو فنانين، أو كلهم. تنتج نماذج Gen AI قطعًا فنية مخصصة في ثوانٍ اعتمادًا على مطالبات المستخدم. يمكنهم إنشاء فان جوخ-isque قطع فنية وحتى أن يقوم آل باتشينو بقراءة شروط الخدمات دون تواجده هناك.
وبغض النظر عن الانبهار، فإن الجانب المهم هنا هو الأخلاق. فهل من العدل أن يتم استخدام مثل هذه الأعمال الإبداعية لتدريب نماذج الذكاء الاصطناعي، التي تحاول تدريجيا أن تحل محل الفنانين؟ هل تم الحصول على الموافقة من أصحاب هذه الملكية الفكرية؟ فهل تم تعويضهم بشكل عادل؟
مرحبًا بكم في عام 2024: عام حروب البيانات
على مدى السنوات القليلة الماضية، أصبحت البيانات بمثابة نقطة جذب لجذب انتباه الشركات لتدريب نماذج الذكاء الاصطناعي الخاصة بها. مثل الرضيع، نماذج الذكاء الاصطناعي ساذجة. يجب تعليمهم ومن ثم تدريبهم. ولهذا السبب تحتاج الشركات إلى مليارات، إن لم يكن ملايين، من البيانات لتدريب النماذج بشكل مصطنع لتقليد البشر.
على سبيل المثال، تم تدريب GPT-3 على مليارات (مئات منها) من الرموز المميزة، والتي تُترجم بشكل فضفاض إلى كلمات. ومع ذلك، تكشف المصادر أنه تم استخدام تريليونات من هذه الرموز لتدريب النماذج الأحدث.
مع هذه الكميات الهائلة من مجموعات البيانات التدريبية المطلوبة، إلى أين تذهب شركات التكنولوجيا الكبرى؟
النقص الحاد في بيانات التدريب
الطموح والحجم يسيران جنبا إلى جنب. ومع قيام المؤسسات بتوسيع نطاق نماذجها وتحسينها، فإنها تحتاج إلى المزيد من بيانات التدريب. قد ينبع هذا من مطالبات الكشف عن النماذج الناجحة لـ GPT أو ببساطة تقديم نتائج محسنة ودقيقة.
وبغض النظر عن الحالة، فإن الحاجة إلى بيانات تدريب وفيرة أمر لا مفر منه.
هذا هو المكان الذي تواجه فيه الشركات أول عائق لها. وببساطة، أصبح الإنترنت صغيرًا جدًا بحيث لا يمكن لنماذج الذكاء الاصطناعي أن تتدرب عليه. وهذا يعني أن الشركات تنفد من مجموعات البيانات الموجودة لتغذية نماذجها وتدريبها.
يثير هذا المورد المستنزف مخاوف أصحاب المصلحة وعشاق التكنولوجيا لأنه من المحتمل أن يحد من تطوير وتطور نماذج الذكاء الاصطناعي، والتي ترتبط في الغالب ارتباطًا وثيقًا بكيفية وضع العلامات التجارية لمنتجاتها وكيف يُنظر إلى بعض المخاوف المزعجة في العالم على أنها يمكن معالجتها باستخدام الذكاء الاصطناعي. حلول.
وفي الوقت نفسه، هناك أيضًا أمل في شكل بيانات اصطناعية أو زواج الأقارب الرقمي كما نسميها. من وجهة نظر الشخص العادي، البيانات الاصطناعية هي بيانات التدريب التي تم إنشاؤها بواسطة الذكاء الاصطناعي، والتي يتم استخدامها مرة أخرى لتدريب النماذج.
وعلى الرغم من أن الأمر يبدو واعدًا، إلا أن خبراء التكنولوجيا يعتقدون أن تجميع بيانات التدريب هذه سيؤدي إلى ما يسمى هابسبورج للذكاء الاصطناعي. يعد هذا مصدر قلق كبير للمؤسسات لأن مجموعات البيانات الفطرية هذه قد تحتوي على أخطاء واقعية أو تحيز أو مجرد هراء، مما يؤثر سلبًا على نتائج نماذج الذكاء الاصطناعي.
اعتبر هذه لعبة الهمس الصيني ولكن التطور الوحيد هو أن الكلمة الأولى التي يتم تمريرها قد تكون بلا معنى أيضًا.
السباق للحصول على بيانات تدريب الذكاء الاصطناعي
يعد الترخيص طريقة مثالية للحصول على بيانات التدريب. على الرغم من قوتها، المكتبات والمستودعات هي مصادر محدودة. بمعنى أنها لا تستطيع تلبية متطلبات الحجم للنماذج واسعة النطاق. تشير إحصائية مثيرة للاهتمام إلى احتمال نفاد البيانات عالية الجودة لتدريب النماذج بحلول عام 2026، مع الأخذ في الاعتبار مدى توفر البيانات على قدم المساواة مع الموارد المادية الأخرى في العالم الحقيقي.
أحد أكبر مستودعات الصور – Shutterstock يحتوي على 300 مليون صورة. وفي حين أن هذا يكفي لبدء التدريب، إلا أن الاختبار والتحقق والتحسين سيحتاج إلى بيانات وفيرة مرة أخرى.
ومع ذلك، هناك مصادر أخرى متاحة. المصيد الوحيد هنا هو أنها مرمزة باللون الرمادي. نحن نتحدث عن البيانات المتاحة للجمهور من الإنترنت. فيما يلي بعض الحقائق المثيرة للاهتمام:
- يتم نشر ما يزيد عن 7.5 مليون مشاركة مدونة مباشرة كل يوم
- يوجد أكثر من 5.4 مليار شخص على منصات التواصل الاجتماعي مثل Instagram وX وSnapchat وTikTok والمزيد.
- يوجد أكثر من 1.8 مليار موقع على الإنترنت.
- يتم تحميل أكثر من 3.7 مليون مقطع فيديو على YouTube وحده كل يوم.
علاوة على ذلك، يشارك الأشخاص النصوص ومقاطع الفيديو والصور وحتى الخبرات الموضوعية علنًا من خلال ملفات podcast الصوتية فقط.
هذه أجزاء من المحتوى متاحة بشكل صريح.
لذا، فإن استخدامها لتدريب نماذج الذكاء الاصطناعي يجب أن يكون عادلاً، أليس كذلك؟
هذه هي المنطقة الرمادية التي ذكرناها سابقًا. لا يوجد رأي قاطع وسريع حول هذا السؤال لأن شركات التكنولوجيا التي لديها إمكانية الوصول إلى مثل هذه الكميات الوفيرة من البيانات تبتكر أدوات جديدة وتعديلات في السياسات لتلبية هذه الحاجة.
تعمل بعض الأدوات على تحويل الصوت من مقاطع فيديو YouTube إلى نص ثم استخدامها كرموز لأغراض التدريب. تقوم الشركات بإعادة النظر في سياسات الخصوصية، بل وتذهب إلى حد استخدام البيانات العامة لتدريب النماذج بنية محددة مسبقًا لمواجهة الدعاوى القضائية.
آليات المكافحة
وفي الوقت نفسه، تعمل الشركات أيضًا على تطوير ما يسمى بالبيانات الاصطناعية، حيث تقوم نماذج الذكاء الاصطناعي بإنشاء نصوص يمكن استخدامها مرة أخرى لتدريب النماذج مثل الحلقة.
من ناحية أخرى، ولمواجهة تخريب البيانات ومنع المؤسسات من استغلال الثغرات القانونية، تقوم مواقع الويب بتنفيذ مكونات إضافية وأكواد للتخفيف من روبوتات تخزين البيانات.
ما هو الحل النهائي؟
لقد كان تأثير الذكاء الاصطناعي في حل مخاوف العالم الحقيقي مدعومًا دائمًا بالنوايا النبيلة. إذن لماذا يجب أن يعتمد تحديد مصادر مجموعات البيانات لتدريب مثل هذه النماذج على النماذج الرمادية؟
مع اكتساب المحادثات والمناقشات حول الذكاء الاصطناعي المسؤول والأخلاقي والخاضع للمساءلة أهمية وقوة، يقع على عاتق الشركات من جميع المستويات التحول إلى مصادر بديلة لديها تقنيات القبعة البيضاء لتقديم بيانات التدريب.
هذا هو المكان شيب يتفوق في. من خلال فهم المخاوف السائدة المحيطة بمصادر البيانات، دافع شايب دائمًا عن التقنيات الأخلاقية ومارس باستمرار أساليب محسنة ومحسنة لجمع البيانات وتجميعها من مصادر متنوعة.
منهجيات تحديد مصادر مجموعات بيانات القبعة البيضاء
إن أداة جمع البيانات الخاصة بنا تضع البشر في مركز تحديد البيانات ودورات التسليم. نحن نتفهم حساسية حالات الاستخدام التي يعمل عليها عملاؤنا والتأثير الذي قد تحدثه مجموعات البيانات لدينا على نتائج نماذجهم. على سبيل المثال، تتمتع مجموعات بيانات الرعاية الصحية بحساسيتها عند مقارنتها بمجموعات البيانات الخاصة برؤية الكمبيوتر للسيارات ذاتية القيادة.
وهذا هو بالضبط السبب الذي يجعل طريقة عملنا تتضمن فحوصات دقيقة للجودة وتقنيات لتحديد مجموعات البيانات ذات الصلة وتجميعها. وقد سمح لنا ذلك بتمكين الشركات من خلال مجموعات بيانات تدريب Gen AI الحصرية عبر تنسيقات متعددة مثل الصور ومقاطع الفيديو والصوت والنص والمزيد من المتطلبات المتخصصة.
فلسفتنا
نحن نعمل وفقًا للفلسفات الأساسية مثل الموافقة والخصوصية والعدالة في جمع مجموعات البيانات. ويضمن نهجنا أيضًا التنوع في البيانات حتى لا يكون هناك أي تحيز غير واعي.
بينما يستعد عالم الذكاء الاصطناعي لفجر حقبة جديدة تتميز بالممارسات العادلة، فإننا في شايب نعتزم أن نكون حاملي راية ورائدين لهذه الأيديولوجيات. إذا كانت مجموعات البيانات العادلة والجودة بلا شك هي ما تبحث عنه لتدريب نماذج الذكاء الاصطناعي الخاصة بك، فتواصل معنا اليوم.


