مجموعة بيانات البرمجة اللغوية العصبية لـ ML

أفضل 15 مجموعة بيانات في البرمجة اللغوية العصبية لتدريب نماذج معالجة اللغة الطبيعية

تعد معالجة اللغة الطبيعية جزءًا حيويًا في درع التعلم الآلي. ومع ذلك ، فإنه يحتاج إلى كميات هائلة من البيانات والتدريب حتى يعمل النموذج بشكل جيد. تتمثل إحدى المشكلات المهمة في البرمجة اللغوية العصبية (NLP) في نقص مجموعات البيانات التدريبية التي يمكن أن تغطي مجالات اهتمام واسعة داخل المجال.

إذا كنت تبدأ في هذا المجال الواسع ، فقد تجد صعوبة وعمليًا في إنشاء مجموعات البيانات الخاصة بك. خاصة عندما تكون هناك جودة NLP مجموعات البيانات المتاحة لتدريب نماذج التعلم الآلي الخاصة بك بناءً على الغرض منها.

من المقرر أن ينمو سوق البرمجة اللغوية العصبية بمعدل نمو سنوي مركب قدره 11.7٪ خلال عامي 2018 و 2026 مليار 28.6 من 2026. بفضل الطلب المتزايد على البرمجة اللغوية العصبية والتعلم الآلي ، أصبح من الممكن الآن الحصول على مجموعات بيانات عالية الجودة تعمل على تحليل المشاعر والمراجعات وتحليل الأسئلة والأجوبة ومجموعات بيانات تحليل الكلام.

مجموعات بيانات البرمجة اللغوية العصبية للتعلم الآلي التي يمكنك الوثوق بها

نظرًا لأنه يتم إصدار مجموعات بيانات لا حصر لها - تركز على الاحتياجات المختلفة - كل يوم تقريبًا ، فقد يكون من الصعب الوصول إلى مجموعات بيانات عالية الجودة وموثوقة وأفضل. هنا ، جعلنا العمل أسهل بالنسبة لك ، حيث قدمنا ​​لك مجموعات بيانات منسقة منفصلة بناءً على الفئات التي تخدمها.

العلاجات العامة

يحتوي Spambase ، الذي تم إنشاؤه في Hewlett-Packard Labs ، على مجموعة من رسائل البريد الإلكتروني العشوائية من قبل المستخدمين ، بهدف تطوير مرشح مخصص للبريد العشوائي. يحتوي على أكثر من 4600 ملاحظة من رسائل البريد الإلكتروني ، منها ما يقرب من 1820 عبارة عن بريد عشوائي.

تحتوي مجموعة بيانات Enron على مجموعة كبيرة من رسائل البريد الإلكتروني "الحقيقية" مجهولة المصدر والمتاحة للجمهور لتدريب نماذج التعلم الآلي الخاصة بهم. يضم أكثر من نصف مليون رسالة بريد إلكتروني من أكثر من 150 مستخدمًا ، معظمهم من الإدارة العليا لشركة Enron. مجموعة البيانات هذه متاحة للاستخدام في كل من التنسيقات المهيكلة وغير المهيكلة. لتجميع البيانات غير المهيكلة ، يجب عليك تطبيق تقنيات معالجة البيانات.

  • مجموعة بيانات أنظمة التوصية (رابط)

مجموعة بيانات نظام التوصية هي مجموعة ضخمة من مجموعات البيانات المختلفة التي تحتوي على ميزات مختلفة مثل ،

  • تعليقات على هذا المنتج
  • تصنيفات النجوم
  • تتبع اللياقة البدنية
  • بيانات الأغنية
  • الشبكات الاجتماعية
  • الطوابع
  • تفاعلات المستخدم / العنصر
  • بيانات GPS

تحليل المشاعر

  • قواميس للأفلام والتمويل (رابط)

تحليل المشاعر
توفر مجموعة بيانات قواميس الأفلام والتمويل قواميس خاصة بالمجال للقطبية الإيجابية أو السلبية في الحشوات المالية ومراجعات الأفلام. هذه القواميس مأخوذة من IMDb و US Form-8.

يحتوي Sentiment 140 على أكثر من 160,000 تغريدة مع رموز تعبيرية مختلفة مصنفة في 6 مجالات مختلفة: تاريخ التغريدة ، والقطبية ، والنص ، واسم المستخدم ، والمعرف ، والاستعلام. تتيح لك مجموعة البيانات هذه اكتشاف شعور العلامة التجارية أو المنتج أو حتى موضوع ما بناءً على نشاط Twitter. نظرًا لأن مجموعة البيانات هذه يتم إنشاؤها تلقائيًا ، على عكس التغريدات الأخرى التي يعلق عليها الإنسان ، فإنها تصنف التغريدات التي تحتوي على مشاعر إيجابية وعواطف سلبية على أنها غير مواتية.

  • مجموعة بيانات المشاعر متعددة المجالات (رابط)

تعد مجموعة بيانات المشاعر متعددة المجالات مستودعًا لمراجعات Amazon لمختلف المنتجات. بعض فئات المنتجات ، مثل الكتب ، لها مراجعات تصل إلى الآلاف ، بينما البعض الآخر يحتوي على بضع مئات فقط من المراجعات. إلى جانب ذلك ، يمكن تحويل المراجعات ذات التصنيفات النجمية إلى ملصقات ثنائية.

دعنا نناقش متطلبات بيانات التدريب على الذكاء الاصطناعي اليوم.

نص

تم إنشاء WiKi QA Corpus للمساعدة في بحث الأسئلة والأجوبة في المجال المفتوح ، وهي واحدة من أكثر مجموعات البيانات المتاحة للجمهور شمولاً. تم تجميعها من سجلات استعلام محرك بحث Bing ، وهي تأتي مع أزواج من الأسئلة والأجوبة. يحتوي على أكثر من 3000 سؤال و 1500 جملة إجابة معنونة.

  • مجموعة بيانات تقارير الحالة القانونية (رابط)

تحتوي مجموعة بيانات تقارير الحالة القانونية على مجموعة من 4000 قضية قانونية ويمكن استخدامها للتدريب على تلخيص النص التلقائي وتحليل الاقتباس. يتم استخدام كل مستند وعبارات رئيسية وفصول اقتباس وعبارات اقتباس والمزيد.

مجموعة بيانات Jeopardy هي عبارة عن مجموعة من أكثر من 200,000 سؤال واردة في برنامج المسابقات التلفزيوني الشهير الذي جمعه مستخدم Reddit. يتم تصنيف كل نقطة بيانات حسب تاريخ البث ورقم الحلقة والقيمة والجولة والسؤال / الإجابة.

الكلام الصوتي

  • ويكيبيديا كوربورا المنطوقة (رابط)

الكلام الصوتي مجموعة البيانات هذه مثالية لكل من يتطلع إلى تجاوز اللغة الإنجليزية. تحتوي مجموعة البيانات هذه على مجموعة من المقالات التي يتم التحدث بها باللغتين الهولندية والألمانية والإنجليزية. لديها مجموعة متنوعة من الموضوعات ومجموعات المتحدثين تصل إلى مئات الساعات.

تحتوي مجموعة البيانات الإنجليزية HUB2000 لعام 5 على 40 نسخة من محادثة هاتفية باللغة الإنجليزية. يتم توفير البيانات من قبل المعهد الوطني للمعايير والتكنولوجيا ، وينصب تركيزه الرئيسي على التعرف على خطاب المحادثة وتحويل الكلام إلى نص.

مجموعة بيانات LibriSpeech عبارة عن مجموعة من 1000 ساعة تقريبًا من الكلام باللغة الإنجليزية مأخوذة ومقسمة بشكل صحيح حسب الموضوعات إلى فصول من الكتب الصوتية ، مما يجعلها أداة مثالية لمعالجة اللغة الطبيعية.

التعليقات

تحتوي مجموعة بيانات Yelp على مجموعة كبيرة من حوالي 8.5 مليون تقييم لما يزيد عن 160,000 شركة ومراجعاتها وبيانات المستخدم. يمكن استخدام المراجعات لتدريب نماذجك على تحليل المشاعر. إلى جانب ذلك ، تحتوي مجموعة البيانات هذه أيضًا على أكثر من 200,000 صورة تغطي ثمانية مواقع حضرية.

تعد مراجعات IMDB من بين مجموعات البيانات الأكثر شيوعًا التي تحتوي على معلومات الممثلين والتقييمات والوصف والنوع لأكثر من 50 ألف فيلم. يمكن استخدام مجموعة البيانات هذه لاختبار نماذج التعلم الآلي وتدريبها.

  • مجموعة بيانات تقييمات أمازون (رابط)

تحتوي مجموعة بيانات مراجعة وتقييم Amazon على مجموعة قيمة من البيانات الوصفية ومراجعات المنتجات المختلفة من Amazon التي تم جمعها من عام 1996 إلى عام 2014 - حوالي 142.8 مليون سجل. تتضمن البيانات الوصفية السعر ووصف المنتج والعلامة التجارية والفئة وغير ذلك ، بينما تتمتع المراجعات بجودة النص وفائدة النص والتقييمات والمزيد.

إذن ، ما مجموعة البيانات التي اخترت تدريب نموذج التعلم الآلي الخاص بك عليها؟

مع تقدمنا ​​، سنترك لك ملف نصيحة محترف. 

تأكد من مراجعة ملف README بدقة قبل اختيار مجموعة بيانات NLP لاحتياجاتك. ستحتوي مجموعة البيانات على جميع المعلومات الضرورية التي قد تحتاجها ، مثل محتوى مجموعة البيانات والمعلمات المختلفة التي تم تصنيف البيانات بناءً عليها وحالات الاستخدام المحتملة لمجموعة البيانات.

بغض النظر عن النماذج التي تقوم ببنائها ، هناك احتمال مثير لدمج آلاتنا بشكل وثيق وجذري مع حياتنا. مع البرمجة اللغوية العصبية (NLP) ، تزداد إمكانيات الأعمال والأفلام والتعرف على الكلام والتمويل وغير ذلك الكثير. إذا كنت تبحث عن المزيد من مجموعات البيانات هذه انقر هنا.

شارك الاجتماعية

قد يعجبك أيضاً