مجموعة بيانات البرمجة اللغوية العصبية لـ ML

أفضل مجموعات بيانات معالجة اللغة الطبيعية لتعزيز نماذج التعلم الآلي لديك

ما هو البرمجة اللغوية العصبية؟

تساعد تقنية معالجة اللغة الطبيعية (NLP) أجهزة الكمبيوتر على فهم اللغة البشرية. وهي تشبه تعليم أجهزة الكمبيوتر كيفية قراءة وفهم والاستجابة للنصوص والكلام بالطريقة التي يفعلها البشر.

ماذا يمكن أن تفعل البرمجة اللغوية العصبية؟

  • تحويل النص الفوضوي إلى بيانات منظمة
  • فهم ما إذا كانت التعليقات إيجابية أم سلبية
  • الترجمة بين اللغات
  • إنشاء ملخصات للنصوص الطويلة
  • وأكثر بكثير!
  • البدء في استخدام البرمجة اللغوية العصبية:

لبناء أنظمة معالجة لغوية طبيعية جيدة، تحتاج إلى الكثير من الأمثلة لتدريبها - تمامًا كما يتعلم البشر بشكل أفضل مع المزيد من الممارسة. والخبر السار هو أن هناك العديد من الموارد المجانية حيث يمكنك العثور على هذه الأمثلة: وجه يعانق, Kaggle GitHub جيثب:

حجم سوق البرمجة اللغوية العصبية ونموها:

اعتبارًا من عام 2023، قُدِّرَت قيمة سوق معالجة اللغة الطبيعية (NLP) بنحو 26 مليار دولار. ومن المتوقع أن تنمو بشكل كبير، بمعدل نمو سنوي مركب (CAGR) يبلغ حوالي 30% من عام 2023 إلى عام 2030. ويعود هذا النمو إلى الطلب المتزايد على تطبيقات معالجة اللغة الطبيعية (NLP) في الصناعات مثل الرعاية الصحية والتمويل وخدمة العملاء.

كيفية اختيار مجموعة بيانات معالجة اللغة الطبيعية الجيدة، ضع في اعتبارك العوامل التالية:

  • الملاءمة:تأكد من أن مجموعة البيانات تتوافق مع مهمتك أو مجالك المحدد.
  • المقاس:تؤدي مجموعات البيانات الأكبر حجمًا بشكل عام إلى تحسين أداء النموذج، ولكنها توازن الحجم مع الجودة.
  • تنوع:ابحث عن مجموعات البيانات ذات أنماط اللغة والسياقات المتنوعة لتعزيز قوة النموذج.
  • الجودة:تأكد من وجود بيانات دقيقة ومُصنفة بشكل جيد لتجنب حدوث أخطاء.
  • إمكانية الوصول:تأكد من أن مجموعة البيانات متاحة للاستخدام وخذ بعين الاعتبار أي قيود ترخيص.
  • تجهيزها:حدد ما إذا كانت مجموعة البيانات تتطلب تنظيفًا أو معالجة مسبقة كبيرة.
  • دعم المجتمع:غالبًا ما تحتوي مجموعات البيانات الشائعة على المزيد من الموارد ودعم المجتمع، وهو ما قد يكون مفيدًا.

من خلال تقييم هذه العوامل، يمكنك تحديد مجموعة البيانات التي تناسب احتياجات مشروعك بشكل أفضل

أفضل 33 مجموعة بيانات مفتوحة يجب عليك الاطلاع عليها لمعالجة اللغة الطبيعية

أسئلة عامة

  • Spambase من UCI (رابط)

    يحتوي Spambase ، الذي تم إنشاؤه في Hewlett-Packard Labs ، على مجموعة من رسائل البريد الإلكتروني العشوائية من قبل المستخدمين ، بهدف تطوير مرشح مخصص للبريد العشوائي. يحتوي على أكثر من 4600 ملاحظة من رسائل البريد الإلكتروني ، منها ما يقرب من 1820 عبارة عن بريد عشوائي.

  • مجموعة بيانات إنرون (رابط)

    تحتوي مجموعة بيانات Enron على مجموعة كبيرة من رسائل البريد الإلكتروني "الحقيقية" مجهولة المصدر والمتاحة للجمهور لتدريب نماذج التعلم الآلي الخاصة بهم. يضم أكثر من نصف مليون رسالة بريد إلكتروني من أكثر من 150 مستخدمًا ، معظمهم من الإدارة العليا لشركة Enron. مجموعة البيانات هذه متاحة للاستخدام في كل من التنسيقات المهيكلة وغير المهيكلة. لتجميع البيانات غير المهيكلة ، يجب عليك تطبيق تقنيات معالجة البيانات.

  • مجموعة بيانات أنظمة التوصية (رابط)

    مجموعة بيانات نظام التوصية هي مجموعة ضخمة من مجموعات البيانات المختلفة التي تحتوي على ميزات مختلفة مثل ،

    • تعليقات على هذا المنتج
    • تصنيفات النجوم
    • تتبع اللياقة البدنية
    • بيانات الأغنية
    • الشبكات الاجتماعية
    • الطوابع
    • تفاعلات المستخدم / العنصر
    • بيانات GPS
  • بن تريبانك (رابط)

    تحظى هذه المجموعة، من صحيفة وول ستريت جورنال، بشعبية كبيرة في اختبار نماذج وضع العلامات التسلسلية.

  • نلتك (رابط)

    توفر مكتبة Python هذه إمكانية الوصول إلى أكثر من 100 مصدر معجمي ومعجمي للبرمجة اللغوية العصبية. ويتضمن أيضًا كتاب NLTK، وهو دورة تدريبية لاستخدام المكتبة.

  • التبعيات العالمية (رابط)

    توفر UD طريقة متسقة لتدوين القواعد النحوية، مع موارد بأكثر من 100 لغة، و200 شجرة، ودعم من أكثر من 300 عضو في المجتمع.

تحليل المشاعر

  • قواميس للأفلام والتمويل (رابط)

    تحليل المشاعر
    توفر مجموعة بيانات قواميس الأفلام والتمويل قواميس خاصة بالمجال للقطبية الإيجابية أو السلبية في الحشوات المالية ومراجعات الأفلام. هذه القواميس مأخوذة من IMDb و US Form-8.

  • المشاعر 140 (رابط)

    يحتوي Sentiment 140 على أكثر من 160,000 تغريدة مع رموز تعبيرية مختلفة مصنفة في 6 مجالات مختلفة: تاريخ التغريدة ، والقطبية ، والنص ، واسم المستخدم ، والمعرف ، والاستعلام. تتيح لك مجموعة البيانات هذه اكتشاف شعور العلامة التجارية أو المنتج أو حتى موضوع ما بناءً على نشاط Twitter. نظرًا لأن مجموعة البيانات هذه يتم إنشاؤها تلقائيًا ، على عكس التغريدات الأخرى التي يعلق عليها الإنسان ، فإنها تصنف التغريدات التي تحتوي على مشاعر إيجابية وعواطف سلبية على أنها غير مواتية.

  • مجموعة بيانات المشاعر متعددة المجالات (رابط)

    تعد مجموعة بيانات المشاعر متعددة المجالات مستودعًا لمراجعات Amazon لمختلف المنتجات. بعض فئات المنتجات ، مثل الكتب ، لها مراجعات تصل إلى الآلاف ، بينما البعض الآخر يحتوي على بضع مئات فقط من المراجعات. إلى جانب ذلك ، يمكن تحويل المراجعات ذات التصنيفات النجمية إلى ملصقات ثنائية.

  • ستاندفورد سينتمنت تري بنك (رابط)

    تتضمن مجموعة بيانات البرمجة اللغوية العصبية هذه من Rotten Tomatoes عبارات أطول وأمثلة نصية أكثر تفصيلاً.

  • مجموعة تأليف المدونة (رابط)

    تحتوي هذه المجموعة على منشورات مدونة تحتوي على ما يقرب من 1.4 مليون كلمة، وكل مدونة عبارة عن مجموعة بيانات منفصلة.

  • مجموعة بيانات OpinRank (رابط)

    300,000 تعليق من Edmunds وTripAdvisor، منظمة حسب طراز السيارة أو وجهة السفر والفندق.

نص

  • مجموعة Wiki QA (رابط)

    تم إنشاء WiKi QA Corpus للمساعدة في بحث الأسئلة والأجوبة في المجال المفتوح ، وهي واحدة من أكثر مجموعات البيانات المتاحة للجمهور شمولاً. تم تجميعها من سجلات استعلام محرك بحث Bing ، وهي تأتي مع أزواج من الأسئلة والأجوبة. يحتوي على أكثر من 3000 سؤال و 1500 جملة إجابة معنونة.

  • مجموعة بيانات تقارير الحالة القانونية (رابط)

    تحتوي مجموعة بيانات تقارير الحالة القانونية على مجموعة من 4000 قضية قانونية ويمكن استخدامها للتدريب على تلخيص النص التلقائي وتحليل الاقتباس. يتم استخدام كل مستند وعبارات رئيسية وفصول اقتباس وعبارات اقتباس والمزيد.

  • خطر (رابط)

    مجموعة بيانات Jeopardy هي عبارة عن مجموعة من أكثر من 200,000 سؤال واردة في برنامج المسابقات التلفزيوني الشهير الذي جمعه مستخدم Reddit. يتم تصنيف كل نقطة بيانات حسب تاريخ البث ورقم الحلقة والقيمة والجولة والسؤال / الإجابة.

  • 20 مجموعة أخبار (رابط)

    مجموعة مكونة من 20,000 وثيقة تشمل 20 مجموعة إخبارية وموضوعًا، تتضمن تفاصيل موضوعات تتراوح من الدين إلى الرياضات الشعبية.

  • مجموعة بيانات أخبار رويترز (رابط)

    ظهرت مجموعة البيانات هذه لأول مرة في عام 1987، وتم تصنيفها وفهرستها وتجميعها لأغراض التعلم الآلي.

  • أرخايف (رابط)

    تتضمن مجموعة البيانات الكبيرة هذه والتي يبلغ حجمها 270 جيجابايت النص الكامل لجميع الأوراق البحثية الخاصة بـ arXiv.

  • إجراءات البرلمان الأوروبي الموازية (رابط)

    تتضمن أزواج الجمل من إجراءات البرلمان إدخالات من 21 لغة أوروبية، وتتضمن بعض اللغات الأقل شيوعًا في مجموعات التعلم الآلي.

  • معيار كلمة المليار (رابط)

    المستمدة من WMT 2011 News Crawl، تشتمل مجموعة بيانات نمذجة اللغة هذه على ما يقرب من مليار كلمة لاختبار تقنيات نمذجة اللغة المبتكرة.

الكلام الصوتي

  • ويكيبيديا كوربورا المنطوقة (رابط)

    الكلام الصوتي مجموعة البيانات هذه مثالية لكل من يتطلع إلى تجاوز اللغة الإنجليزية. تحتوي مجموعة البيانات هذه على مجموعة من المقالات التي يتم التحدث بها باللغتين الهولندية والألمانية والإنجليزية. لديها مجموعة متنوعة من الموضوعات ومجموعات المتحدثين تصل إلى مئات الساعات.

  • 2000 HUB5 الإنجليزية (رابط)

    تحتوي مجموعة البيانات الإنجليزية HUB2000 لعام 5 على 40 نسخة من محادثة هاتفية باللغة الإنجليزية. يتم توفير البيانات من قبل المعهد الوطني للمعايير والتكنولوجيا ، وينصب تركيزه الرئيسي على التعرف على خطاب المحادثة وتحويل الكلام إلى نص.

  • LibriSpeech (رابط)

    مجموعة بيانات LibriSpeech عبارة عن مجموعة من 1000 ساعة تقريبًا من الكلام باللغة الإنجليزية مأخوذة ومقسمة بشكل صحيح حسب الموضوعات إلى فصول من الكتب الصوتية ، مما يجعلها أداة مثالية لمعالجة اللغة الطبيعية.

  • مجموعة بيانات رقمية منطوقة مجانية (رابط)

    تتضمن مجموعة بيانات البرمجة اللغوية العصبية هذه أكثر من 1,500 تسجيل للأرقام المنطوقة باللغة الإنجليزية.

  • مجموعة بيانات الكلام الخاصة بمختبرات M-AI (رابط)

    توفر مجموعة البيانات ما يقرب من 1,000 ساعة من الصوت مع النسخ، وتشمل لغات متعددة ومصنفة حسب أصوات الذكور والإناث والأصوات المختلطة.

  • قاعدة بيانات الكلام الصاخب (حلقة الوصل)

    تتميز مجموعة البيانات هذه بتسجيلات كلام نظيفة وصاخبة متوازية، مخصصة لتطوير برامج تحسين الكلام ولكنها مفيدة أيضًا للتدريب على الكلام في الظروف الصعبة.

التعليقات

  • مراجعات الصرخة (رابط)

    تحتوي مجموعة بيانات Yelp على مجموعة كبيرة من حوالي 8.5 مليون تقييم لما يزيد عن 160,000 شركة ومراجعاتها وبيانات المستخدم. يمكن استخدام المراجعات لتدريب نماذجك على تحليل المشاعر. إلى جانب ذلك ، تحتوي مجموعة البيانات هذه أيضًا على أكثر من 200,000 صورة تغطي ثمانية مواقع حضرية.

  • مراجعات IMDB (رابط)

    تعد مراجعات IMDB من بين مجموعات البيانات الأكثر شيوعًا التي تحتوي على معلومات الممثلين والتقييمات والوصف والنوع لأكثر من 50 ألف فيلم. يمكن استخدام مجموعة البيانات هذه لاختبار نماذج التعلم الآلي وتدريبها.

  • مجموعة بيانات تقييمات أمازون (رابط)

    تحتوي مجموعة بيانات مراجعة وتقييم Amazon على مجموعة قيمة من البيانات الوصفية ومراجعات المنتجات المختلفة من Amazon التي تم جمعها من عام 1996 إلى عام 2014 - حوالي 142.8 مليون سجل. تتضمن البيانات الوصفية السعر ووصف المنتج والعلامة التجارية والفئة وغير ذلك ، بينما تتمتع المراجعات بجودة النص وفائدة النص والتقييمات والمزيد.

سؤال وجواب

  • مجموعة بيانات الأسئلة والأجوبة في جامعة ستانفورد (SQuAD) (رابط)

    تحتوي مجموعة بيانات فهم القراءة هذه على 100,000 سؤال قابل للإجابة و50,000 سؤال غير قابل للإجابة، وكلها تم إنشاؤها بواسطة عمال ويكيبيديا الجماعيين.

  • أسئلة طبيعية (رابط)

    تحتوي مجموعة التدريب هذه على أكثر من 300,000 مثال تدريبي و7,800 مثال تطوير و7,800 مثال اختباري، كل منها يحتوي على استعلام Google وصفحة Wikipedia مطابقة.

  • تريفيا (رابط)

    تحتوي مجموعة الأسئلة الصعبة هذه على 950,000 زوج من ضمان الجودة، بما في ذلك المجموعات الفرعية التي تم التحقق منها بواسطة الإنسان وتلك التي تم إنشاؤها بواسطة الآلة.

  • CLEVR (اللغة التركيبية والتفكير البصري الأولي) (رابط)

    تحتوي مجموعة بيانات الإجابة على الأسئلة المرئية على كائنات ثلاثية الأبعاد وآلاف الأسئلة مع تفاصيل حول المشهد المرئي.

إذن ، ما مجموعة البيانات التي اخترت تدريب نموذج التعلم الآلي الخاص بك عليها؟

مع تقدمنا ​​، سنترك لك ملف نصيحة محترف.

تأكد من مراجعة ملف README بدقة قبل اختيار مجموعة بيانات NLP لاحتياجاتك. ستحتوي مجموعة البيانات على جميع المعلومات الضرورية التي قد تحتاجها ، مثل محتوى مجموعة البيانات والمعلمات المختلفة التي تم تصنيف البيانات بناءً عليها وحالات الاستخدام المحتملة لمجموعة البيانات.

بغض النظر عن النماذج التي تبنيها، هناك احتمال مثير لدمج أجهزتنا بشكل وثيق وجوهري في حياتنا. مع البرمجة اللغوية العصبية (NLP)، تتزايد إمكانيات الأعمال والأفلام والتعرف على الكلام والتمويل والمزيد.

شارك الاجتماعية