افتح مجموعات البيانات
اكتشف مجموعات البيانات مفتوحة المصدر التي تجعلك تقوم بتدريب نماذج ML
مجموعات بيانات مفتوحة المصدر لتبدأ في استخدام نماذج AI / ML
تعد مخرجات نماذج الذكاء الاصطناعي والتعلم الآلي الخاصة بك جيدة فقط مثل البيانات التي تستخدمها لتدريبها - لذا فإن الدقة التي تطبقها على تجميع البيانات ووضع العلامات وتحديد تلك البيانات مهمة!
لذلك ، إذا كنت ترغب في بدء مبادرة جديدة للذكاء الاصطناعي / تعلم الآلة وتدرك الآن بسرعة أن العثور على بيانات تدريب عالية الجودة سيكون أحد الجوانب الأكثر تحديًا في مشروعك لأن مجموعات البيانات عالية الجودة هي الوقود الذي يحافظ على الذكاء الاصطناعي / تشغيل محرك ML. لقد جمعنا قائمة بمجموعات البيانات المفتوحة التي يمكن استخدامها مجانًا وتدريب نماذج الذكاء الاصطناعي / التعلم الآلي الخاصة بك في المستقبل.
| تخصصات | نوع البيانات | اسم مجموعة البيانات | الصناعة / القسم. | الشرح / حالة الاستخدام | الرابط |
|---|---|---|---|---|---|
| +NLP | نص | الأمازون الاستعراضات | التجارة الإلكترونية | تحليل المشاعر | الرابط |
| الوصف | مجموعة من 35 مليون تقييم وتقييم من أكثر من 18 عامًا في نص عادي مع تفاصيل المستخدم والمنتج. | ||||
| +NLP | نص | بيانات روابط ويكيبيديا | أسئلة عامة | الرابط | |
| الوصف | أكثر من ٤ ملايين مقالة تحتوي على ١.٩ مليار كلمة من ويكيبيديا. تحتوي كل مقالة على روابط تشعبية للكيان المرتبط بها. | ||||
| +NLP | نص | شعور ستاندفورد تريبانك | الترفيه | تحليل المشاعر | الرابط |
| الوصف | مجموعة بيانات لتعليقات المشاعر لأكثر من 10,000 جملة مراجعة لأفلام موقع Rotten Tomatoes. متوفرة على مستوى العبارة - تُحلَّل كل جملة إلى عبارات فرعية عن طريق تحليل أشجار التحليل ثنائيًا بتنسيق Penn Treebank. | ||||
| +NLP | نص | شعور شركة تويتر بشركة الطيران الأمريكية | شركة طيران | تحليل المشاعر | الرابط |
| الوصف | انقسمت التغريدات حول الخطوط الجوية الأمريكية في عام 2015 إلى مشاعر إيجابية ومحايدة وسلبية. | ||||
| +CV | صورة | إيماجنت | أسئلة عامة | الرابط | |
| الوصف | مجموعة بيانات تضم أكثر من 14 مليون صورة بتنسيقات ملفات متنوعة، مُرتبة على حوالي 21,000 مجموعة متزامنة. المجموعات المتزامنة هي مرادفات للكيانات المرتبطة بها والموجودة كصورة. تحتوي مليون صورة على مربعات محيطة، وأكثر من مليون صورة تحتوي على خصائص SIFT. | ||||
| +CV | صورة | صور جوجل المفتوحة | أسئلة عامة | الرابط | |
| الوصف | مجموعة بيانات مشابهة لـ ImageNet، تضم 600 فئة. متوفرة بتقسيمات التطوير والتحقق والتدريب. تتضمن بعض الصور أيضًا مربعات حدودية وعلاقات بصرية. | ||||
| +NLP | نص | حوارات أفلام كورنيل | الترفيه | الحوارات | الرابط |
| الوصف | مجموعة من المحادثات الخيالية، تتضمن بيانات وصفية للشخصيات والأفلام. كل سطر عبارة عن حوار بين شخصين، بصيغة سؤال وجواب. | ||||
| الوصف | مجموعة بيانات أسئلة وأجوبة تحتوي على أسئلة وأجوبة من بوابة Yahoo Answers بين أبريل 2007 وأكتوبر 2007. | ||||
| +NLP | نص | السيدة ماركو | أسئلة عامة | الإجابة على السؤال | الرابط |
| الوصف | مجموعة بيانات أسئلة وأجوبة مع شروح من سجلات بحث بينج على الويب. يحتوي كل سؤال على إجابة من مستخدم، بالإضافة إلى مقاطع ويب تحتوي على الإجابة. | ||||
| +NLP | نص | مجموعة بيانات الأسئلة الطبيعية | أسئلة عامة | الإجابة على السؤال | الرابط |
| الوصف | تم إصدار هذه المجموعة من البيانات بواسطة Google، وهي تحتوي على استفسارات وإجابات المستخدمين الحقيقية من مقالات ويكيبيديا. | ||||
| +NLP | نص | DBedia | أسئلة عامة | الرسم البياني المعرفة | الرابط |
| الوصف | عرض منظم لموسوعة ويكيبيديا، مع استخراج الكيانات والعلاقات على شكل رسم بياني معرفي. | ||||
| +NLP | نص | ياجو | أسئلة عامة | الرسم البياني المعرفة | الرابط |
| الوصف | رسم بياني للمعرفة يحتوي على كيانات وعلاقات من ويكيبيديا، وWordNet، وGeoNames. | ||||
| +NLP | نص | قاعدة مجانية | أسئلة عامة | الرسم البياني المعرفة | الرابط |
| الوصف | قاعدة معرفية مستمدة من الجمهور تتكون من كيانات وعلاقات، وهي الآن مدمجة في الرسم البياني المعرفي من Google. | ||||
| +NLP | نص | أونتونوتس | أسئلة عامة | تصنيف الأدوار الدلالية | الرابط |
| الوصف | مجموعة من التعليقات التوضيحية النحوية والدلالية وعلى مستوى الخطاب المستخدمة في المهام المشتركة في CoNLL. | ||||
| +NLP | نص | مؤتمر كونل 2003 | أسئلة عامة | التعرف على الكيانات المسماة | الرابط |
| الوصف | مجموعة بيانات باللغة الإنجليزية موضحة للكيانات المسماة مثل الشخص والمنظمة والموقع. | ||||
| +CV | صورة | COCO | أسئلة عامة | كشف الكائن | الرابط |
| الوصف | الأشياء الشائعة في السياق: مجموعة بيانات غنية بالتعليقات التوضيحية لاكتشاف الأشياء وتقسيمها وإضافة التعليقات التوضيحية إليها. | ||||
| +CV | صورة | باسكال VOC | أسئلة عامة | كشف الكائن | الرابط |
| الوصف | مجموعة بيانات مرجعية لتحديات اكتشاف الكائنات وتجزئةها. | ||||
| +CV | صورة | مناظر المدينة | القيادة الذاتية | التجزئة الدلالي | الرابط |
| الوصف | مجموعة بيانات لفهم المشهد الحضري مع تعليقات توضيحية على مستوى البكسل لـ 30 فئة. | ||||
| +CV | صورة | منيست | أسئلة عامة | تصنيف الأرقام | الرابط |
| الوصف | مجموعة بيانات أرقام مكتوبة بخط اليد تحتوي على 60,000 صورة تدريبية و10,000 صورة اختبار بحجم 28 × 28 بكسل. | ||||
| +CV | صورة | أزياء MNIST | خدمات البيع بالتجزئة | تصنيف الصور | الرابط |
| الوصف | مجموعة بيانات صور مقالة زالاندو بنفس تنسيق MNIST، تُستخدم كبديل مباشر للقياس المعياري. | ||||
| +NLP | Audio | LibriSpeech | أسئلة عامة | ASR | الرابط |
| الوصف | مجموعة من الكلام الإنجليزي المقروء المشتق من الكتب الصوتية، تحتوي على 1000 ساعة من الكلام والنصوص المرتبطة به. | ||||
| +NLP | Audio | تيد-ليوم | أسئلة عامة | ASR | الرابط |
| الوصف | محادثات TED منقولة مع الصوت والنصوص المنسقة لأبحاث التعرف على الكلام. | ||||
| +NLP | Audio | تيميت | أسئلة عامة | التعرف على الصوتيات | الرابط |
| الوصف | كلام منقول صوتيًا للمتحدثين باللغة الإنجليزية الأمريكية، ويُستخدم على نطاق واسع في مهام التعرف على الأصوات. | ||||
| +NLP | Audio | صوت مشترك | أسئلة عامة | ASR | الرابط |
| الوصف | مجموعة متعددة اللغات من الكلام المقروء ساهم بها متطوعون من جميع أنحاء العالم. | ||||
| +NLP | Audio | VoxCeleb | أسئلة عامة | التعرف على السماعات | الرابط |
| الوصف | مجموعة بيانات تعريف المتحدث واسعة النطاق التي تم جمعها من مقاطع فيديو YouTube. | ||||
| +NLP | نص | تفريغ ويكيبيديا | أسئلة عامة | نمذجة اللغة | الرابط |
| الوصف | تفريغات النصوص الكاملة لمقالات ويكيبيديا، يتم تحديثها بانتظام، وتستخدم لتدريب نماذج اللغة مسبقًا. | ||||
| +NLP | نص | جيجاوورد | الأخبار | نمذجة اللغة | الرابط |
| الوصف | أرشيف شامل لبيانات النصوص الإخبارية من وكالات أنباء متعددة. | ||||
| +NLP | نص | مراجعات IMDB | الترفيه | تحليل المشاعر | الرابط |
| الوصف | مجموعة بيانات كبيرة لمراجعة الأفلام لتصنيف المشاعر الثنائية. | ||||
| +CV | فيديو | الحركية 700 | أسئلة عامة | التعرف على العمل | الرابط |
| الوصف | مجموعة بيانات عالية الجودة وواسعة النطاق لمقاطع فيديو يوتيوب تغطي 700 فئة من فئات الفعل البشري. | ||||
| +CV | فيديو | UCF101 | أسئلة عامة | التعرف على العمل | الرابط |
| الوصف | مجموعة بيانات من مقاطع فيديو الحركة الواقعية، مع 101 فئة حركة. | ||||
| +CV | فيديو | HMDB51 | أسئلة عامة | التعرف على العمل | الرابط |
| الوصف | قاعدة بيانات كبيرة لفيديوهات الحركة البشرية تتضمن 51 فئة من الحركة. | ||||
| الوصف | قاعدة بيانات لصور الوجوه مصممة لدراسة التعرف غير المقيد على الوجوه. | ||||
| +CV | صورة | كاسيا-ويب فيس | أسئلة عامة | التعرف على الوجه | الرابط |
| الوصف | مجموعة بيانات تحتوي على ملايين صور الوجوه لتدريب نماذج التعرف العميق على الوجوه. | ||||
| +NLP | نص | فرقة | أسئلة عامة | قراءة الفهم | الرابط |
| الوصف | مجموعة بيانات ستانفورد للإجابة على الأسئلة: أسئلة يطرحها العاملون الجماعيون على مجموعة من مقالات ويكيبيديا. | ||||
| الوصف | مجموعة بيانات فهم الآلة مع أسئلة وأجوبة استنادًا إلى مقالات إخبارية من CNN. | ||||
| +NLP | نص | متعدد NLI | أسئلة عامة | استنتاج اللغة الطبيعية | الرابط |
| الوصف | مجموعة بيانات لاستنتاج اللغة الطبيعية لأزواج الجمل عبر أنواع متعددة. | ||||
| +NLP | نص | SNLI | أسئلة عامة | استنتاج اللغة الطبيعية | الرابط |
| الوصف | مجموعة ستانفورد لاستنتاجات اللغة الطبيعية مع أزواج الجمل التي تم تصنيفها على أنها استلزام أو تناقض أو محايد. | ||||
| الوصف | مجموعة تضم أكثر من 100 مليون رمز تم استخراجها من مجموعة المقالات الجيدة والمميزة التي تم التحقق منها على ويكيبيديا. | ||||
| الوصف | مجموعة بيانات مكونة من 16,185 صورة لـ 196 فئة من السيارات. | ||||
| +CV | صورة | زهور أكسفورد 102 | علم النبات | التصنيف الدقيق | الرابط |
| الوصف | 102 فئة من الزهور تحدث عادة في المملكة المتحدة. | ||||
| +CV | صورة | سيفار 10 | أسئلة عامة | تصنيف الصور | الرابط |
| الوصف | صور من 10 فئات: الطائرة، السيارة، الطائر، القط، الغزلان، الكلب، الضفدع، الحصان، السفينة والشاحنة. | ||||
| +CV | صورة | سيفار 100 | أسئلة عامة | تصنيف الصور | الرابط |
| الوصف | مجموعة بيانات مشابهة لـ CIFAR-10، ولكن مع 100 فئة دقيقة. | ||||
| +CV | صورة | تخطيط شخص VOC | أسئلة عامة | تقدير الوضع | الرابط |
| الوصف | جزء من PASCAL VOC يركز على تعليقات تخطيط الشخص مثل الرأس واليدين والقدمين. | ||||
| +CV | صورة | وضعية الإنسان MPII | أسئلة عامة | تقدير الوضع | الرابط |
| الوصف | حوالي 25,000 صورة تحتوي على أكثر من 40,000 شخص مع مفاصل الجسم الموضحة. | ||||
| الوصف | مجموعة من مقالات وكالة رويترز للأنباء لبحث تصنيف النصوص. | ||||
| +NLP | نص | 20 مجموعة أخبار | أسئلة عامة | تصنيف النص | الرابط |
| الوصف | مجموعة مكونة من 20,000 مستند إخباري مقسمة إلى 20 مجموعة إخبارية مختلفة. | ||||