افتح مجموعات البيانات

اكتشف مجموعات البيانات مفتوحة المصدر التي تجعلك تقوم بتدريب نماذج ML

افتح مجموعات البيانات

مجموعات بيانات مفتوحة المصدر لتبدأ في استخدام نماذج AI / ML

تعد مخرجات نماذج الذكاء الاصطناعي والتعلم الآلي الخاصة بك جيدة فقط مثل البيانات التي تستخدمها لتدريبها - لذا فإن الدقة التي تطبقها على تجميع البيانات ووضع العلامات وتحديد تلك البيانات مهمة!

لذلك ، إذا كنت ترغب في بدء مبادرة جديدة للذكاء الاصطناعي / تعلم الآلة وتدرك الآن بسرعة أن العثور على بيانات تدريب عالية الجودة سيكون أحد الجوانب الأكثر تحديًا في مشروعك لأن مجموعات البيانات عالية الجودة هي الوقود الذي يحافظ على الذكاء الاصطناعي / تشغيل محرك ML. لقد جمعنا قائمة بمجموعات البيانات المفتوحة التي يمكن استخدامها مجانًا وتدريب نماذج الذكاء الاصطناعي / التعلم الآلي الخاصة بك في المستقبل.

تخصصاتنوع البياناتاسم مجموعة البياناتالصناعة / القسم.الشرح / حالة الاستخدامالوصفالرابط
NLPنصالأمازون الاستعراضاتالتجارة الإلكترونيةتحليل المشاعرمجموعة من 35 مليون تقييم وتقييم من أكثر من 18 عامًا في نص عادي مع تفاصيل المستخدم والمنتج.الرابط
NLPنصبيانات روابط ويكيبيدياالعلاقات العامةأكثر من 4 مليون. المقالات التي تحتوي على 1.9 مليار دولار. كلمة تتكون من كلمات وعبارات وكذلك فقرات.الرابط
NLPنصشعور ستاندفورد تريبانك ترفيهتحليل المشاعرمجموعة بيانات التعليقات التوضيحية للمشاعر لأكثر من 10,000 قطعة من المراجعات من Rotten Tomatoes بتنسيق ملف HTMLالرابط
NLPنصشعور شركة تويتر بشركة الطيران الأمريكيةشركة طيرانتحليل المشاعرتنقسمت تغريدات 2015 على الخطوط الجوية الأمريكية إلى نغمات إيجابية وسلبية ومحايدةالرابط
CVصورة وجوه مسماة في البريةالعلاقات العامةالتعرف على الوجهمجموعة بيانات تحتوي على أكثر من 13,000 وجه مقصوص مع صورتين مختلفتين للتدريب على التعرف على الوجه.الرابط
CVفيديو ، صورةمجموعة بيانات UMDFacesالعلاقات العامةالتعرف على الوجهمجموعة بيانات مشروحة تحتوي على أكثر من 367,000 وجه من أكثر من 8,000 موضوع تتضمن صورًا ثابتة وفيديو.الرابط
CVصورة إيماجنتالعلاقات العامةمجموعة بيانات تزيد عن 14 مليون. الصور بتنسيقات ملفات مختلفة ، مرتبة وفقًا لتسلسل WordNet الهرمي.الرابط
CVصورة صور جوجل المفتوحةالعلاقات العامة9 مليون. عناوين URL لتصنيف الصور العامة من أكثر من 6,000 فئة.الرابط
NLPنصقاعدة بيانات العناية المركزة MIMICالرعاية الصحيةمجموعات بيانات الفسيولوجيا الحسابية مع بيانات مجهولة الهوية من 40,000 مريض رعاية حرجة. تحتوي مجموعة البيانات على معلومات مثل التركيبة السكانية والعلامات الحيوية والأدوية وما إلى ذلك.الرابط
CVصورةالمكتب الوطني الأمريكي للسفر والسياحةالسياحه في زلمسييوفر صورًا عريضة من صناعة السياحة مع قواعد بيانات جديرة بالثقة ، تغطي موضوعات مثل السفر الداخلي والخارجي ومعلومات السياحة الدولية.الرابط
NLPنصقسم النقلالسياحه في زلمسيمجموعات البيانات السياحية التي تشمل المتنزهات الوطنية وسجلات السائقين والجسور ومعلومات السكك الحديدية وما إلى ذلك.الرابط
NLPAudioمجموعة التسمية التوضيحية الصوتية على Flickrالعلاقات العامةأكثر من 40 ألف تعليق منطوق من 8,000 صورة مصممة لأنماط الكلام غير الخاضعة للإشرافالرابط
NLPAudioمجموعة بيانات أوامر الكلامالعلاقات العامةالتعرف على الكلام ، التعليقات الصوتيةكلمات طويلة لمدة ثانية واحدة من آلاف الأفراد ، لبناء واجهة صوتية أساسية.الرابط
NLPAudioمجموعات البيانات الصوتية البيئيةالعلاقات العامةمجموعات البيانات الصوتية للبيئة التي تحتوي على جداول الأحداث وجداول المشاهد الصوتية.الرابط
NLPنصCOVID-19 مجموعة بيانات البحث المفتوح الرعاية الصحيةالذكاء الاصطناعي الطبيمجموعة بيانات بحثية تتكون من 45,000 مقالة علمية حول COVID-19 وعائلة الفيروسات التاجية.الرابط
CVصورةوايمو مجموعة البيانات المفتوحة سياراتمجموعات بيانات القيادة الذاتية الأكثر تنوعًا التي أصدرتها Waymoالرابط
CVصورةتسمية لي الحكومة العامة.مجموعة كبيرة من الصور المشروحة يمكن الوصول إليها من خلال Labelme Matlabالرابط
CVصورةCOIL100العلاقات العامةأكثر من 100 كائن متنوع تم تصويره من زوايا متعددة (أي 360 درجة)الرابط
CVصورةمجموعة بيانات كلاب ستانفوردالعلاقات العامةأكثر من 20,500 صورة مصنفة في مجموعة صور تضم 120 سلالة كلاب مختلفةالرابط
CVصورةالتعرف على المشهد الداخليالعلاقات العامةالتعرف على المشهدمجموعة بيانات محددة تتكون من 15620 صورة من 67 فئة داخلية لبناء نماذج التعرف على المشهدالرابط
CVصورةVisualQAالعلاقات العامةمجموعة بيانات تتضمن أسئلة مفتوحة تتعلق بـ 265,016،XNUMX صورة تتطلب فهم الرؤية والفهم اللغوي للرد.الرابط
NLPنصمجموعة بيانات تحليل المشاعر متعددة المجالاتالتجارة الإلكترونيةتحليل المشاعرمجموعة بيانات تحتوي على مراجعات للمنتجات من أمازونالرابط
NLPنصمراجعات IMDB ترفيهتحليل المشاعرمجموعة بيانات تحتوي على 25000 مراجعة فيلم لتحليل المشاعرالرابط
NLPنصالمشاعر 140العلاقات العامةتحليل المشاعرمجموعة بيانات تحتوي على 160,000 تغريدة مع رموز تمت إزالتها مسبقًا للحصول على دقة أعلىالرابط
NLPنصمجموعة Bloggerالعلاقات العامةتحليل Keypraseمجموعة بيانات تحتوي على 681,288،200 مشاركة مدونة من blogger.com تتكون من XNUMX تكرار على الأقل للكلمات الإنجليزية المستخدمة على نطاق واسع.الرابط
NLPنصخطرالعلاقات العامةتدريب Chatbotمجموعة بيانات تحتوي على أكثر من 200,000 سؤال يمكن استخدامها لتدريب نماذج التعلم الآلي على الاستجابة التلقائية بذكاءالرابط
NLPنصجمع الرسائل القصيرة غير المرغوب فيها باللغة الإنجليزيةاتصالاتالتعرف على البريد العشوائيمجموعة بيانات للرسائل غير المرغوب فيها تتكون من 5,574،XNUMX رسالة نصية باللغة الإنجليزيةالرابط
NLPنصمراجعات الصرخةالعلاقات العامةتحليل المشاعرمجموعة بيانات بأكثر من 5 ملايين مراجعة نشرتها Yelpالرابط
NLPنصSpambase من UCIمشروعالتعرف على البريد العشوائيمجموعة بيانات كبيرة من رسائل البريد الإلكتروني العشوائية ، مفيدة لتصفية البريد العشوائي.الرابط
CVفيديو ، صورةبيركلي ديب درايف BDD100kسياراتالمركبات المستقلةواحدة من أكبر مجموعة بيانات للذكاء الاصطناعي ذاتية القيادة تحتوي على 1,100 ساعة من تجارب القيادة في أكثر من 100,000 مقطع فيديو من أوقات مختلفة من اليوم من منطقة نيويورك وسان فرانسيسكو.الرابط
CVفيديو فاصلةسياراتالمركبات المستقلة مجموعة بيانات للقيادة على الطرق السريعة مدتها 7 ساعات تتكون من معلومات عن سرعة السيارة والتسارع وزاوية التوجيه وإحداثيات GPSالرابط
CVفيديو ، صورةمجموعة بيانات سيتي سكيبسياراتالتسمية الدلالية للمركبة المستقلةمجموعة بيانات مكونة من 5,000 تعليق توضيحي على مستوى البكسل بالإضافة إلى مجموعة أكبر من 20,000 إطار توضيحي ضعيف في تسلسلات فيديو استريو ، مسجلة من 50 مدينة مختلفةالرابط
CVصورةمجموعة بيانات علامة المرور KUL بلجيكاسياراتالمركبات المستقلةأكثر من 10000 تعليق توضيحي لعلامة المرور من منطقة فلاندرز بناءً على إشارات مرور مميزة ماديًا من جميع أنحاء بلجيكاالرابط
CVصورةLISA: مختبر للسيارات الذكية والآمنة ، مجموعات بيانات جامعة كاليفورنيا في سان دييغوسياراتالمركبات المستقلةمجموعة بيانات غنية تحتوي على إشارات المرور واكتشاف المركبات وإشارات المرور وأنماط المسار.الرابط
CVصورةسيفار 10العلاقات العامةالتعرف على الأشياءمجموعة بيانات تتكون من 50,000 صورة و 10,000 صورة اختبار (أي 60,000 صورة ملونة 32 × 32 في 10 فئات) للتعرف على الكائنات.الرابط
CVصورةأزياء MNISTالأزياءمجموعة بيانات الصورة التي تتكون من 60,000 مثال ومجموعة اختبار مكونة من 10,000 مثال في 28 × 28 صورة ذات تدرج رمادي ، مقترنة بتسمية من 10 فئات.الرابط
CVصورةمجموعة بيانات IMDB-Wiki ترفيهالتعرف على الوجهمجموعة بيانات كبيرة من صور الوجه مع تسميات مثل الجنس والعمر. من إجمالي 523,051 صورة للوجه ، تم الحصول على 460,723 صورة من 20,284 من المشاهير من IMDB و 62,328 من ويكيبيديا.الرابط
CVفيديو الحركية 700العلاقات العامةلكل فئة عمل ، تتكون مجموعة البيانات عالية الجودة من 650,000 مقطع فيديو وتشمل 700 فئة عمل بشري مع 600 مقطع فيديو على الأقل. هنا ، كل مقطع يستمر لمدة 10 ثوانٍ أو نحو ذلك.الرابط
CVصورةإم إس كوكوالعلاقات العامةكشف الكائن ، التجزئةتحتوي مجموعة البيانات على 328 ألف صورة ولديها إجمالي 2.5 مليون مثيل و 91 صورة كائن لتدريب نماذج ML ذات الصلة بالكشف عن الكائنات على نطاق واسع ، والتجزئة ، وتسمية البيانات.الرابط
CVصورةمجموعة بيانات MPII Human Poseالعلاقات العامةيتم تضمين حوالي 25 ألف صورة تحتوي على أكثر من 40 ألف فرد مع مفاصل الجسم المشروحة في مجموعة البيانات ، والتي تُستخدم لتوضيح تقدير الوضع البشري. بشكل عام ، تغطي مجموعة البيانات 410 نشاطًا بشريًا ويتم تزويد كل صورة بتسمية نشاط.الرابط
CVصورةفتح الصورالعلاقات العامةشروح موقع الكائنمجموعة بيانات الصورة مع حوالي 9 مليون صورة مشروحة بملصقات على مستوى الصورة ، ومربعات تحيط بالكائن ، وتجزئة الكائن وما إلى ذلك. تتكون مجموعة البيانات أيضًا من 16 مليون. مربعات تحيط بـ 600 فئة كائن على 1.9 مليون صورة.الرابط
CVفيديو ، صورةArgo ، بواسطة Argo ، الولايات المتحدة الأمريكيةسياراتالصندوق المحيط ، التدفق البصري ، الملصق السلوكي ، الملصق الدلالي ، تعليم المسارمجموعة بيانات ذاتية القيادة تتكون من خرائط عالية الدقة مع بيانات وصفية هندسية ودلالية ، مثل الخطوط المركزية للممر واتجاه الحارة ومنطقة القيادة. تُستخدم مجموعة البيانات لتدريب نماذج ML ، لعمل خوارزميات إدراك أكثر دقة ، والتي ستساعد المركبات ذاتية القيادة على التنقل بأمان.الرابط
CVفيديو إشارات المرور الصغيرة من بوش ، من إنتاج بوش أمريكا الشمالية للأبحاثسياراتالصندوق المحيطمجموعة بيانات تتكون من 13427 صورة كاميرا بدقة 1280 * 720 لبناء نظام كشف ضوئي مرئي قائم على الرؤية. تحتوي مجموعة البيانات على أكثر من 24000 إشارة مرور مشروحة.الرابط
CVفيديو Brain4Cars ، جامعة كورنيل ، الولايات المتحدةسياراتالتسمية السلوكيةمجموعة بيانات تتكون من مجموعة من أجهزة استشعار المقصورة (الكاميرات ، وأجهزة الاستشعار اللمسية ، والأجهزة الذكية ، وما إلى ذلك) من أجل استخراج إحصائيات مفيدة حول يقظة السائق. قد تكتشف خوارزمياتنا السائقين الذين يعانون من النعاس أو تشتت الانتباه وتعزز الإنذارات اللازمة لتحسين الحماية.الرابط
CVصورةCULane ، من قبل الجامعة الصينية. هونج كونج ، بكين ، الصينسياراتتعليم حارةمجموعة بيانات Computer Vision حول اكتشاف حارات المرور ، مع الأخذ في الاعتبار 55 ساعة من مقاطع الفيديو التي تم استخراج 133,235،88880 منها (مجموعة تدريب 9675 ، ومجموعة التحقق من الصحة 34680 ، ومجموعة اختبار XNUMX). يتم جمعها بواسطة كاميرات مثبتة على ست مركبات مختلفة يقودها سائقون مختلفون في بكين.الرابط
CVفيديو DAVIS ، بواسطة Univ. زيورخ ، ETH زيورخ ، ألمانيا ، سويسراسياراتمجموعة بيانات تدريب شاملة على قيادة السيارة تستخدم حدث DAVIS + كاميرا الإطار. تُستخدم بيانات السيارة مثل التوجيه ، والخانق ، ونظام تحديد المواقع العالمي (GPS) ، وما إلى ذلك لتقييم اندماج بيانات الإطار والحدث لتطبيقات السيارات.الرابط
CVفيديو DBNet ، من جامعة شنغهاي جياو تونغ ، جامعة شيامن ، الصينسياراتبوينت كلاود ، ليداربيانات قيادة تبلغ 1000 كيلومتر في العالم الحقيقي ، والتي تتضمن فيديو متسقًا وسحابة نقطية ونظام تحديد المواقع وسلوك السائق لإجراء بحث متعمق حول سلوكيات القيادة.الرابط
CVفيديو الدكتور (العين) هاء ، من قبل جامعة. مودينا وريجيو إميليا ، مودينا ، إيطالياسياراتالتسمية السلوكيةمجموعة بيانات تحتوي على 74 تسلسل فيديو مدة كل منها 5 دقائق ، تم شرحها في أكثر من 500,000 إطار. تتكون مجموعة البيانات من المواقع الجغرافية المرجعية ، وسرعة القيادة ، والدورة التدريبية ، وكذلك تسميات تثبيتات نظرة السائقين وتكاملهم الزمني الذي يوفر خرائط خاصة بالمهمة.الرابط
CVفيديو ETH Pedestrian (2009) ، من ETH Zurich ، زيورخ ، سويسراالعلاقات العامةالصندوق المحيطمجموعة بيانات تتكون من 74 تسلسل فيديو مدة كل منها 5 دقائق ، مشروحة في أكثر من 500,000 إطار. توفر مجموعة البيانات مواضع مرجعية جغرافية ، وسرعة القيادة ، والاتجاه ، وكذلك تسميات تثبيتات النظرة للسائقين وتكاملهم الزمني ، بما في ذلك الخرائط الخاصة بالمهمة.الرابط
CVفيديو فورد (2009) ، بواسطة Univ. ميتشيغان ، ميشيغان ، الولايات المتحدةسياراتالصندوق المحيط ، ليدرمجموعة بيانات تم تجميعها بواسطة مركبة أرضية آلية مسلحة بماسح ضوئي Velodyne 3D-lidar ، واثنين من مصابيح Rieg ذات مكنسة الدفع الأمامية ، ووحدة القياس بالقصور الذاتي الفنية والاستهلاكية (IMU) ، ونظام الكاميرا متعدد الاتجاهات Point Gray Ladybug3.الرابط
CVفيديو استريو التحدي HCI ، شركة بوش للأبحاث ، هيلدسهايم ، ألمانياالعلاقات العامةمجموعة بيانات من عدة ملايين إطار من مشاهد الفيديو التي تم التقاطها والتي تتضمن مجموعة واسعة من الظروف الجوية المختلفة وطبقات متعددة من الحركة والعمق ؛ الأوضاع في المدينة والريف ، إلخ.الرابط
CVفيديو جاد ، جامعة يورك ، أوكرانيا ، كنداسياراتالمربع المحيط ، التسمية السلوكية"JAAD هي مجموعة بيانات لدراسة الاهتمام المشترك في سياق القيادة الذاتية. وينصب التركيز على سلوكيات المشاة والسائقين عند نقطة العبور والعوامل التي تؤثر عليهم. ولهذه الغاية ، توفر مجموعة بيانات JAAD مجموعة غنية من التعليقات التوضيحية من 346 مقطع فيديو قصير مقاطع (من 5 إلى 10 ثوانٍ) مستخرجة من أكثر من 240 ساعة من لقطات القيادة من عدة مواقع في أمريكا الشمالية وأوروبا الشرقية. تُستخدم المربعات المحيطة بعلامات انسداد لجميع المشاة ، مما يجعل مجموعة البيانات هذه مناسبة لاكتشاف المشاة. تحدد التعليقات التوضيحية للسلوك سلوك المشاة التي تتفاعل مع السائق أو تتطلب انتباهه. لكل مقطع فيديو ، هناك العديد من العلامات (الطقس ، والمواقع ، وما إلى ذلك) وعلامات السلوك ذات الطابع الزمني (على سبيل المثال ، متوقفة ، أو تمشي ، أو تبحث ، وما إلى ذلك). بالإضافة إلى ذلك ، هناك قائمة بالسمات الديموغرافية يتم توفيرها لكل مشاة (مثل العمر والجنس واتجاه الحركة وما إلى ذلك) بالإضافة إلى قائمة بعناصر مشهد حركة المرور المرئية (مثل إشارة التوقف وإشارة المرور وما إلى ذلك) في كل إطار. "الرابط
CVصورةLISA Traffic Sign ، بواسطة Univ. كاليفورنيا ، سان دييغو ، الولايات المتحدةسياراتالصندوق المحيطمجموعة البيانات التي تحتوي على مقاطع فيديو وإطارات توضيحية تحتوي على إشارات مرور أمريكية. يتم إصداره على مرحلتين ، واحدة مع الصور فقط والأخرى مع الصور ومقاطع الفيديو.الرابط
CVصورةآفاق Mapillary ، بواسطة Mapillary AB ، العالميةسياراتالتسمية الدلاليةمجموعة بيانات للتصوير الفوتوغرافي على مستوى الشارع لتفسير مشاهد الشوارع في جميع أنحاء العالم من خلال التعليقات التوضيحية البشرية الدقيقة بالبكسل والمحددة.الرابط
CVفيديو ، صورةKITTI الدلالية ، من جامعة بون ، كارلسروه ، ألمانياسياراتالصندوق المحيط ، التسمية الدلالية ، تعليم الحارةمجموعة بيانات تتضمن تعليقًا توضيحيًا دلاليًا لجميع تسلسلات مقياس قياس الأداء. توضح مجموعة البيانات أنواعًا مختلفة من حركة المرور المتحركة وغير المتحركة: بما في ذلك السيارات والدراجات والدراجات والمشاة وراكبي الدراجات ، مما يسمح بدراسة العناصر الموجودة في المشهد.الرابط
CVفيديو ستانفورد تراك ، جامعة ستانفورد ، الولايات المتحدةسياراتكشف / تصنيف الأشياء LiDAR ، GPS ، الرموزمجموعة بيانات تتضمن 14,000 مسار كائن معنون كما هو ملاحظ بواسطة Velodyne HDL-64E S2 LIDAR في مشاهد الشوارع الطبيعية ، والتي يمكن استخدامها لتدريب نماذج التعلم الآلي للتعرف على الأشياء ثلاثية الأبعاد.الرابط
CVفيديو ، صورةمجموعة البيانات Boxy ، من بوش ، الولايات المتحدةسياراتالصندوق المحيط / كشف السيارةمجموعة بيانات الكشف عن المركبات تحتوي على مليوني مركبة مشروحة للتدريب وتحليل استراتيجيات التعرف على الأشياء للسيارات ذاتية القيادة على الطرق السريعة.الرابط
CVفيديو الطريق السريع TME ، من قبل الجامعة التقنية التشيكية ، شمال إيطالياسياراتالصندوق المحيطمجموعة بيانات مكونة من 28 مقطعًا بإجمالي 27 دقيقة مقسمة إلى أكثر من 30,000 إطار توضيحي للمركبة. تم إنتاج التعليقات التوضيحية بشكل شبه تلقائي باستخدام البيانات من الماسح الضوئي الليزري. تتضمن عملية جمع البيانات هذه سيناريوهات متغيرة لحركة المرور ، وعدد الممرات ، وانحناء الطريق ، والإضاءة ، وتغطي الكثير من شروط الاستحواذ الكامل.الرابط
CVفيديو اللاما غير الخاضعة للرقابة ، بوش ، الولايات المتحدةسياراتتعليم حارة ، LiDARتم شرح مجموعة بيانات Llamas غير الخاضعة للإشراف من خلال إنشاء خرائط قيادة تلقائية عالية الدقة ، بما في ذلك علامات الممرات المستندة إلى Lidar. يمكن محاذاة السيارة المستقلة مع هذه الخرائط ويتم عرض علامات الممر في إطار الكاميرا. تم تحسين الإسقاط ثلاثي الأبعاد عن طريق تقليل التناقض بين علامات الصورة المرصودة والمتوقعة بالفعل.الرابط
NLPAudioFacebook AI متعدد اللغات LibriSpeech (MLS)العلاقات العامةالتعليق التوضيحي الصوتي / التعرف على الكلامFacebook AI Multilingual LibriSpeech (MLS) ، عبارة عن مجموعة بيانات واسعة النطاق ومفتوحة المصدر مصممة للمساعدة في تقدم البحث في التعرف التلقائي على الكلام (ASR). يوفر MLS أكثر من 50,000 ساعة من الصوت عبر 8 لغات: الإنجليزية والألمانية والهولندية والفرنسية والإسبانية والإيطالية والبرتغالية والبولندية. الرابط