افتح مجموعات البيانات

اكتشف مجموعات البيانات مفتوحة المصدر التي تجعلك تقوم بتدريب نماذج ML

افتح مجموعات البيانات

مجموعات بيانات مفتوحة المصدر لتبدأ في استخدام نماذج AI / ML

تعد مخرجات نماذج الذكاء الاصطناعي والتعلم الآلي الخاصة بك جيدة فقط مثل البيانات التي تستخدمها لتدريبها - لذا فإن الدقة التي تطبقها على تجميع البيانات ووضع العلامات وتحديد تلك البيانات مهمة!

لذلك ، إذا كنت ترغب في بدء مبادرة جديدة للذكاء الاصطناعي / تعلم الآلة وتدرك الآن بسرعة أن العثور على بيانات تدريب عالية الجودة سيكون أحد الجوانب الأكثر تحديًا في مشروعك لأن مجموعات البيانات عالية الجودة هي الوقود الذي يحافظ على الذكاء الاصطناعي / تشغيل محرك ML. لقد جمعنا قائمة بمجموعات البيانات المفتوحة التي يمكن استخدامها مجانًا وتدريب نماذج الذكاء الاصطناعي / التعلم الآلي الخاصة بك في المستقبل.

تخصصنوع البياناتاسم مجموعة البياناتالصناعة / القسم.الشرح / حالة الاستخداموصف المنتجلينك
NLPنصالأمازون الاستعراضاتالتجارة الإلكترونيةتحليل المشاعرمجموعة من 35 مليون تقييم وتقييم من أكثر من 18 عامًا في نص عادي مع تفاصيل المستخدم والمنتج.لينك
NLPنصبيانات روابط ويكيبيديافكرة عامةأكثر من 4 مليون. المقالات التي تحتوي على 1.9 مليار دولار. كلمة تتكون من كلمات وعبارات وكذلك فقرات.لينك
NLPنصشعور ستاندفورد تريبانك ترفيهتحليل المشاعرمجموعة بيانات التعليقات التوضيحية للمشاعر لأكثر من 10,000 قطعة من المراجعات من Rotten Tomatoes بتنسيق ملف HTMLلينك
NLPنصشعور شركة تويتر بشركة الطيران الأمريكيةشركة طيرانتحليل المشاعرتنقسمت تغريدات 2015 على الخطوط الجوية الأمريكية إلى نغمات إيجابية وسلبية ومحايدةلينك
CVصورة وجوه مسماة في البريةفكرة عامةالتعرف على الوجهمجموعة بيانات تحتوي على أكثر من 13,000 وجه مقصوص مع صورتين مختلفتين للتدريب على التعرف على الوجه.لينك
CVفيديو ، صورةمجموعة بيانات UMDFacesفكرة عامةالتعرف على الوجهمجموعة بيانات مشروحة تحتوي على أكثر من 367,000 وجه من أكثر من 8,000 موضوع تتضمن صورًا ثابتة وفيديو.لينك
CVصورة إيماجنتفكرة عامةمجموعة بيانات تزيد عن 14 مليون. الصور بتنسيقات ملفات مختلفة ، مرتبة وفقًا لتسلسل WordNet الهرمي.لينك
CVصورة صور جوجل المفتوحةفكرة عامة9 مليون. عناوين URL لتصنيف الصور العامة من أكثر من 6,000 فئة.لينك
NLPنصقاعدة بيانات العناية المركزة MIMICالرعاية الصحيةمجموعات بيانات الفسيولوجيا الحسابية مع بيانات مجهولة الهوية من 40,000 مريض رعاية حرجة. تحتوي مجموعة البيانات على معلومات مثل التركيبة السكانية والعلامات الحيوية والأدوية وما إلى ذلك.لينك
CVصورةالمكتب الوطني الأمريكي للسفر والسياحةسياحةيوفر صورًا عريضة من صناعة السياحة مع قواعد بيانات جديرة بالثقة ، تغطي موضوعات مثل السفر الداخلي والخارجي ومعلومات السياحة الدولية.لينك
NLPنصقسم النقلسياحةمجموعات البيانات السياحية التي تشمل المتنزهات الوطنية وسجلات السائقين والجسور ومعلومات السكك الحديدية وما إلى ذلك.لينك
NLPالصوتياتمجموعة التسمية التوضيحية الصوتية على Flickrفكرة عامةأكثر من 40 ألف تعليق منطوق من 8,000 صورة مصممة لأنماط الكلام غير الخاضعة للإشرافلينك
NLPالصوتياتمجموعة بيانات أوامر الكلامفكرة عامةالتعرف على الكلام ، التعليقات الصوتيةكلمات طويلة لمدة ثانية واحدة من آلاف الأفراد ، لبناء واجهة صوتية أساسية.لينك
NLPالصوتياتمجموعات البيانات الصوتية البيئيةفكرة عامةمجموعات البيانات الصوتية للبيئة التي تحتوي على جداول الأحداث وجداول المشاهد الصوتية.لينك
NLPنصCOVID-19 مجموعة بيانات البحث المفتوح الرعاية الصحيةالذكاء الاصطناعي الطبيمجموعة بيانات بحثية تتكون من 45,000 مقالة علمية حول COVID-19 وعائلة الفيروسات التاجية.لينك
CVصورةوايمو مجموعة البيانات المفتوحة قطاع المعدات الثقيلةمجموعات بيانات القيادة الذاتية الأكثر تنوعًا التي أصدرتها Waymoلينك
CVصورةالجينوم المرئي فكرة عامةشرح الصورةقاعدة معرفية مرئية مع شرح تفصيلي لما يزيد عن 100 ألف صورةلينك
CVصورةتسمية لي الحكومة العامة.مجموعة كبيرة من الصور المشروحة يمكن الوصول إليها من خلال Labelme Matlabلينك
CVصورةCOIL100فكرة عامةأكثر من 100 كائن متنوع تم تصويره من زوايا متعددة (أي 360 درجة)لينك
CVصورةمجموعة بيانات كلاب ستانفوردفكرة عامةأكثر من 20,500 صورة مصنفة في مجموعة صور تضم 120 سلالة كلاب مختلفةلينك
CVصورةالتعرف على المشهد الداخليفكرة عامةالتعرف على المشهدمجموعة بيانات محددة تتكون من 15620 صورة من 67 فئة داخلية لبناء نماذج التعرف على المشهدلينك
CVصورةVisualQAفكرة عامةمجموعة بيانات تتضمن أسئلة مفتوحة تتعلق بـ 265,016،XNUMX صورة تتطلب فهم الرؤية والفهم اللغوي للرد.لينك
NLPنصمجموعة بيانات تحليل المشاعر متعددة المجالاتالتجارة الإلكترونيةتحليل المشاعرمجموعة بيانات تحتوي على مراجعات للمنتجات من أمازونلينك
NLPنصمراجعات IMDB ترفيهتحليل المشاعرمجموعة بيانات تحتوي على 25000 مراجعة فيلم لتحليل المشاعرلينك
NLPنصالمشاعر 140فكرة عامةتحليل المشاعرمجموعة بيانات تحتوي على 160,000 تغريدة مع رموز تمت إزالتها مسبقًا للحصول على دقة أعلىلينك
NLPنصمجموعة Bloggerفكرة عامةKeyprase Ananlysisمجموعة بيانات تحتوي على 681,288،200 مشاركة مدونة من blogger.com تتكون من XNUMX تكرار على الأقل للكلمات الإنجليزية المستخدمة على نطاق واسع.لينك
NLPنصخطرفكرة عامةتدريب Chatbotمجموعة بيانات تحتوي على أكثر من 200,000 سؤال يمكن استخدامها لتدريب نماذج التعلم الآلي على الاستجابة التلقائية بذكاءلينك
NLPنصجمع الرسائل القصيرة غير المرغوب فيها باللغة الإنجليزيةاتصالاتالتعرف على البريد العشوائيمجموعة بيانات للرسائل غير المرغوب فيها تتكون من 5,574،XNUMX رسالة نصية باللغة الإنجليزيةلينك
NLPنصمراجعات الصرخةفكرة عامةتحليل المشاعرمجموعة بيانات بأكثر من 5 ملايين مراجعة نشرتها Yelpلينك
NLPنصSpambase من UCIمشروعالتعرف على البريد العشوائيمجموعة بيانات كبيرة من رسائل البريد الإلكتروني العشوائية ، مفيدة لتصفية البريد العشوائي.لينك
CVفيديو ، صورةبيركلي ديب درايف BDD100kقطاع المعدات الثقيلةالمركبات المستقلةواحدة من أكبر مجموعة بيانات للذكاء الاصطناعي ذاتية القيادة تحتوي على 1,100 ساعة من تجارب القيادة في أكثر من 100,000 مقطع فيديو من أوقات مختلفة من اليوم من منطقة نيويورك وسان فرانسيسكو.لينك
CVفيديو فاصلةقطاع المعدات الثقيلةالمركبات المستقلة مجموعة بيانات للقيادة على الطرق السريعة مدتها 7 ساعات تتكون من معلومات عن سرعة السيارة والتسارع وزاوية التوجيه وإحداثيات GPSلينك
CVفيديو ، صورةمجموعة بيانات سيتي سكيبقطاع المعدات الثقيلةالتسمية الدلالية للمركبة المستقلةمجموعة بيانات مكونة من 5,000 تعليق توضيحي على مستوى البكسل بالإضافة إلى مجموعة أكبر من 20,000 إطار توضيحي ضعيف في تسلسلات فيديو استريو ، مسجلة من 50 مدينة مختلفةلينك
CVصورةمجموعة بيانات علامة المرور KUL بلجيكاقطاع المعدات الثقيلةالمركبات المستقلةأكثر من 10000 تعليق توضيحي لعلامة المرور من منطقة فلاندرز بناءً على إشارات مرور مميزة ماديًا من جميع أنحاء بلجيكالينك
CVصورةLISA: مختبر للسيارات الذكية والآمنة ، مجموعات بيانات جامعة كاليفورنيا في سان دييغوقطاع المعدات الثقيلةالمركبات المستقلةمجموعة بيانات غنية تحتوي على إشارات المرور واكتشاف المركبات وإشارات المرور وأنماط المسار.لينك
CVصورةسيفار 10فكرة عامةالتعرف على الأشياءمجموعة بيانات تتكون من 50,000 صورة و 10,000 صورة اختبار (أي 60,000 صورة ملونة 32 × 32 في 10 فئات) للتعرف على الكائنات.لينك
CVصورةأزياء MNISTالموضةمجموعة بيانات الصورة التي تتكون من 60,000 مثال ومجموعة اختبار مكونة من 10,000 مثال في 28 × 28 صورة ذات تدرج رمادي ، مقترنة بتسمية من 10 فئات.لينك
CVصورةمجموعة بيانات IMDB-Wiki ترفيهالتعرف على الوجهمجموعة بيانات كبيرة من صور الوجه مع تسميات مثل الجنس والعمر. من إجمالي 523,051 صورة للوجه ، تم الحصول على 460,723 صورة من 20,284 من المشاهير من IMDB و 62,328 من ويكيبيديا.لينك
CVفيديو الحركية 700فكرة عامةلكل فئة عمل ، تتكون مجموعة البيانات عالية الجودة من 650,000 مقطع فيديو وتشمل 700 فئة عمل بشري مع 600 مقطع فيديو على الأقل. هنا ، كل مقطع يستمر لمدة 10 ثوانٍ أو نحو ذلك.لينك
CVصورةإم إس كوكوفكرة عامةكشف الكائن ، التجزئةتحتوي مجموعة البيانات على 328 ألف صورة ولديها إجمالي 2.5 مليون مثيل و 91 صورة كائن لتدريب نماذج ML ذات الصلة بالكشف عن الكائنات على نطاق واسع ، والتجزئة ، وتسمية البيانات.لينك
CVصورةمجموعة بيانات MPII Human Poseفكرة عامةيتم تضمين حوالي 25 ألف صورة تحتوي على أكثر من 40 ألف فرد مع مفاصل الجسم المشروحة في مجموعة البيانات ، والتي تُستخدم لتوضيح تقدير الوضع البشري. بشكل عام ، تغطي مجموعة البيانات 410 نشاطًا بشريًا ويتم تزويد كل صورة بتسمية نشاط.لينك
CVصورةفتح الصورفكرة عامةشروح موقع الكائنمجموعة بيانات الصورة مع حوالي 9 مليون صورة مشروحة بملصقات على مستوى الصورة ، ومربعات تحيط بالكائن ، وتجزئة الكائن وما إلى ذلك. تتكون مجموعة البيانات أيضًا من 16 مليون. مربعات تحيط بـ 600 فئة كائن على 1.9 مليون صورة.لينك
CVفيديو منصة أبولو المفتوحة ، من شركة بايدو ، الصينقطاع المعدات الثقيلةالصندوق المحيط ، ليدارمجموعة بيانات قيادة ذاتية غنية ، توفر للمطورين البيانات المطلوبة في القيادة الذاتية لتسريع كفاءة التكرار المبتكر.لينك
CVفيديو ، صورةArgo ، بواسطة Argo ، الولايات المتحدة الأمريكيةقطاع المعدات الثقيلةالصندوق المحيط ، التدفق البصري ، الملصق السلوكي ، الملصق الدلالي ، تعليم المسارمجموعة بيانات ذاتية القيادة تتكون من خرائط عالية الدقة مع بيانات وصفية هندسية ودلالية ، مثل الخطوط المركزية للممر واتجاه الحارة ومنطقة القيادة. تُستخدم مجموعة البيانات لتدريب نماذج ML ، لعمل خوارزميات إدراك أكثر دقة ، والتي ستساعد المركبات ذاتية القيادة على التنقل بأمان.لينك
CVفيديو إشارات المرور الصغيرة من بوش ، من إنتاج بوش أمريكا الشمالية للأبحاثقطاع المعدات الثقيلةالصندوق المحيطمجموعة بيانات تتكون من 13427 صورة كاميرا بدقة 1280 * 720 لبناء نظام كشف ضوئي مرئي قائم على الرؤية. تحتوي مجموعة البيانات على أكثر من 24000 إشارة مرور مشروحة.لينك
CVفيديو Brain4Cars ، جامعة كورنيل ، الولايات المتحدةقطاع المعدات الثقيلةالتسمية السلوكيةمجموعة بيانات تتكون من مجموعة من أجهزة استشعار المقصورة (الكاميرات ، وأجهزة الاستشعار اللمسية ، والأجهزة الذكية ، وما إلى ذلك) من أجل استخراج إحصائيات مفيدة حول يقظة السائق. قد تكتشف خوارزمياتنا السائقين الذين يعانون من النعاس أو تشتت الانتباه وتعزز الإنذارات اللازمة لتحسين الحماية.لينك
CVصورةCULane ، من قبل الجامعة الصينية. هونج كونج ، بكين ، الصينقطاع المعدات الثقيلةتعليم حارةمجموعة بيانات Computer Vision حول اكتشاف حارات المرور ، مع الأخذ في الاعتبار 55 ساعة من مقاطع الفيديو التي تم استخراج 133,235،88880 منها (مجموعة تدريب 9675 ، ومجموعة التحقق من الصحة 34680 ، ومجموعة اختبار XNUMX). يتم جمعها بواسطة كاميرات مثبتة على ست مركبات مختلفة يقودها سائقون مختلفون في بكين.لينك
CVفيديو DAVIS ، بواسطة Univ. زيورخ ، ETH زيورخ ، ألمانيا ، سويسراقطاع المعدات الثقيلةمجموعة بيانات تدريب شاملة على قيادة السيارة تستخدم حدث DAVIS + كاميرا الإطار. تُستخدم بيانات السيارة مثل التوجيه ، والخانق ، ونظام تحديد المواقع العالمي (GPS) ، وما إلى ذلك لتقييم اندماج بيانات الإطار والحدث لتطبيقات السيارات.لينك
CVفيديو DBNet ، من جامعة شنغهاي جياو تونغ ، جامعة شيامن ، الصينقطاع المعدات الثقيلةبوينت كلاود ، ليداربيانات قيادة تبلغ 1000 كيلومتر في العالم الحقيقي ، والتي تتضمن فيديو متسقًا وسحابة نقطية ونظام تحديد المواقع وسلوك السائق لإجراء بحث متعمق حول سلوكيات القيادة.لينك
CVفيديو الدكتور (العين) هاء ، من قبل جامعة. مودينا وريجيو إميليا ، مودينا ، إيطالياقطاع المعدات الثقيلةالتسمية السلوكيةمجموعة بيانات تحتوي على 74 تسلسل فيديو مدة كل منها 5 دقائق ، تم شرحها في أكثر من 500,000 إطار. تتكون مجموعة البيانات من المواقع الجغرافية المرجعية ، وسرعة القيادة ، والدورة التدريبية ، وكذلك تسميات تثبيتات نظرة السائقين وتكاملهم الزمني الذي يوفر خرائط خاصة بالمهمة.لينك
CVفيديو ETH Pedestrian (2009) ، من ETH Zurich ، زيورخ ، سويسرافكرة عامةالصندوق المحيطمجموعة بيانات تتكون من 74 تسلسل فيديو مدة كل منها 5 دقائق ، مشروحة في أكثر من 500,000 إطار. توفر مجموعة البيانات مواضع مرجعية جغرافية ، وسرعة القيادة ، والاتجاه ، وكذلك تسميات تثبيتات النظرة للسائقين وتكاملهم الزمني ، بما في ذلك الخرائط الخاصة بالمهمة.لينك
CVفيديو فورد (2009) ، بواسطة Univ. ميتشيغان ، ميشيغان ، الولايات المتحدةقطاع المعدات الثقيلةالصندوق المحيط ، ليدرمجموعة بيانات تم تجميعها بواسطة مركبة أرضية آلية مسلحة بماسح ضوئي Velodyne 3D-lidar ، واثنين من مصابيح Rieg ذات مكنسة الدفع الأمامية ، ووحدة القياس بالقصور الذاتي الفنية والاستهلاكية (IMU) ، ونظام الكاميرا متعدد الاتجاهات Point Gray Ladybug3.لينك
CVفيديو استريو التحدي HCI ، شركة بوش للأبحاث ، هيلدسهايم ، ألمانيافكرة عامةمجموعة بيانات من عدة ملايين إطار من مشاهد الفيديو التي تم التقاطها والتي تتضمن مجموعة واسعة من الظروف الجوية المختلفة وطبقات متعددة من الحركة والعمق ؛ الأوضاع في المدينة والريف ، إلخ.لينك
CVفيديو جاد ، جامعة يورك ، أوكرانيا ، كنداقطاع المعدات الثقيلةالمربع المحيط ، التسمية السلوكية"JAAD هي مجموعة بيانات لدراسة الاهتمام المشترك في سياق القيادة الذاتية. وينصب التركيز على سلوكيات المشاة والسائقين عند نقطة العبور والعوامل التي تؤثر عليهم. ولهذه الغاية ، توفر مجموعة بيانات JAAD مجموعة غنية من التعليقات التوضيحية من 346 مقطع فيديو قصير مقاطع (من 5 إلى 10 ثوانٍ) مستخرجة من أكثر من 240 ساعة من لقطات القيادة من عدة مواقع في أمريكا الشمالية وأوروبا الشرقية. تُستخدم المربعات المحيطة بعلامات انسداد لجميع المشاة ، مما يجعل مجموعة البيانات هذه مناسبة لاكتشاف المشاة. تحدد التعليقات التوضيحية للسلوك سلوك المشاة التي تتفاعل مع السائق أو تتطلب انتباهه. لكل مقطع فيديو ، هناك العديد من العلامات (الطقس ، والمواقع ، وما إلى ذلك) وعلامات السلوك ذات الطابع الزمني (على سبيل المثال ، متوقفة ، أو تمشي ، أو تبحث ، وما إلى ذلك). بالإضافة إلى ذلك ، هناك قائمة بالسمات الديموغرافية يتم توفيرها لكل مشاة (مثل العمر والجنس واتجاه الحركة وما إلى ذلك) بالإضافة إلى قائمة بعناصر مشهد حركة المرور المرئية (مثل إشارة التوقف وإشارة المرور وما إلى ذلك) في كل إطار. "لينك
CVفيديو KAIST Urban ، بواسطة KAIST ، كوريا الجنوبيةفكرة عامةتحديد المدىيتضمن جمع البيانات العديد من مستشعرات الموقع لبيانات LiDAR وصور الاستريو التي تستهدف منطقة حضرية شديدة التعقيد (مثل مناطق المدن والمباني المعقدة والمناطق السكنية).لينك
CVصورةLISA Traffic Sign ، بواسطة Univ. كاليفورنيا ، سان دييغو ، الولايات المتحدةقطاع المعدات الثقيلةالصندوق المحيطمجموعة البيانات التي تحتوي على مقاطع فيديو وإطارات توضيحية تحتوي على إشارات مرور أمريكية. يتم إصداره على مرحلتين ، واحدة مع الصور فقط والأخرى مع الصور ومقاطع الفيديو.لينك
CVصورةآفاق Mapillary ، بواسطة Mapillary AB ، العالميةقطاع المعدات الثقيلةالتسمية الدلاليةمجموعة بيانات للتصوير الفوتوغرافي على مستوى الشارع لتفسير مشاهد الشوارع في جميع أنحاء العالم من خلال التعليقات التوضيحية البشرية الدقيقة بالبكسل والمحددة.لينك
CVفيديو ، صورةKITTI الدلالية ، من جامعة بون ، كارلسروه ، ألمانياقطاع المعدات الثقيلةالصندوق المحيط ، التسمية الدلالية ، تعليم الحارةمجموعة بيانات تتضمن تعليقًا توضيحيًا دلاليًا لجميع تسلسلات مقياس قياس الأداء. توضح مجموعة البيانات أنواعًا مختلفة من حركة المرور المتحركة وغير المتحركة: بما في ذلك السيارات والدراجات والدراجات والمشاة وراكبي الدراجات ، مما يسمح بدراسة العناصر الموجودة في المشهد.لينك
CVفيديو ستانفورد تراك ، جامعة ستانفورد ، الولايات المتحدةقطاع المعدات الثقيلةكشف / تصنيف الأشياء LiDAR ، GPS ، الرموزمجموعة بيانات تتضمن 14,000 مسار كائن معنون كما هو ملاحظ بواسطة Velodyne HDL-64E S2 LIDAR في مشاهد الشوارع الطبيعية ، والتي يمكن استخدامها لتدريب نماذج التعلم الآلي للتعرف على الأشياء ثلاثية الأبعاد.لينك
CVفيديو ، صورةمجموعة البيانات Boxy ، من بوش ، الولايات المتحدةقطاع المعدات الثقيلةالصندوق المحيط / كشف السيارةمجموعة بيانات الكشف عن المركبات تحتوي على مليوني مركبة مشروحة للتدريب وتحليل استراتيجيات التعرف على الأشياء للسيارات ذاتية القيادة على الطرق السريعة.لينك
CVفيديو الطريق السريع TME ، من قبل الجامعة التقنية التشيكية ، شمال إيطالياقطاع المعدات الثقيلةالصندوق المحيطمجموعة بيانات مكونة من 28 مقطعًا بإجمالي 27 دقيقة مقسمة إلى أكثر من 30,000 إطار توضيحي للمركبة. تم إنتاج التعليقات التوضيحية بشكل شبه تلقائي باستخدام البيانات من الماسح الضوئي الليزري. تتضمن عملية جمع البيانات هذه سيناريوهات متغيرة لحركة المرور ، وعدد الممرات ، وانحناء الطريق ، والإضاءة ، وتغطي الكثير من شروط الاستحواذ الكامل.لينك
CVفيديو اللاما غير الخاضعة للرقابة ، بوش ، الولايات المتحدةقطاع المعدات الثقيلةتعليم حارة ، LiDARتم شرح مجموعة بيانات Llamas غير الخاضعة للإشراف من خلال إنشاء خرائط قيادة تلقائية عالية الدقة ، بما في ذلك علامات الممرات المستندة إلى Lidar. يمكن محاذاة السيارة المستقلة مع هذه الخرائط ويتم عرض علامات الممر في إطار الكاميرا. تم تحسين الإسقاط ثلاثي الأبعاد عن طريق تقليل التناقض بين علامات الصورة المرصودة والمتوقعة بالفعل.لينك
NLPالصوتياتFacebook AI Multilingual LibriSpeech (MLS)فكرة عامةالتعليق التوضيحي الصوتي / التعرف على الكلامFacebook AI Multilingual LibriSpeech (MLS) ، عبارة عن مجموعة بيانات واسعة النطاق ومفتوحة المصدر مصممة للمساعدة في تقدم البحث في التعرف التلقائي على الكلام (ASR). يوفر MLS أكثر من 50,000 ساعة من الصوت عبر 8 لغات: الإنجليزية والألمانية والهولندية والفرنسية والإسبانية والإيطالية والبرتغالية والبولندية. لينك