افتح مجموعات البيانات
اكتشف مجموعات البيانات مفتوحة المصدر التي تجعلك تقوم بتدريب نماذج ML
مجموعات بيانات مفتوحة المصدر لتبدأ في استخدام نماذج AI / ML
تعد مخرجات نماذج الذكاء الاصطناعي والتعلم الآلي الخاصة بك جيدة فقط مثل البيانات التي تستخدمها لتدريبها - لذا فإن الدقة التي تطبقها على تجميع البيانات ووضع العلامات وتحديد تلك البيانات مهمة!
لذلك ، إذا كنت ترغب في بدء مبادرة جديدة للذكاء الاصطناعي / تعلم الآلة وتدرك الآن بسرعة أن العثور على بيانات تدريب عالية الجودة سيكون أحد الجوانب الأكثر تحديًا في مشروعك لأن مجموعات البيانات عالية الجودة هي الوقود الذي يحافظ على الذكاء الاصطناعي / تشغيل محرك ML. لقد جمعنا قائمة بمجموعات البيانات المفتوحة التي يمكن استخدامها مجانًا وتدريب نماذج الذكاء الاصطناعي / التعلم الآلي الخاصة بك في المستقبل.
تخصصات | نوع البيانات | اسم مجموعة البيانات | الصناعة / القسم. | الشرح / حالة الاستخدام | الوصف | الرابط |
---|---|---|---|---|---|---|
NLP | نص | الأمازون الاستعراضات | التجارة الإلكترونية | تحليل المشاعر | مجموعة من 35 مليون تقييم وتقييم من أكثر من 18 عامًا في نص عادي مع تفاصيل المستخدم والمنتج. | الرابط |
NLP | نص | بيانات روابط ويكيبيديا | العلاقات العامة | أكثر من 4 مليون. المقالات التي تحتوي على 1.9 مليار دولار. كلمة تتكون من كلمات وعبارات وكذلك فقرات. | الرابط | |
NLP | نص | شعور ستاندفورد تريبانك | ترفيه | تحليل المشاعر | مجموعة بيانات التعليقات التوضيحية للمشاعر لأكثر من 10,000 قطعة من المراجعات من Rotten Tomatoes بتنسيق ملف HTML | الرابط |
NLP | نص | شعور شركة تويتر بشركة الطيران الأمريكية | شركة طيران | تحليل المشاعر | تنقسمت تغريدات 2015 على الخطوط الجوية الأمريكية إلى نغمات إيجابية وسلبية ومحايدة | الرابط |
CV | صورة | وجوه مسماة في البرية | العلاقات العامة | التعرف على الوجه | مجموعة بيانات تحتوي على أكثر من 13,000 وجه مقصوص مع صورتين مختلفتين للتدريب على التعرف على الوجه. | الرابط |
CV | فيديو ، صورة | مجموعة بيانات UMDFaces | العلاقات العامة | التعرف على الوجه | مجموعة بيانات مشروحة تحتوي على أكثر من 367,000 وجه من أكثر من 8,000 موضوع تتضمن صورًا ثابتة وفيديو. | الرابط |
CV | صورة | إيماجنت | العلاقات العامة | مجموعة بيانات تزيد عن 14 مليون. الصور بتنسيقات ملفات مختلفة ، مرتبة وفقًا لتسلسل WordNet الهرمي. | الرابط | |
CV | صورة | صور جوجل المفتوحة | العلاقات العامة | 9 مليون. عناوين URL لتصنيف الصور العامة من أكثر من 6,000 فئة. | الرابط | |
NLP | نص | قاعدة بيانات العناية المركزة MIMIC | الرعاية الصحية | مجموعات بيانات الفسيولوجيا الحسابية مع بيانات مجهولة الهوية من 40,000 مريض رعاية حرجة. تحتوي مجموعة البيانات على معلومات مثل التركيبة السكانية والعلامات الحيوية والأدوية وما إلى ذلك. | الرابط | |
CV | صورة | المكتب الوطني الأمريكي للسفر والسياحة | السياحه في زلمسي | يوفر صورًا عريضة من صناعة السياحة مع قواعد بيانات جديرة بالثقة ، تغطي موضوعات مثل السفر الداخلي والخارجي ومعلومات السياحة الدولية. | الرابط | |
NLP | نص | قسم النقل | السياحه في زلمسي | مجموعات البيانات السياحية التي تشمل المتنزهات الوطنية وسجلات السائقين والجسور ومعلومات السكك الحديدية وما إلى ذلك. | الرابط | |
NLP | Audio | مجموعة التسمية التوضيحية الصوتية على Flickr | العلاقات العامة | أكثر من 40 ألف تعليق منطوق من 8,000 صورة مصممة لأنماط الكلام غير الخاضعة للإشراف | الرابط | |
NLP | Audio | مجموعة بيانات أوامر الكلام | العلاقات العامة | التعرف على الكلام ، التعليقات الصوتية | كلمات طويلة لمدة ثانية واحدة من آلاف الأفراد ، لبناء واجهة صوتية أساسية. | الرابط |
NLP | Audio | مجموعات البيانات الصوتية البيئية | العلاقات العامة | مجموعات البيانات الصوتية للبيئة التي تحتوي على جداول الأحداث وجداول المشاهد الصوتية. | الرابط | |
NLP | نص | COVID-19 مجموعة بيانات البحث المفتوح | الرعاية الصحية | الذكاء الاصطناعي الطبي | مجموعة بيانات بحثية تتكون من 45,000 مقالة علمية حول COVID-19 وعائلة الفيروسات التاجية. | الرابط |
CV | صورة | وايمو مجموعة البيانات المفتوحة | سيارات | مجموعات بيانات القيادة الذاتية الأكثر تنوعًا التي أصدرتها Waymo | الرابط | |
CV | صورة | تسمية لي | الحكومة العامة. | مجموعة كبيرة من الصور المشروحة يمكن الوصول إليها من خلال Labelme Matlab | الرابط | |
CV | صورة | COIL100 | العلاقات العامة | أكثر من 100 كائن متنوع تم تصويره من زوايا متعددة (أي 360 درجة) | الرابط | |
CV | صورة | مجموعة بيانات كلاب ستانفورد | العلاقات العامة | أكثر من 20,500 صورة مصنفة في مجموعة صور تضم 120 سلالة كلاب مختلفة | الرابط | |
CV | صورة | التعرف على المشهد الداخلي | العلاقات العامة | التعرف على المشهد | مجموعة بيانات محددة تتكون من 15620 صورة من 67 فئة داخلية لبناء نماذج التعرف على المشهد | الرابط |
CV | صورة | VisualQA | العلاقات العامة | مجموعة بيانات تتضمن أسئلة مفتوحة تتعلق بـ 265,016،XNUMX صورة تتطلب فهم الرؤية والفهم اللغوي للرد. | الرابط | |
NLP | نص | مجموعة بيانات تحليل المشاعر متعددة المجالات | التجارة الإلكترونية | تحليل المشاعر | مجموعة بيانات تحتوي على مراجعات للمنتجات من أمازون | الرابط |
NLP | نص | مراجعات IMDB | ترفيه | تحليل المشاعر | مجموعة بيانات تحتوي على 25000 مراجعة فيلم لتحليل المشاعر | الرابط |
NLP | نص | المشاعر 140 | العلاقات العامة | تحليل المشاعر | مجموعة بيانات تحتوي على 160,000 تغريدة مع رموز تمت إزالتها مسبقًا للحصول على دقة أعلى | الرابط |
NLP | نص | مجموعة Blogger | العلاقات العامة | تحليل Keyprase | مجموعة بيانات تحتوي على 681,288،200 مشاركة مدونة من blogger.com تتكون من XNUMX تكرار على الأقل للكلمات الإنجليزية المستخدمة على نطاق واسع. | الرابط |
NLP | نص | خطر | العلاقات العامة | تدريب Chatbot | مجموعة بيانات تحتوي على أكثر من 200,000 سؤال يمكن استخدامها لتدريب نماذج التعلم الآلي على الاستجابة التلقائية بذكاء | الرابط |
NLP | نص | جمع الرسائل القصيرة غير المرغوب فيها باللغة الإنجليزية | اتصالات | التعرف على البريد العشوائي | مجموعة بيانات للرسائل غير المرغوب فيها تتكون من 5,574،XNUMX رسالة نصية باللغة الإنجليزية | الرابط |
NLP | نص | مراجعات الصرخة | العلاقات العامة | تحليل المشاعر | مجموعة بيانات بأكثر من 5 ملايين مراجعة نشرتها Yelp | الرابط |
NLP | نص | Spambase من UCI | مشروع | التعرف على البريد العشوائي | مجموعة بيانات كبيرة من رسائل البريد الإلكتروني العشوائية ، مفيدة لتصفية البريد العشوائي. | الرابط |
CV | فيديو ، صورة | بيركلي ديب درايف BDD100k | سيارات | المركبات المستقلة | واحدة من أكبر مجموعة بيانات للذكاء الاصطناعي ذاتية القيادة تحتوي على 1,100 ساعة من تجارب القيادة في أكثر من 100,000 مقطع فيديو من أوقات مختلفة من اليوم من منطقة نيويورك وسان فرانسيسكو. | الرابط |
CV | فيديو | فاصلة | سيارات | المركبات المستقلة | مجموعة بيانات للقيادة على الطرق السريعة مدتها 7 ساعات تتكون من معلومات عن سرعة السيارة والتسارع وزاوية التوجيه وإحداثيات GPS | الرابط |
CV | فيديو ، صورة | مجموعة بيانات سيتي سكيب | سيارات | التسمية الدلالية للمركبة المستقلة | مجموعة بيانات مكونة من 5,000 تعليق توضيحي على مستوى البكسل بالإضافة إلى مجموعة أكبر من 20,000 إطار توضيحي ضعيف في تسلسلات فيديو استريو ، مسجلة من 50 مدينة مختلفة | الرابط |
CV | صورة | مجموعة بيانات علامة المرور KUL بلجيكا | سيارات | المركبات المستقلة | أكثر من 10000 تعليق توضيحي لعلامة المرور من منطقة فلاندرز بناءً على إشارات مرور مميزة ماديًا من جميع أنحاء بلجيكا | الرابط |
CV | صورة | LISA: مختبر للسيارات الذكية والآمنة ، مجموعات بيانات جامعة كاليفورنيا في سان دييغو | سيارات | المركبات المستقلة | مجموعة بيانات غنية تحتوي على إشارات المرور واكتشاف المركبات وإشارات المرور وأنماط المسار. | الرابط |
CV | صورة | سيفار 10 | العلاقات العامة | التعرف على الأشياء | مجموعة بيانات تتكون من 50,000 صورة و 10,000 صورة اختبار (أي 60,000 صورة ملونة 32 × 32 في 10 فئات) للتعرف على الكائنات. | الرابط |
CV | صورة | أزياء MNIST | الأزياء | مجموعة بيانات الصورة التي تتكون من 60,000 مثال ومجموعة اختبار مكونة من 10,000 مثال في 28 × 28 صورة ذات تدرج رمادي ، مقترنة بتسمية من 10 فئات. | الرابط | |
CV | صورة | مجموعة بيانات IMDB-Wiki | ترفيه | التعرف على الوجه | مجموعة بيانات كبيرة من صور الوجه مع تسميات مثل الجنس والعمر. من إجمالي 523,051 صورة للوجه ، تم الحصول على 460,723 صورة من 20,284 من المشاهير من IMDB و 62,328 من ويكيبيديا. | الرابط |
CV | فيديو | الحركية 700 | العلاقات العامة | لكل فئة عمل ، تتكون مجموعة البيانات عالية الجودة من 650,000 مقطع فيديو وتشمل 700 فئة عمل بشري مع 600 مقطع فيديو على الأقل. هنا ، كل مقطع يستمر لمدة 10 ثوانٍ أو نحو ذلك. | الرابط | |
CV | صورة | إم إس كوكو | العلاقات العامة | كشف الكائن ، التجزئة | تحتوي مجموعة البيانات على 328 ألف صورة ولديها إجمالي 2.5 مليون مثيل و 91 صورة كائن لتدريب نماذج ML ذات الصلة بالكشف عن الكائنات على نطاق واسع ، والتجزئة ، وتسمية البيانات. | الرابط |
CV | صورة | مجموعة بيانات MPII Human Pose | العلاقات العامة | يتم تضمين حوالي 25 ألف صورة تحتوي على أكثر من 40 ألف فرد مع مفاصل الجسم المشروحة في مجموعة البيانات ، والتي تُستخدم لتوضيح تقدير الوضع البشري. بشكل عام ، تغطي مجموعة البيانات 410 نشاطًا بشريًا ويتم تزويد كل صورة بتسمية نشاط. | الرابط | |
CV | صورة | فتح الصور | العلاقات العامة | شروح موقع الكائن | مجموعة بيانات الصورة مع حوالي 9 مليون صورة مشروحة بملصقات على مستوى الصورة ، ومربعات تحيط بالكائن ، وتجزئة الكائن وما إلى ذلك. تتكون مجموعة البيانات أيضًا من 16 مليون. مربعات تحيط بـ 600 فئة كائن على 1.9 مليون صورة. | الرابط |
CV | فيديو ، صورة | Argo ، بواسطة Argo ، الولايات المتحدة الأمريكية | سيارات | الصندوق المحيط ، التدفق البصري ، الملصق السلوكي ، الملصق الدلالي ، تعليم المسار | مجموعة بيانات ذاتية القيادة تتكون من خرائط عالية الدقة مع بيانات وصفية هندسية ودلالية ، مثل الخطوط المركزية للممر واتجاه الحارة ومنطقة القيادة. تُستخدم مجموعة البيانات لتدريب نماذج ML ، لعمل خوارزميات إدراك أكثر دقة ، والتي ستساعد المركبات ذاتية القيادة على التنقل بأمان. | الرابط |
CV | فيديو | إشارات المرور الصغيرة من بوش ، من إنتاج بوش أمريكا الشمالية للأبحاث | سيارات | الصندوق المحيط | مجموعة بيانات تتكون من 13427 صورة كاميرا بدقة 1280 * 720 لبناء نظام كشف ضوئي مرئي قائم على الرؤية. تحتوي مجموعة البيانات على أكثر من 24000 إشارة مرور مشروحة. | الرابط |
CV | فيديو | Brain4Cars ، جامعة كورنيل ، الولايات المتحدة | سيارات | التسمية السلوكية | مجموعة بيانات تتكون من مجموعة من أجهزة استشعار المقصورة (الكاميرات ، وأجهزة الاستشعار اللمسية ، والأجهزة الذكية ، وما إلى ذلك) من أجل استخراج إحصائيات مفيدة حول يقظة السائق. قد تكتشف خوارزمياتنا السائقين الذين يعانون من النعاس أو تشتت الانتباه وتعزز الإنذارات اللازمة لتحسين الحماية. | الرابط |
CV | صورة | CULane ، من قبل الجامعة الصينية. هونج كونج ، بكين ، الصين | سيارات | تعليم حارة | مجموعة بيانات Computer Vision حول اكتشاف حارات المرور ، مع الأخذ في الاعتبار 55 ساعة من مقاطع الفيديو التي تم استخراج 133,235،88880 منها (مجموعة تدريب 9675 ، ومجموعة التحقق من الصحة 34680 ، ومجموعة اختبار XNUMX). يتم جمعها بواسطة كاميرات مثبتة على ست مركبات مختلفة يقودها سائقون مختلفون في بكين. | الرابط |
CV | فيديو | DAVIS ، بواسطة Univ. زيورخ ، ETH زيورخ ، ألمانيا ، سويسرا | سيارات | مجموعة بيانات تدريب شاملة على قيادة السيارة تستخدم حدث DAVIS + كاميرا الإطار. تُستخدم بيانات السيارة مثل التوجيه ، والخانق ، ونظام تحديد المواقع العالمي (GPS) ، وما إلى ذلك لتقييم اندماج بيانات الإطار والحدث لتطبيقات السيارات. | الرابط | |
CV | فيديو | DBNet ، من جامعة شنغهاي جياو تونغ ، جامعة شيامن ، الصين | سيارات | بوينت كلاود ، ليدار | بيانات قيادة تبلغ 1000 كيلومتر في العالم الحقيقي ، والتي تتضمن فيديو متسقًا وسحابة نقطية ونظام تحديد المواقع وسلوك السائق لإجراء بحث متعمق حول سلوكيات القيادة. | الرابط |
CV | فيديو | الدكتور (العين) هاء ، من قبل جامعة. مودينا وريجيو إميليا ، مودينا ، إيطاليا | سيارات | التسمية السلوكية | مجموعة بيانات تحتوي على 74 تسلسل فيديو مدة كل منها 5 دقائق ، تم شرحها في أكثر من 500,000 إطار. تتكون مجموعة البيانات من المواقع الجغرافية المرجعية ، وسرعة القيادة ، والدورة التدريبية ، وكذلك تسميات تثبيتات نظرة السائقين وتكاملهم الزمني الذي يوفر خرائط خاصة بالمهمة. | الرابط |
CV | فيديو | ETH Pedestrian (2009) ، من ETH Zurich ، زيورخ ، سويسرا | العلاقات العامة | الصندوق المحيط | مجموعة بيانات تتكون من 74 تسلسل فيديو مدة كل منها 5 دقائق ، مشروحة في أكثر من 500,000 إطار. توفر مجموعة البيانات مواضع مرجعية جغرافية ، وسرعة القيادة ، والاتجاه ، وكذلك تسميات تثبيتات النظرة للسائقين وتكاملهم الزمني ، بما في ذلك الخرائط الخاصة بالمهمة. | الرابط |
CV | فيديو | فورد (2009) ، بواسطة Univ. ميتشيغان ، ميشيغان ، الولايات المتحدة | سيارات | الصندوق المحيط ، ليدر | مجموعة بيانات تم تجميعها بواسطة مركبة أرضية آلية مسلحة بماسح ضوئي Velodyne 3D-lidar ، واثنين من مصابيح Rieg ذات مكنسة الدفع الأمامية ، ووحدة القياس بالقصور الذاتي الفنية والاستهلاكية (IMU) ، ونظام الكاميرا متعدد الاتجاهات Point Gray Ladybug3. | الرابط |
CV | فيديو | استريو التحدي HCI ، شركة بوش للأبحاث ، هيلدسهايم ، ألمانيا | العلاقات العامة | مجموعة بيانات من عدة ملايين إطار من مشاهد الفيديو التي تم التقاطها والتي تتضمن مجموعة واسعة من الظروف الجوية المختلفة وطبقات متعددة من الحركة والعمق ؛ الأوضاع في المدينة والريف ، إلخ. | الرابط | |
CV | فيديو | جاد ، جامعة يورك ، أوكرانيا ، كندا | سيارات | المربع المحيط ، التسمية السلوكية | "JAAD هي مجموعة بيانات لدراسة الاهتمام المشترك في سياق القيادة الذاتية. وينصب التركيز على سلوكيات المشاة والسائقين عند نقطة العبور والعوامل التي تؤثر عليهم. ولهذه الغاية ، توفر مجموعة بيانات JAAD مجموعة غنية من التعليقات التوضيحية من 346 مقطع فيديو قصير مقاطع (من 5 إلى 10 ثوانٍ) مستخرجة من أكثر من 240 ساعة من لقطات القيادة من عدة مواقع في أمريكا الشمالية وأوروبا الشرقية. تُستخدم المربعات المحيطة بعلامات انسداد لجميع المشاة ، مما يجعل مجموعة البيانات هذه مناسبة لاكتشاف المشاة. تحدد التعليقات التوضيحية للسلوك سلوك المشاة التي تتفاعل مع السائق أو تتطلب انتباهه. لكل مقطع فيديو ، هناك العديد من العلامات (الطقس ، والمواقع ، وما إلى ذلك) وعلامات السلوك ذات الطابع الزمني (على سبيل المثال ، متوقفة ، أو تمشي ، أو تبحث ، وما إلى ذلك). بالإضافة إلى ذلك ، هناك قائمة بالسمات الديموغرافية يتم توفيرها لكل مشاة (مثل العمر والجنس واتجاه الحركة وما إلى ذلك) بالإضافة إلى قائمة بعناصر مشهد حركة المرور المرئية (مثل إشارة التوقف وإشارة المرور وما إلى ذلك) في كل إطار. " | الرابط |
CV | صورة | LISA Traffic Sign ، بواسطة Univ. كاليفورنيا ، سان دييغو ، الولايات المتحدة | سيارات | الصندوق المحيط | مجموعة البيانات التي تحتوي على مقاطع فيديو وإطارات توضيحية تحتوي على إشارات مرور أمريكية. يتم إصداره على مرحلتين ، واحدة مع الصور فقط والأخرى مع الصور ومقاطع الفيديو. | الرابط |
CV | صورة | آفاق Mapillary ، بواسطة Mapillary AB ، العالمية | سيارات | التسمية الدلالية | مجموعة بيانات للتصوير الفوتوغرافي على مستوى الشارع لتفسير مشاهد الشوارع في جميع أنحاء العالم من خلال التعليقات التوضيحية البشرية الدقيقة بالبكسل والمحددة. | الرابط |
CV | فيديو ، صورة | KITTI الدلالية ، من جامعة بون ، كارلسروه ، ألمانيا | سيارات | الصندوق المحيط ، التسمية الدلالية ، تعليم الحارة | مجموعة بيانات تتضمن تعليقًا توضيحيًا دلاليًا لجميع تسلسلات مقياس قياس الأداء. توضح مجموعة البيانات أنواعًا مختلفة من حركة المرور المتحركة وغير المتحركة: بما في ذلك السيارات والدراجات والدراجات والمشاة وراكبي الدراجات ، مما يسمح بدراسة العناصر الموجودة في المشهد. | الرابط |
CV | فيديو | ستانفورد تراك ، جامعة ستانفورد ، الولايات المتحدة | سيارات | كشف / تصنيف الأشياء LiDAR ، GPS ، الرموز | مجموعة بيانات تتضمن 14,000 مسار كائن معنون كما هو ملاحظ بواسطة Velodyne HDL-64E S2 LIDAR في مشاهد الشوارع الطبيعية ، والتي يمكن استخدامها لتدريب نماذج التعلم الآلي للتعرف على الأشياء ثلاثية الأبعاد. | الرابط |
CV | فيديو ، صورة | مجموعة البيانات Boxy ، من بوش ، الولايات المتحدة | سيارات | الصندوق المحيط / كشف السيارة | مجموعة بيانات الكشف عن المركبات تحتوي على مليوني مركبة مشروحة للتدريب وتحليل استراتيجيات التعرف على الأشياء للسيارات ذاتية القيادة على الطرق السريعة. | الرابط |
CV | فيديو | الطريق السريع TME ، من قبل الجامعة التقنية التشيكية ، شمال إيطاليا | سيارات | الصندوق المحيط | مجموعة بيانات مكونة من 28 مقطعًا بإجمالي 27 دقيقة مقسمة إلى أكثر من 30,000 إطار توضيحي للمركبة. تم إنتاج التعليقات التوضيحية بشكل شبه تلقائي باستخدام البيانات من الماسح الضوئي الليزري. تتضمن عملية جمع البيانات هذه سيناريوهات متغيرة لحركة المرور ، وعدد الممرات ، وانحناء الطريق ، والإضاءة ، وتغطي الكثير من شروط الاستحواذ الكامل. | الرابط |
CV | فيديو | اللاما غير الخاضعة للرقابة ، بوش ، الولايات المتحدة | سيارات | تعليم حارة ، LiDAR | تم شرح مجموعة بيانات Llamas غير الخاضعة للإشراف من خلال إنشاء خرائط قيادة تلقائية عالية الدقة ، بما في ذلك علامات الممرات المستندة إلى Lidar. يمكن محاذاة السيارة المستقلة مع هذه الخرائط ويتم عرض علامات الممر في إطار الكاميرا. تم تحسين الإسقاط ثلاثي الأبعاد عن طريق تقليل التناقض بين علامات الصورة المرصودة والمتوقعة بالفعل. | الرابط |
NLP | Audio | Facebook AI متعدد اللغات LibriSpeech (MLS) | العلاقات العامة | التعليق التوضيحي الصوتي / التعرف على الكلام | Facebook AI Multilingual LibriSpeech (MLS) ، عبارة عن مجموعة بيانات واسعة النطاق ومفتوحة المصدر مصممة للمساعدة في تقدم البحث في التعرف التلقائي على الكلام (ASR). يوفر MLS أكثر من 50,000 ساعة من الصوت عبر 8 لغات: الإنجليزية والألمانية والهولندية والفرنسية والإسبانية والإيطالية والبرتغالية والبولندية. | الرابط |