مجموعات بيانات الكتابة اليدوية

أفضل 15 مجموعة بيانات مفتوحة المصدر للكتابة اليدوية لتدريب نماذج ML الخاصة بك

يتحول عالم الأعمال بوتيرة استثنائية ، لكن هذا التحول الرقمي ليس واسع النطاق كما نرغب أن يكون. لا يزال الناس يتعاملون مع المستندات الورقية في عملياتهم اليومية ، من الشركات الكبيرة إلى الشركات الصغيرة. على الرغم من انخفاض معدل الاستخدام بشكل كبير ، إلا أنه لم يتم التخلص منه تمامًا. بدلاً من العملية التي تستغرق وقتًا طويلاً في مسح المستندات ضوئيًا للاستخدام الرقمي ، باستخدام الأحدث التعرف الضوئي على الحروف يتسم بالكفاءة والفعالية من حيث الوقت.

يمكن أن يُعزى الارتفاع في استخدام التعرف الضوئي على الأحرف بشكل أساسي إلى زيادة إنتاج أنظمة التعرف التلقائي. ونتيجة لذلك ، فإن القيمة السوقية العالمية لتقنية التعرف الضوئي على الحروف مرتبطة بـ بـ8.93 مليار دولار في عام 2021 ، من المتوقع أن ينمو بمعدل نمو سنوي مركب قدره 15.4٪ بين عامي 2022 و 2030.

ولكن ما هي تقنية OCR بالضبط؟ ولماذا يغير قواعد اللعبة للشركات التي تطور نماذج ذكاء اصطناعي فعالة؟ هيا نكتشف.

ما هو التعرف الضوئي على الحروف؟

بدلاً من ذلك يشار إليه باسم التعرف على النص ، التعرف الضوئي على الحروف أو التعرف الضوئي على الحروف هو برنامج يستخرج البيانات المطبوعة أو المكتوبة من المستندات الممسوحة ضوئيًا وملفات PDF للصور فقط والملاحظات المكتوبة بخط اليد في تنسيق يمكن قراءته آليًا. يقوم البرنامج بإخراج كل حرف من الصورة ويجمعها في كلمات وجمل ، مما يسهل الوصول إلى المستندات وتحريرها رقميًا.

ما هي مجموعات البيانات مفتوحة المصدر؟

هناك العديد من الأماكن التي تتمتع فيها تقنية التعرف الضوئي على الحروف بإمكانيات كبيرة للاستفادة منها. تشمل بعض الأماكن المطارات ، ونشر الكتب الإلكترونية ، والإعلانات ، والبنوك ، وأنظمة سلسلة التوريد. ومع ذلك ، لكي تخدم التطبيقات غرضها ، يجب تدريبهم على مشروع محدد مجموعات بيانات التعرف الضوئي على الأحرف.

تعتمد كفاءة التطبيق إلى حد كبير على جودة مجموعة البيانات ومنهجية التدريب المستخدمة. ومع ذلك ، فإن العثور على جودة رقمية و مجموعات البيانات المكتوبة بخط اليد صعب للتطبيق. لذلك ، تستخدم العديد من الشركات مجموعات بيانات مفتوحة المصدر أو مجانية الاستخدام بدلاً من مجموعات البيانات المسجلة الملكية.

فوائد وتحديات مجموعات البيانات مفتوحة المصدر

تحتاج الشركات إلى وضع الفوائد والتحديات ضد بعضها البعض لفهم ما إذا كان يجب عليها اختيار البيانات المجانية للاستخدام لتطبيقات ML الخاصة بها.

المميزات

  • البيانات متاحة بسهولة للوصول إليها. بسبب توفر البيانات ، يتم تقليل تكلفة تطوير التطبيق بشكل كبير.
  • يتم تقليل الوقت والجهد المبذولين في جمع البيانات للتطبيق بشكل كبير نظرًا لأن مجموعة البيانات متاحة بسهولة.
  • هناك وفرة من المنتديات المجتمعية أو مجموعات المساعدة التي تساعد في تعلم مجموعة البيانات وتكييفها وتحسينها.
  • تتمثل إحدى المزايا الرئيسية لمجموعة البيانات مفتوحة المصدر في أنها لا تضع أي قيود على التخصيص.
  •   البيانات مفتوحة المصدر متاحة لقطاع كبير من السكان ، مما يجعل التحليل والابتكار ممكنين بدون حواجز نقدية.

التحديات

  • يصعب الحصول على البيانات الخاصة بالمشروع. بالإضافة إلى ذلك ، هناك احتمال فقدان المعلومات والاستخدام غير الصحيح للبيانات المتاحة.
  • يستغرق الحصول على البيانات الاحتكارية وقتًا وجهدًا مكلفًا
  • في حين أنه قد يكون من الأسهل الحصول على البيانات ، إلا أن تكلفة المعرفة والتحليل قد تفوق الميزة الأولية.
  • يستخدم المطورون الآخرون أيضًا نفس البيانات لتطوير التطبيقات.
  • مجموعات البيانات هذه معرضة بشكل كبير للانتهاكات الأمنية والخصوصية والموافقة.

أفضل 15 مجموعة بيانات للكتابة اليدوية والتعرف الضوئي على الحروف لتعلم الآلة

مجموعات بيانات التعرف الضوئي على الحروف مفتوحة المصدر

تتوفر العديد من مجموعات البيانات مفتوحة المصدر لتطوير تطبيقات التعرف على النص. بعض من أفضل 15

  1. مجموعة بيانات ICDAR

    يحتوي المؤتمر الدولي لتحليل المستندات والتعرف عليها على مستودع يضم 229 تدريبًا و 233 صورة اختبار ، بالإضافة إلى التعليقات التوضيحية. يعمل كمعيار لتقييم اكتشاف النص.

  2. مجموعة بيانات IIIT 5K-Word

    مأخوذة من بحث الصور من Google ، IIIT 5K-word هي عبارة عن مجموعة من الكلمات من اللوحات الإعلانية واللوحات الإعلانية ولوحات الأرقام والملصقات. يحتوي على 5K صورة مقصوصة للكلمة مما يجعلها واحدة من أكثر المجموعات شمولاً من مجموعات بيانات التعرف على النص المتاحة.

  3. قاعدة بيانات NIST

    يقدم المعهد الوطني للمعايير والتكنولوجيا (NIST) أو المعهد الوطني للعلوم مجموعة مجانية للاستخدام تتكون من أكثر من 3600 عينة من الكتابة اليدوية مع أكثر من 810,000 صورة شخصية

  4. قاعدة بيانات MNIST

    قاعدة بيانات MNIST المستمدة من قاعدة البيانات الخاصة 1 و 3 الخاصة بـ NSIT ، هي عبارة عن مجموعة مجمعة من 60,000 رقم مكتوب بخط اليد لمجموعة التدريب و 10,000 مثال لمجموعة الاختبار. تساعد قاعدة البيانات مفتوحة المصدر هذه في تدريب النماذج على التعرف على الأنماط مع قضاء وقت أقل في المعالجة المسبقة.

  5. كشف النص

    قاعدة بيانات مفتوحة المصدر ، تحتوي مجموعة بيانات Text Detection على حوالي 500 صورة داخلية وخارجية للافتات ولوحات الأبواب ولوحات التحذير والمزيد.

  6. ستانفورد OCR

    تم نشر مجموعة البيانات المجانية هذه بواسطة جامعة ستانفورد ، وهي عبارة عن مجموعة كلمات مكتوبة بخط اليد بواسطة مجموعة أنظمة اللغة المنطوقة في معهد ماساتشوستس للتكنولوجيا.

  7. ددي-100

    بخلاف ذلك ، يُطلق على DDI-100 مجموعة بيانات صور المستندات المشوهة ، وهي عبارة عن مجموعة تتكون من أكثر من 6658 صفحة من المستندات مع تطبيق العديد من الأنماط والتشوهات الهندسية. بالإضافة إلى ذلك ، يحتوي DDI-100 على أكثر من 99870 صورة وأقنعة طوابع وأقنعة نصية ومربعات إحاطة.

  8. RoadText-1K

    واحدة من أكبر مجموعات البيانات التي تساعد في تدريب النماذج على اكتشاف النص في مقاطع الفيديو ، تحتوي RoadText-1K على 1000 مقطع فيديو كامل مع تعليق توضيحي نصي للمربع المحيط ونسخ النص في كل إطار فيديو.

  9. MSRA-TD500

    يحتوي على 300 تدريب و 200 صورة نصية ؛ يحتوي MSRA-TD500 على أحرف من اللغتين الصينية والإنجليزية ويتم شرحه على مستوى الجملة.

  10. مجموعة بيانات MJSynth

    توفرها جامعة أكسفورد ، تحتوي مجموعة البيانات هذه على ما يقرب من 9 ملايين صورة تم إنشاؤها صناعياً تغطي أكثر من 90 ألف كلمة باللغة الإنجليزية.

  11. نص التجوّل الافتراضي

    تم جمعها من صور Google Street View ، وتحتوي مجموعة البيانات هذه على صور لاكتشاف النص بشكل أساسي للوحات وإشارات على مستوى الشارع.

  12. قاعدة بيانات المستندات

    قاعدة بيانات المستندات عبارة عن مجموعة من 941 مستندًا مكتوبًا بخط اليد ، بما في ذلك الجداول والصيغ والرسومات والمخططات والقوائم والمزيد من 189 كاتبًا.

  13. تعابير الرياضيات

    تعبيرات الرياضيات هي قاعدة بيانات تحتوي على 101 رمزًا رياضيًا و 10,000 تعبير.

  14. أرقام منازل التجوّل الافتراضي

    تم الحصول عليها من Google Street View ، وهي عبارة عن قاعدة بيانات تحتوي على 73257 رقم منزل في الشارع.

  15. التعرف الضوئي على الحروف في البيئة الطبيعية

    The Natural Environment OCR ، عبارة عن مجموعة بيانات تضم ما يقرب من 660 صورة حول العالم و 5238 تعليقًا توضيحيًا نصيًا.

كانت هذه بعضًا من أفضل مجموعات البيانات مفتوحة المصدر لتدريب نماذج ML لتطبيقات اكتشاف النص. قد يستغرق اختيار الشخص الذي يتماشى مع احتياجات عملك والتطبيقات وقتًا وجهدًا. ومع ذلك ، يجب عليك تجربة مجموعات البيانات هذه قبل اتخاذ قرار بشأن المجموعة المناسبة.

لمساعدتك على التقدم نحو تطبيق موثوق وفعال لاكتشاف النص ، فإن Shaip - مزود الحلول التقنية عالي المستوى. نحن نستفيد من خبرتنا التقنية لإنشاء ملفات قابلة للتخصيص ومحسّنة و مجموعات بيانات تدريب فعالة على التعرف الضوئي على الحروف لمشاريع العملاء المختلفة. لفهم قدراتنا بالكامل ، تواصل معنا اليوم.

شارك الاجتماعية