يتحول عالم الأعمال بوتيرة استثنائية ، لكن هذا التحول الرقمي ليس واسع النطاق كما نرغب أن يكون. لا يزال الناس يتعاملون مع المستندات الورقية في عملياتهم اليومية ، من الشركات الكبيرة إلى الشركات الصغيرة. على الرغم من انخفاض معدل الاستخدام بشكل كبير ، إلا أنه لم يتم التخلص منه تمامًا. بدلاً من العملية التي تستغرق وقتًا طويلاً في مسح المستندات ضوئيًا للاستخدام الرقمي ، باستخدام الأحدث التعرف الضوئي على الحروف يتسم بالكفاءة والفعالية من حيث الوقت.
يمكن أن يُعزى الارتفاع في استخدام التعرف الضوئي على الأحرف بشكل أساسي إلى زيادة إنتاج أنظمة التعرف التلقائي. ونتيجة لذلك ، فإن القيمة السوقية العالمية لتقنية التعرف الضوئي على الحروف مرتبطة بـ بـ8.93 مليار دولار في عام 2021 ، من المتوقع أن ينمو بمعدل نمو سنوي مركب قدره 15.4٪ بين عامي 2022 و 2030.
ولكن ما هي تقنية OCR بالضبط؟ ولماذا يغير قواعد اللعبة للشركات التي تطور نماذج ذكاء اصطناعي فعالة؟ هيا نكتشف.
ما هو التعرف الضوئي على الحروف؟
بدلاً من ذلك يشار إليه باسم التعرف على النص ، التعرف الضوئي على الحروف أو التعرف الضوئي على الحروف هو برنامج يستخرج البيانات المطبوعة أو المكتوبة من المستندات الممسوحة ضوئيًا وملفات PDF للصور فقط والملاحظات المكتوبة بخط اليد في تنسيق يمكن قراءته آليًا. يقوم البرنامج بإخراج كل حرف من الصورة ويجمعها في كلمات وجمل ، مما يسهل الوصول إلى المستندات وتحريرها رقميًا.
ما هي مجموعات البيانات مفتوحة المصدر؟
هناك العديد من الأماكن التي تتمتع فيها تقنية التعرف الضوئي على الحروف بإمكانيات كبيرة للاستفادة منها. تشمل بعض الأماكن المطارات ، ونشر الكتب الإلكترونية ، والإعلانات ، والبنوك ، وأنظمة سلسلة التوريد. ومع ذلك ، لكي تخدم التطبيقات غرضها ، يجب تدريبهم على مشروع محدد مجموعات بيانات التعرف الضوئي على الأحرف.
تعتمد كفاءة التطبيق إلى حد كبير على جودة مجموعة البيانات ومنهجية التدريب المستخدمة. ومع ذلك ، فإن العثور على جودة رقمية و مجموعات البيانات المكتوبة بخط اليد صعب للتطبيق. لذلك ، تستخدم العديد من الشركات مجموعات بيانات مفتوحة المصدر أو مجانية الاستخدام بدلاً من مجموعات البيانات المسجلة الملكية.
فوائد وتحديات مجموعات البيانات مفتوحة المصدر
تحتاج الشركات إلى وضع الفوائد والتحديات ضد بعضها البعض لفهم ما إذا كان يجب عليها اختيار البيانات المجانية للاستخدام لتطبيقات ML الخاصة بها.
المميزات
- البيانات متاحة بسهولة للوصول إليها. بسبب توفر البيانات ، يتم تقليل تكلفة تطوير التطبيق بشكل كبير.
- يتم تقليل الوقت والجهد المبذولين في جمع البيانات للتطبيق بشكل كبير نظرًا لأن مجموعة البيانات متاحة بسهولة.
- هناك وفرة من المنتديات المجتمعية أو مجموعات المساعدة التي تساعد في تعلم مجموعة البيانات وتكييفها وتحسينها.
- تتمثل إحدى المزايا الرئيسية لمجموعة البيانات مفتوحة المصدر في أنها لا تضع أي قيود على التخصيص.
- البيانات مفتوحة المصدر متاحة لقطاع كبير من السكان ، مما يجعل التحليل والابتكار ممكنين بدون حواجز نقدية.
التحديات
- يصعب الحصول على البيانات الخاصة بالمشروع. بالإضافة إلى ذلك ، هناك احتمال فقدان المعلومات والاستخدام غير الصحيح للبيانات المتاحة.
- يستغرق الحصول على البيانات الاحتكارية وقتًا وجهدًا مكلفًا
- في حين أنه قد يكون من الأسهل الحصول على البيانات ، إلا أن تكلفة المعرفة والتحليل قد تفوق الميزة الأولية.
- يستخدم المطورون الآخرون أيضًا نفس البيانات لتطوير التطبيقات.
- مجموعات البيانات هذه معرضة بشكل كبير للانتهاكات الأمنية والخصوصية والموافقة.
أفضل 22 مجموعة بيانات للكتابة اليدوية والتعرف الضوئي على الحروف لتعلم الآلة
تتوفر العديد من مجموعات البيانات مفتوحة المصدر لتطوير تطبيقات التعرف على النص. بعض من أفضل 22
قاعدة بيانات NIST
يقدم المعهد الوطني للمعايير والتكنولوجيا (NIST) أو المعهد الوطني للعلوم مجموعة مجانية للاستخدام تتكون من أكثر من 3600 عينة من الكتابة اليدوية مع أكثر من 810,000 صورة شخصية
قاعدة بيانات MNIST
قاعدة بيانات MNIST المستمدة من قاعدة البيانات الخاصة 1 و 3 الخاصة بـ NSIT ، هي عبارة عن مجموعة مجمعة من 60,000 رقم مكتوب بخط اليد لمجموعة التدريب و 10,000 مثال لمجموعة الاختبار. تساعد قاعدة البيانات مفتوحة المصدر هذه في تدريب النماذج على التعرف على الأنماط مع قضاء وقت أقل في المعالجة المسبقة.
كشف النص
قاعدة بيانات مفتوحة المصدر ، تحتوي مجموعة بيانات Text Detection على حوالي 500 صورة داخلية وخارجية للافتات ولوحات الأبواب ولوحات التحذير والمزيد.
ستانفورد OCR
تم نشر مجموعة البيانات المجانية هذه بواسطة جامعة ستانفورد ، وهي عبارة عن مجموعة كلمات مكتوبة بخط اليد بواسطة مجموعة أنظمة اللغة المنطوقة في معهد ماساتشوستس للتكنولوجيا.
نص التجوّل الافتراضي
تم جمعها من صور Google Street View ، وتحتوي مجموعة البيانات هذه على صور لاكتشاف النص بشكل أساسي للوحات وإشارات على مستوى الشارع.
قاعدة بيانات المستندات
قاعدة بيانات المستندات عبارة عن مجموعة من 941 مستندًا مكتوبًا بخط اليد ، بما في ذلك الجداول والصيغ والرسومات والمخططات والقوائم والمزيد من 189 كاتبًا.
تعابير الرياضيات
تعبيرات الرياضيات هي قاعدة بيانات تحتوي على 101 رمزًا رياضيًا و 10,000 تعبير.
أرقام منازل التجوّل الافتراضي
تم الحصول عليها من Google Street View ، وهي عبارة عن قاعدة بيانات تحتوي على 73257 رقم منزل في الشارع.
التعرف الضوئي على الحروف في البيئة الطبيعية
The Natural Environment OCR ، عبارة عن مجموعة بيانات تضم ما يقرب من 660 صورة حول العالم و 5238 تعليقًا توضيحيًا نصيًا.
تعابير الرياضيات
أكثر من 10,000 تعبير مع أكثر من 101 رمزًا رياضيًا.
الحروف الصينية المكتوبة بخط اليد
مجموعة بيانات مكونة من 909,818 صورة مكتوبة بخط اليد بالأحرف الصينية، أي ما يعادل حوالي 10 مقالات إخبارية.
النص المطبوع باللغة العربية
معجم مكون من 113,284 كلمة باستخدام 10 خطوط عربية.
نص باللغة الإنجليزية مكتوب بخط اليد
نص باللغة الإنجليزية مكتوب بخط اليد على السبورة البيضاء يحتوي على أكثر من 1700 إدخال.
3000 صورة البيئات
3000 صورة من بيئات مختلفة، بما في ذلك المشاهد الخارجية والداخلية تحت إضاءة مختلفة.
بيانات Chars74K
74,000 صورة للأرقام الإنجليزية والكانادية.
IAM (الكتابة اليدوية IAM)
تحتوي قاعدة بيانات IAM على 13,353 صورة نصية مكتوبة بخط اليد لـ 657 كاتبًا من Lancaster-Oslo/Bergen Corpus للغة الإنجليزية البريطانية.
FUNSD (فهم النموذج في المستندات الممسوحة ضوئيًا الصاخبة)
يتضمن FUNSD 199 نموذجًا مشروحًا وممسوحًا ضوئيًا بمظاهر متنوعة وصاخبة، مما يمثل تحديًا لفهم النموذج.
التعرف الضوئي على الحروف للنص
يقوم TextOCR بمعايير التعرف على النص على نص المشهد ذي الشكل التعسفي في الصور الطبيعية.
تويتر 100 الف
Twitter100k عبارة عن مجموعة بيانات كبيرة لاسترجاع الوسائط المتعددة الخاضعة للإشراف الضعيف.
SSIG-SegPlate – تجزئة أحرف لوحة الترخيص (LPCS)
تقوم مجموعة البيانات هذه بتقييم تجزئة أحرف لوحة الترخيص (LPCS) مع 101 صورة للمركبة أثناء النهار.
105,941 صورة، مشاهد طبيعية، بيانات التعرف الضوئي على الحروف (OCR) بـ 12 لغة
تتضمن البيانات 12 لغة (6 آسيوية، 6 أوروبية) ومشاهد وزوايا طبيعية مختلفة. ويتميز بمربعات محيطة على مستوى الخط ونسخ النص. وهو مفيد لمهام التعرف الضوئي على الحروف (OCR) متعددة اللغات.
مجموعة بيانات صورة اللافتة الهندية
تحتوي مجموعة البيانات على صور إشارات المرور الهندية للتصنيف والكشف، والتي تم التقاطها في مختلف الظروف الجوية خلال النهار والمساء والليل.
كانت هذه بعضًا من أفضل مجموعات البيانات مفتوحة المصدر لتدريب نماذج ML لتطبيقات اكتشاف النص. قد يستغرق اختيار الشخص الذي يتماشى مع احتياجات عملك والتطبيقات وقتًا وجهدًا. ومع ذلك ، يجب عليك تجربة مجموعات البيانات هذه قبل اتخاذ قرار بشأن المجموعة المناسبة.
لمساعدتك على التقدم نحو تطبيق موثوق وفعال لاكتشاف النص ، فإن Shaip - مزود الحلول التقنية عالي المستوى. نحن نستفيد من خبرتنا التقنية لإنشاء ملفات قابلة للتخصيص ومحسّنة و مجموعات بيانات تدريب فعالة على التعرف الضوئي على الحروف لمشاريع العملاء المختلفة. لفهم قدراتنا بالكامل ، تواصل معنا اليوم.