يمكن أن يُعزى الارتفاع في استخدام التعرف الضوئي على الأحرف بشكل أساسي إلى زيادة إنتاج أنظمة التعرف التلقائي. ونتيجة لذلك ، فإن القيمة السوقية العالمية لتقنية التعرف الضوئي على الحروف مرتبطة بـ بـ8.93 مليار دولار في عام 2021 ، من المتوقع أن ينمو بمعدل نمو سنوي مركب قدره 15.4٪ بين عامي 2022 و 2030.
ولكن ما هي تقنية OCR بالضبط؟ ولماذا يغير قواعد اللعبة للشركات التي تطور نماذج ذكاء اصطناعي فعالة؟ هيا نكتشف.
ما هو التعرف الضوئي على الحروف (OCR)؟
التعرف الضوئي على الحروف (OCR) هي تقنية تعمل على تحويل أنواع مختلفة من المستندات، مثل المستندات الورقية الممسوحة ضوئيًا أو ملفات PDF أو صور النصوص، إلى بيانات قابلة للتحرير والبحث. وتعمل هذه التقنية من خلال:
- تحليل بنية النص في الصورة
- تقسيم النص إلى أسطر وأحرف
- تحويل هذه الأحرف المرئية إلى نص يمكن قراءته بواسطة الآلة
تشمل الاستخدامات الشائعة ما يلي:
- تحويل المستندات الممسوحة ضوئيًا إلى ملفات نصية قابلة للتحرير
- رقمنة الكتب المطبوعة
- استخراج النص من الصور
- تحويل الوصفات الطبية المكتوبة بخط اليد إلى نص رقمي
- التعرف على لوحة الترخيص
فوائد وتحديات مجموعات البيانات مفتوحة المصدر
تحتاج الشركات إلى وضع الفوائد والتحديات ضد بعضها البعض لفهم ما إذا كان يجب عليها اختيار البيانات المجانية للاستخدام لتطبيقات ML الخاصة بها.
الفوائد
- البيانات متاحة بسهولة للوصول إليها. بسبب توفر البيانات ، يتم تقليل تكلفة تطوير التطبيق بشكل كبير.
- يتم تقليل الوقت والجهد المبذولين في جمع البيانات للتطبيق بشكل كبير نظرًا لأن مجموعة البيانات متاحة بسهولة.
- هناك وفرة من المنتديات المجتمعية أو مجموعات المساعدة التي تساعد في تعلم مجموعة البيانات وتكييفها وتحسينها.
- تتمثل إحدى المزايا الرئيسية لمجموعة البيانات مفتوحة المصدر في أنها لا تضع أي قيود على التخصيص.
- البيانات مفتوحة المصدر متاحة لقطاع كبير من السكان ، مما يجعل التحليل والابتكار ممكنين بدون حواجز نقدية.
التحديات
- يصعب الحصول على البيانات الخاصة بالمشروع. بالإضافة إلى ذلك ، هناك احتمال فقدان المعلومات والاستخدام غير الصحيح للبيانات المتاحة.
- يستغرق الحصول على البيانات الاحتكارية وقتًا وجهدًا مكلفًا
- في حين أنه قد يكون من الأسهل الحصول على البيانات ، إلا أن تكلفة المعرفة والتحليل قد تفوق الميزة الأولية.
- يستخدم المطورون الآخرون أيضًا نفس البيانات لتطوير التطبيقات.
- مجموعات البيانات هذه معرضة بشكل كبير للانتهاكات الأمنية والخصوصية والموافقة.
أفضل 22 مجموعة بيانات للكتابة اليدوية والتعرف الضوئي على الحروف لتعلم الآلة

تتوفر العديد من مجموعات البيانات مفتوحة المصدر لتطوير تطبيقات التعرف على النص. بعض من أفضل 22
قاعدة بيانات NIST
يقدم المعهد الوطني للمعايير والتكنولوجيا (NIST) أو المعهد الوطني للعلوم مجموعة مجانية للاستخدام تتكون من أكثر من 3600 عينة من الكتابة اليدوية مع أكثر من 810,000 صورة شخصية
قاعدة بيانات MNIST
قاعدة بيانات MNIST المستمدة من قاعدة البيانات الخاصة 1 و 3 الخاصة بـ NSIT ، هي عبارة عن مجموعة مجمعة من 60,000 رقم مكتوب بخط اليد لمجموعة التدريب و 10,000 مثال لمجموعة الاختبار. تساعد قاعدة البيانات مفتوحة المصدر هذه في تدريب النماذج على التعرف على الأنماط مع قضاء وقت أقل في المعالجة المسبقة.
كشف النص
قاعدة بيانات مفتوحة المصدر ، تحتوي مجموعة بيانات Text Detection على حوالي 500 صورة داخلية وخارجية للافتات ولوحات الأبواب ولوحات التحذير والمزيد.
ستانفورد OCR
تم نشر مجموعة البيانات المجانية هذه بواسطة جامعة ستانفورد ، وهي عبارة عن مجموعة كلمات مكتوبة بخط اليد بواسطة مجموعة أنظمة اللغة المنطوقة في معهد ماساتشوستس للتكنولوجيا.
نص التجوّل الافتراضي
تم جمعها من صور Google Street View ، وتحتوي مجموعة البيانات هذه على صور لاكتشاف النص بشكل أساسي للوحات وإشارات على مستوى الشارع.
قاعدة بيانات المستندات
قاعدة بيانات المستندات عبارة عن مجموعة من 941 مستندًا مكتوبًا بخط اليد ، بما في ذلك الجداول والصيغ والرسومات والمخططات والقوائم والمزيد من 189 كاتبًا.
تعابير الرياضيات
تعبيرات الرياضيات هي قاعدة بيانات تحتوي على 101 رمزًا رياضيًا و 10,000 تعبير.
أرقام منازل التجوّل الافتراضي
تم الحصول عليها من Google Street View ، وهي عبارة عن قاعدة بيانات تحتوي على 73257 رقم منزل في الشارع.
التعرف الضوئي على الحروف في البيئة الطبيعية
The Natural Environment OCR ، عبارة عن مجموعة بيانات تضم ما يقرب من 660 صورة حول العالم و 5238 تعليقًا توضيحيًا نصيًا.
تعابير الرياضيات
أكثر من 10,000 تعبير مع أكثر من 101 رمزًا رياضيًا.
الحروف الصينية المكتوبة بخط اليد
مجموعة بيانات مكونة من 909,818 صورة مكتوبة بخط اليد بالأحرف الصينية، أي ما يعادل حوالي 10 مقالات إخبارية.
النص المطبوع باللغة العربية
معجم مكون من 113,284 كلمة باستخدام 10 خطوط عربية.
نص باللغة الإنجليزية مكتوب بخط اليد
نص باللغة الإنجليزية مكتوب بخط اليد على السبورة البيضاء يحتوي على أكثر من 1700 إدخال.
3000 صورة البيئات
3000 صورة من بيئات مختلفة، بما في ذلك المشاهد الخارجية والداخلية تحت إضاءة مختلفة.
بيانات Chars74K
74,000 صورة للأرقام الإنجليزية والكانادية.
IAM (الكتابة اليدوية IAM)
تحتوي قاعدة بيانات IAM على 13,353 صورة نصية مكتوبة بخط اليد لـ 657 كاتبًا من Lancaster-Oslo/Bergen Corpus للغة الإنجليزية البريطانية.
FUNSD (فهم النموذج في المستندات الممسوحة ضوئيًا الصاخبة)
يتضمن FUNSD 199 نموذجًا مشروحًا وممسوحًا ضوئيًا بمظاهر متنوعة وصاخبة، مما يمثل تحديًا لفهم النموذج.
التعرف الضوئي على الحروف للنص
يقوم TextOCR بمعايير التعرف على النص على نص المشهد ذي الشكل التعسفي في الصور الطبيعية.
تويتر 100 الف
Twitter100k عبارة عن مجموعة بيانات كبيرة لاسترجاع الوسائط المتعددة الخاضعة للإشراف الضعيف.
SSIG-SegPlate – تجزئة أحرف لوحة الترخيص (LPCS)
تقوم مجموعة البيانات هذه بتقييم تجزئة أحرف لوحة الترخيص (LPCS) مع 101 صورة للمركبة أثناء النهار.
105,941 صورة، مشاهد طبيعية، بيانات التعرف الضوئي على الحروف (OCR) بـ 12 لغة
تتضمن البيانات 12 لغة (6 آسيوية، 6 أوروبية) ومشاهد وزوايا طبيعية مختلفة. ويتميز بمربعات محيطة على مستوى الخط ونسخ النص. وهو مفيد لمهام التعرف الضوئي على الحروف (OCR) متعددة اللغات.
مجموعة بيانات صورة اللافتة الهندية
تحتوي مجموعة البيانات على صور إشارات المرور الهندية للتصنيف والكشف، والتي تم التقاطها في مختلف الظروف الجوية خلال النهار والمساء والليل.
كانت هذه بعضًا من أفضل مجموعات البيانات مفتوحة المصدر لتدريب نماذج ML لتطبيقات اكتشاف النص. قد يستغرق اختيار الشخص الذي يتماشى مع احتياجات عملك والتطبيقات وقتًا وجهدًا. ومع ذلك ، يجب عليك تجربة مجموعات البيانات هذه قبل اتخاذ قرار بشأن المجموعة المناسبة.
[اقرأ أيضًا: معلومات رسومية توضيحية حول التعرف الضوئي على الحروف (OCR) – التعريف والفوائد والتحديات وحالات الاستخدام]
لمساعدتك في التقدم نحو تطبيق موثوق وفعال لكشف النصوص، تقدم Shaip – المزود رفيع المستوى لحلول التكنولوجيا. نحن نستفيد من خبرتنا التقنية لإنشاء مجموعات بيانات تدريب OCR قابلة للتخصيص ومُحسَّنة وفعالة لمشاريع العملاء المختلفة. لفهم قدراتنا بشكل كامل، تواصل معنا اليوم.