في كل مرة نسمع فيها كلمة أو نقرأ نصًا ، لدينا القدرة الطبيعية على تحديد الكلمة وتصنيفها إلى أشخاص ومكان وموقع وقيم وغير ذلك. يمكن للبشر التعرف بسرعة على الكلمة وتصنيفها وفهم سياقها. على سبيل المثال ، عندما تسمع كلمة "ستيف جوبز" ، يمكنك على الفور التفكير في ثلاث إلى أربع سمات على الأقل وفصل الكيان إلى فئات ،
- شخص: ستيف جوبز
- الشركة: تفاح
- مكان الاقامه كاليفورنيا
نظرًا لأن أجهزة الكمبيوتر لا تتمتع بهذه القدرة الطبيعية ، فإنها تتطلب مساعدتنا في تحديد الكلمات أو النصوص وتصنيفها. فمن حيث التعرف على الكيانات المسماة (صافي) يأتي دور.
دعونا نحصل على فهم موجز لـ NER وعلاقته بـ NLP.
ما هو التعرف على الكيان المحدد؟
يعد التعرف على الكيان المحدد جزءًا من معالجة اللغة الطبيعية. الهدف الأساسي من NER هو المعالجة البيانات المنظمة وغير المهيكلة وتصنيف هذه الكيانات المسماة في فئات محددة مسبقًا. تتضمن بعض الفئات الشائعة الاسم والموقع والشركة والوقت والقيم النقدية والأحداث والمزيد.
باختصار ، يتعامل NER مع:
- التعرف على الكيان المُسمى / اكتشافه - تحديد كلمة أو سلسلة من الكلمات في مستند.
- تصنيف كيان مسمى - تصنيف كل كيان تم اكتشافه إلى فئات محددة مسبقًا.
ولكن كيف يرتبط NER بـ NLP؟
تساعد معالجة اللغة الطبيعية على تطوير آلات ذكية قادرة على استخلاص المعنى من الكلام والنص. يساعد التعلم الآلي هذه الأنظمة الذكية على مواصلة التعلم من خلال التدريب على كميات كبيرة من اللغة الطبيعية مجموعات البيانات.
بشكل عام ، يتكون البرمجة اللغوية العصبية من ثلاث فئات رئيسية:
- فهم هيكل وقواعد اللغة - بناء الجملة
- اشتقاق معاني الكلمات والنصوص والكلام وتحديد علاقاتهم - دلالات
- التعرف على الكلمات المنطوقة والتعرف عليها وتحويلها إلى نصوص - خطاب
NER يساعد في الجزء الدلالي من NLPواستخراج معاني الكلمات وتحديدها وتحديد مكانها بناءً على علاقاتها.
أمثلة شائعة لـ NER
بعض الأمثلة الشائعة لملف تصنيف الكيان هي:
شخص: مايكل جاكسون ، أوبرا وينفري ، باراك أوباما ، سوزان ساراندون
مكان الاقامه كندا ، هونولولو ، بانكوك ، البرازيل ، كامبريدج
التنظيم وجدولة المواعيد: سامسونج ، ديزني ، جامعة ييل ، جوجل
مرة: 15.35 ، 12 مساءً ،
تتضمن الفئات الأخرى القيم العددية والتعبير وعناوين البريد الإلكتروني والمرافق.
غموض في التعرف على الكيانات المسماة
الفئة التي ينتمي إليها المصطلح واضحة تمامًا للبشر. ومع ذلك ، ليس هذا هو الحال مع أجهزة الكمبيوتر - فهي تواجه مشاكل التصنيف. فمثلا:
مدينة مانشستر (منظمة) فاز بكأس الدوري الإنجليزي الممتاز بينما في الجملة التالية يتم استخدام المنظمة بشكل مختلف. مدينة مانشستر (الموقع الجغرافي) كانت شركة نسيجية وصناعية.
يحتاج نموذج NER الخاص بك بيانات التدريب لإجراء دقيق استخراج الكيان والتصنيف. إذا كنت تقوم بتدريب النموذج الخاص بك على Shakespearean English ، فلا داعي للقول ، فلن يكون قادرًا على فك رموز Instagram.
مقاربات NER المختلفة
الهدف الأساسي من أ نموذج NER هو تسمية الكيانات في المستندات النصية وتصنيفها. يتم استخدام الأساليب الثلاثة التالية بشكل عام لهذا الغرض. ومع ذلك ، يمكنك اختيار دمج طريقة واحدة أو أكثر أيضًا.
الطرق المختلفة لإنشاء أنظمة NER هي:
الأنظمة المستندة إلى القاموس
ربما يكون النظام المعتمد على القاموس هو النهج الأكثر بساطة وأساسية NER. سيستخدم قاموسًا يحتوي على العديد من الكلمات والمرادفات ومجموعة المفردات. سيتحقق النظام مما إذا كان كيانًا معينًا موجودًا في النص متاحًا أيضًا في المفردات. باستخدام خوارزمية مطابقة السلسلة ، يتم إجراء تدقيق شامل للكيانات.
أحد عيوب استخدام هذا النهج هو أن هناك حاجة للترقية المستمرة لمجموعة بيانات المفردات من أجل الأداء الفعال لنموذج NER.
الأنظمة المستندة إلى القواعد
في هذا النهج ، يتم استخراج المعلومات بناءً على مجموعة من القواعد المحددة مسبقًا. هناك مجموعتان أساسيتان من القواعد المستخدمة ،
القواعد المستندة إلى النمط - كما يوحي الاسم ، تتبع القاعدة المستندة إلى النمط نمطًا صرفيًا أو سلسلة من الكلمات المستخدمة في المستند.
القواعد المستندة إلى السياق - تعتمد القواعد المستندة إلى السياق على معنى أو سياق الكلمة في المستند.
الأنظمة القائمة على التعلم الآلي
في الأنظمة القائمة على التعلم الآلي ، تُستخدم النمذجة الإحصائية لاكتشاف الكيانات. يتم استخدام التمثيل المستند إلى السمات للوثيقة النصية في هذا النهج. يمكنك التغلب على العديد من عيوب النهجين الأولين حيث يمكن للنموذج التعرف عليه أنواع الكيانات على الرغم من الاختلافات الطفيفة في هجائهم.
تطبيقات NER
لدى NER العديد من حالات الاستخدام في العديد من المجالات المتعلقة بمعالجة اللغة الطبيعية وإنشاء مجموعات بيانات تدريبية لها آلة التعلم و التعلم العميق حلول. بعض تطبيقات NER هي:
تبسيط دعم العملاء
يمكن لنظام NER أن يكتشف بسهولة شكاوى العملاء واستفساراتهم وتعليقاتهم بناءً على معلومات مهمة مثل أسماء المنتجات والمواصفات وموقع الفرع والمزيد. يتم تصنيف الشكوى أو الملاحظات بشكل مناسب وتحويلها إلى القسم الصحيح عن طريق تصفية الكلمات الرئيسية ذات الأولوية.
كفاءة الموارد البشرية
يساعد NER فرق الموارد البشرية على تحسين عملية التوظيف وتقليل الجداول الزمنية من خلال تلخيص سير ذاتية المتقدمين بسرعة. يمكن لأدوات NER مسح السيرة الذاتية واستخراج المعلومات ذات الصلة - الاسم والعمر والعنوان والمؤهلات والكلية وما إلى ذلك.
بالإضافة إلى ذلك ، يمكن لقسم الموارد البشرية أيضًا استخدام أدوات NER لتبسيط سير العمل الداخلي عن طريق تصفية شكاوى الموظفين وإحالتها إلى رؤساء الإدارات المعنية.
تصنيف المحتوى المبسط
تصنيف المحتوى هو مهمة شاقة لمقدمي الأخبار. يجعل تصنيف المحتوى إلى فئات مختلفة من السهل اكتشافه واكتساب رؤى وتحديد الاتجاهات وفهم الموضوعات. مسمى التعرف على الكيانات يمكن أن تكون الأداة مفيدة لموفري الأخبار. يمكنه مسح العديد من المقالات وتحديد الكلمات الرئيسية ذات الأولوية واستخراج المعلومات بناءً على الأشخاص والتنظيم والموقع والمزيد.
تحسين محركات البحث
NER يساعد في تبسيط وتحسين سرعة وملاءمة نتائج البحث. بدلاً من تشغيل استعلام البحث لآلاف المقالات ، يمكن لنموذج NER تشغيل الاستعلام مرة واحدة وحفظ النتائج. لذلك ، بناءً على العلامات الموجودة في استعلام البحث ، يمكن التقاط المقالات المرتبطة بالاستعلام بسرعة.
توصية المحتوى الدقيق
تعتمد العديد من التطبيقات الحديثة على أدوات NER لتقديم تجربة عملاء محسّنة ومخصصة. على سبيل المثال ، تقدم Netflix توصيات مخصصة بناءً على بحث المستخدمين ومحفوظات العرض باستخدام التعرف على الكيانات المسماة.
يجعل التعرف على الكيان المسماة آلة التعلم نماذج أكثر كفاءة وموثوقية. ومع ذلك ، فأنت بحاجة إلى مجموعات بيانات تدريبية عالية الجودة لنماذجك للعمل على المستوى الأمثل وتحقيق الأهداف المرجوة. كل ما تحتاجه هو شريك خدمة ذو خبرة يمكنه تزويدك بمجموعات بيانات عالية الجودة جاهزة للاستخدام. إذا كان الأمر كذلك ، فإن Shaip هو أفضل رهان لك حتى الآن. تواصل معنا للحصول على مجموعات بيانات NER شاملة لمساعدتك على تطوير حلول ML فعالة ومتقدمة لنماذج الذكاء الاصطناعي الخاصة بك.