التعرف على الكيان المحدد (NER)

التعرف على الكيانات المسماة (NER) - المفهوم والأنواع والتطبيقات

في كل مرة نسمع فيها كلمة أو نقرأ نصًا ، لدينا القدرة الطبيعية على تحديد الكلمة وتصنيفها إلى أشخاص ومكان وموقع وقيم وغير ذلك. يمكن للبشر التعرف بسرعة على الكلمة وتصنيفها وفهم سياقها. على سبيل المثال ، عندما تسمع كلمة "ستيف جوبز" ، يمكنك على الفور التفكير في ثلاث إلى أربع سمات على الأقل وفصل الكيان إلى فئات ،

  • شخص: ستيف جوبز
  • الشركة: تفاح
  • اﻟﻌﻨﻮان كاليفورنيا

نظرًا لأن أجهزة الكمبيوتر لا تتمتع بهذه القدرة الطبيعية ، فإنها تتطلب مساعدتنا في تحديد الكلمات أو النصوص وتصنيفها. فمن حيث التعرف على الكيانات المسماة (صافي) يأتي دور.

دعونا نحصل على فهم موجز لـ NER وعلاقته بـ NLP.

ما هو التعرف على الكيان المحدد؟

يعد التعرف على الكيان المحدد جزءًا من معالجة اللغة الطبيعية. الهدف الأساسي من NER هو المعالجة البيانات المنظمة وغير المهيكلة وتصنيف هذه الكيانات المسماة في فئات محددة مسبقًا. تتضمن بعض الفئات الشائعة الاسم والموقع والشركة والوقت والقيم النقدية والأحداث والمزيد.

باختصار ، يتعامل NER مع:

  • التعرف على الكيان المُسمى / اكتشافه - تحديد كلمة أو سلسلة من الكلمات في مستند.
  • تصنيف كيان مسمى - تصنيف كل كيان تم اكتشافه إلى فئات محددة مسبقًا.

ولكن كيف يرتبط NER بـ NLP؟

تساعد معالجة اللغة الطبيعية على تطوير آلات ذكية قادرة على استخلاص المعنى من الكلام والنص. يساعد التعلم الآلي هذه الأنظمة الذكية على مواصلة التعلم من خلال التدريب على كميات كبيرة من اللغة الطبيعية مجموعات البيانات.

بشكل عام ، يتكون البرمجة اللغوية العصبية من ثلاث فئات رئيسية:

  • فهم هيكل وقواعد اللغة - بناء الجملة
  • اشتقاق معاني الكلمات والنصوص والكلام وتحديد علاقاتهم - دلالات
  • التعرف على الكلمات المنطوقة والتعرف عليها وتحويلها إلى نصوص - خطاب

يساعد NER في الجزء الدلالي من البرمجة اللغوية العصبية، واستخراج معنى الكلمات وتحديدها وتحديد موقعها بناءً على علاقاتها.

أمثلة شائعة لـ NER

بعض الأمثلة الشائعة لملف تصنيف الكيان هي:

أمثلة على نير
أمثلة على نير

شخص: مايكل جاكسون ، أوبرا وينفري ، باراك أوباما ، سوزان ساراندون

اﻟﻌﻨﻮان كندا ، هونولولو ، بانكوك ، البرازيل ، كامبريدج

التنظيم وجدولة المواعيد: سامسونج ، ديزني ، جامعة ييل ، جوجل

مرة: 15.35 ، 12 مساءً ،

تتضمن الفئات الأخرى القيم العددية والتعبير وعناوين البريد الإلكتروني والمرافق.

غموض في التعرف على الكيانات المسماة

الفئة التي ينتمي إليها المصطلح واضحة تمامًا للبشر. ومع ذلك ، ليس هذا هو الحال مع أجهزة الكمبيوتر - فهي تواجه مشاكل التصنيف. فمثلا:

مدينة مانشستر (منظمة) فاز بكأس الدوري الإنجليزي الممتاز بينما في الجملة التالية يتم استخدام المنظمة بشكل مختلف. مدينة مانشستر (الموقع الجغرافي) كانت شركة نسيجية وصناعية.

يحتاج نموذج NER الخاص بك بيانات التدريب لإجراء دقيق استخراج الكيان والتصنيف. إذا كنت تقوم بتدريب النموذج الخاص بك على Shakespearean English ، فلا داعي للقول ، فلن يكون قادرًا على فك رموز Instagram.

مقاربات NER المختلفة

الهدف الأساسي من أ نموذج NER هو تسمية الكيانات في المستندات النصية وتصنيفها. يتم استخدام الأساليب الثلاثة التالية بشكل عام لهذا الغرض. ومع ذلك ، يمكنك اختيار دمج طريقة واحدة أو أكثر أيضًا.

دعنا نناقش متطلبات بيانات التدريب على الذكاء الاصطناعي اليوم.

الطرق المختلفة لإنشاء أنظمة NER هي:

  • الأنظمة المستندة إلى القاموس

    ربما يكون النظام المعتمد على القاموس هو النهج الأكثر بساطة وأساسية NER. سيستخدم قاموسًا يحتوي على العديد من الكلمات والمرادفات ومجموعة المفردات. سيتحقق النظام مما إذا كان كيانًا معينًا موجودًا في النص متاحًا أيضًا في المفردات. باستخدام خوارزمية مطابقة السلسلة ، يتم إجراء تدقيق شامل للكيانات.

    أحد عيوب استخدام هذا النهج هو أن هناك حاجة للترقية المستمرة لمجموعة بيانات المفردات من أجل الأداء الفعال لنموذج NER.

  • الأنظمة المستندة إلى القواعد

    في هذا النهج ، يتم استخراج المعلومات بناءً على مجموعة من القواعد المحددة مسبقًا. هناك مجموعتان أساسيتان من القواعد المستخدمة ،

    القواعد المستندة إلى النمط - كما يوحي الاسم ، تتبع القاعدة المستندة إلى النمط نمطًا صرفيًا أو سلسلة من الكلمات المستخدمة في المستند.

    القواعد المستندة إلى السياق - تعتمد القواعد المستندة إلى السياق على معنى أو سياق الكلمة في المستند.

  • الأنظمة القائمة على التعلم الآلي

    في الأنظمة القائمة على التعلم الآلي ، تُستخدم النمذجة الإحصائية لاكتشاف الكيانات. يتم استخدام التمثيل المستند إلى السمات للوثيقة النصية في هذا النهج. يمكنك التغلب على العديد من عيوب النهجين الأولين حيث يمكن للنموذج التعرف عليه أنواع الكيانات على الرغم من الاختلافات الطفيفة في هجائهم.

استخدام حالات وأمثلة للتعرف على الكيانات المسماة؟

الكشف عن تعدد استخدامات التعرف على الكيانات المسماة (NER):

  1. برامج الدردشة: يساعد NER روبوتات الدردشة مثل ChatGPT من OpenAI في فهم استعلامات المستخدم من خلال تحديد الكيانات الرئيسية.
  2. دعم العملاء: فهو ينظم تعليقات العملاء حسب أسماء المنتجات، مما يؤدي إلى تسريع أوقات الاستجابة.
  3. التمويل: يستخرج NER البيانات المهمة من التقارير المالية، مما يساعد في تحليل الاتجاهات وتقييم المخاطر.
  4. الرعاية الصحية: فهو يسحب المعلومات الأساسية من السجلات السريرية، مما يعزز تحليل البيانات بشكل أسرع.
  5. HR: فهو يبسط التوظيف من خلال تلخيص ملفات تعريف المتقدمين وتوجيه تعليقات الموظفين.
  6. مقدمو الأخبار: يقوم NER بتصنيف المحتوى إلى معلومات واتجاهات ذات صلة، مما يؤدي إلى تسريع عملية إعداد التقارير.
  7. محركات التوصية: تستخدم شركات مثل Netflix NER لتخصيص التوصيات بناءً على سلوك المستخدم.
  8. محركات البحث: من خلال تصنيف محتوى الويب، يعمل NER على تحسين دقة نتائج البحث.
  9. تحليل المشاعر: يستخرج NER إشارات العلامة التجارية من المراجعات، مما يعزز أدوات تحليل المشاعر.

تطبيقات NER

لدى NER العديد من حالات الاستخدام في العديد من المجالات المتعلقة بمعالجة اللغات الطبيعية وإنشاء مجموعات بيانات تدريبية لها آلة التعلم و التعلم العميق حلول. بعض تطبيقات NER هي:

  • تبسيط دعم العملاء

    يمكن لنظام NER اكتشاف شكاوى العملاء واستفساراتهم وملاحظاتهم ذات الصلة بسهولة بناءً على المعلومات المهمة مثل أسماء المنتجات والمواصفات ومواقع الفروع والمزيد. يتم تصنيف الشكوى أو التعليقات بشكل مناسب وتحويلها إلى القسم الصحيح عن طريق تصفية الكلمات الرئيسية ذات الأولوية.

  • كفاءة الموارد البشرية

    تساعد NER فرق الموارد البشرية على تحسين عملية التوظيف وتقليل الجداول الزمنية من خلال تلخيص السيرة الذاتية للمتقدمين بسرعة. يمكن لأدوات NER مسح السيرة الذاتية واستخراج المعلومات ذات الصلة - الاسم والعمر والعنوان والمؤهل والكلية وما إلى ذلك.

    بالإضافة إلى ذلك ، يمكن لقسم الموارد البشرية أيضًا استخدام أدوات NER لتبسيط سير العمل الداخلي عن طريق تصفية شكاوى الموظفين وإحالتها إلى رؤساء الإدارات المعنية.

  • تصنيف المحتوى المبسط

    تصنيف المحتوى هو مهمة شاقة لمقدمي الأخبار. يجعل تصنيف المحتوى إلى فئات مختلفة من السهل اكتشافه واكتساب رؤى وتحديد الاتجاهات وفهم الموضوعات. مسمى التعرف على الكيانات يمكن أن تكون الأداة مفيدة لموفري الأخبار. يمكنه مسح العديد من المقالات وتحديد الكلمات الرئيسية ذات الأولوية واستخراج المعلومات بناءً على الأشخاص والتنظيم والموقع والمزيد.

  • تحسين محركات البحث

    محرك البحث الأمثل NER يساعد في تبسيط وتحسين سرعة وملاءمة نتائج البحث. بدلاً من تشغيل استعلام البحث لآلاف المقالات ، يمكن لنموذج NER تشغيل الاستعلام مرة واحدة وحفظ النتائج. لذلك ، بناءً على العلامات الموجودة في استعلام البحث ، يمكن التقاط المقالات المرتبطة بالاستعلام بسرعة.

     

  • توصية المحتوى الدقيق

    تعتمد العديد من التطبيقات الحديثة على أدوات NER لتقديم تجربة محسنة ومخصصة للعملاء. على سبيل المثال، توفر Netflix توصيات مخصصة بناءً على سجل البحث والعرض الخاص بالمستخدم باستخدام التعرف على الكيانات المسماة.

يجعل التعرف على الكيان المسماة آلة التعلم نماذج أكثر كفاءة وموثوقية. ومع ذلك، فأنت بحاجة إلى مجموعات بيانات تدريبية عالية الجودة حتى تعمل نماذجك على المستوى الأمثل وتحقق الأهداف المقصودة. كل ما تحتاجه هو شريك خدمة ذو خبرة يمكنه تزويدك بمجموعات بيانات عالية الجودة جاهزة للاستخدام. إذا كان الأمر كذلك، فإن Shaip هو أفضل رهان لك حتى الآن. تواصل معنا للحصول على مجموعات بيانات NER شاملة لمساعدتك في تطوير حلول ML فعالة ومتقدمة لنماذج الذكاء الاصطناعي الخاصة بك.

[اقرأ أيضًا: دراسة الحالة: التعرف على الكيانات المسماة (NER) للبرمجة اللغوية العصبية السريرية]

كيف يعمل التعرف على الكيان المسمى؟

يكشف الخوض في عالم التعرف على الكيانات المسماة (NER) عن رحلة منهجية تتكون من عدة مراحل:

  • Tokenization

    في البداية، يتم تقسيم البيانات النصية إلى وحدات أصغر، تسمى الرموز، والتي يمكن أن تتراوح من الكلمات إلى الجمل. على سبيل المثال، تم تقسيم عبارة "باراك أوباما كان رئيسًا للولايات المتحدة الأمريكية" إلى رموز مثل "باراك"، و"أوباما"، و"كان"، و"ال"، و"الرئيس"، و"من"، و"ال"، و" الولايات المتحدة الأمريكية".

  • كشف الكيان

    وباستخدام مجموعة من المبادئ التوجيهية اللغوية والمنهجيات الإحصائية، يتم تسليط الضوء على الكيانات المسماة المحتملة. يعد التعرف على أنماط مثل الكتابة بالأحرف الكبيرة في الأسماء («باراك أوباما») أو التنسيقات المميزة (مثل التواريخ) أمرًا بالغ الأهمية في هذه المرحلة.

  • تصنيف الكيانات

    بعد الكشف، يتم فرز الكيانات إلى فئات محددة مسبقًا مثل "الشخص" أو "المؤسسة" أو "الموقع". غالبًا ما تقود نماذج التعلم الآلي، التي يتم رعايتها على مجموعات البيانات المصنفة، هذا التصنيف. هنا، يتم وضع علامة "باراك أوباما" على أنها "شخص" و"الولايات المتحدة الأمريكية" على أنها "موقع".

  • التقييم السياقي

    غالبًا ما يتم تضخيم براعة أنظمة NER من خلال تقييم السياق المحيط. على سبيل المثال، في عبارة "شهدت واشنطن حدثًا تاريخيًا"، يساعد السياق في تمييز "واشنطن" كموقع وليس اسم شخص.

  • تحسين ما بعد التقييم

    بعد التحديد والتصنيف الأولي، قد يترتب على ذلك تحسين ما بعد التقييم لصقل النتائج. يمكن أن تعالج هذه المرحلة أوجه الغموض، أو دمج الكيانات متعددة الرموز، أو استخدام قواعد المعرفة لزيادة بيانات الكيان.

هذا النهج المحدد لا يزيل الغموض عن جوهر NER فحسب، بل يعمل أيضًا على تحسين المحتوى لمحركات البحث، مما يعزز رؤية العملية المعقدة التي يجسدها NER.

فوائد وتحديات NER؟

الفوائد :

  1. استخراج المعلومات: يحدد NER البيانات الأساسية، مما يساعد على استرجاع المعلومات.
  2. تنظيم المحتوى: يساعد على تصنيف المحتوى، وهو مفيد لقواعد البيانات ومحركات البحث.
  3. تجربة المستخدم المحسنة: يقوم NER بتحسين نتائج البحث وتخصيص التوصيات.
  4. تحليل الثاقبة: أنه يسهل تحليل المشاعر والكشف عن الاتجاه.
  5. سير العمل الآلي: NER يعزز الأتمتة، مما يوفر الوقت والموارد.

القيود/التحديات:

  1. حل الغموض: يكافح مع تمييز الكيانات المتشابهة.
  2. التكيف الخاص بالمجال: كثيفة الاستخدام للموارد عبر مجالات متنوعة.
  3. التبعية اللغوية: تختلف الفعالية باختلاف اللغات.
  4. ندرة البيانات المسمى: يحتاج إلى مجموعات بيانات كبيرة مصنفة للتدريب.
  5. التعامل مع البيانات غير المهيكلة: يتطلب تقنيات متقدمة.
  6. مقياس الاداء: التقييم الدقيق أمر معقد.
  7. المعالجة في الوقت الحقيقي: الموازنة بين السرعة والدقة أمر صعب.

شارك الاجتماعية

قد يعجبك أيضاً