في كل مرة نسمع فيها كلمة أو نقرأ نصًا ، لدينا القدرة الطبيعية على تحديد الكلمة وتصنيفها إلى أشخاص ومكان وموقع وقيم وغير ذلك. يمكن للبشر التعرف بسرعة على الكلمة وتصنيفها وفهم سياقها. على سبيل المثال ، عندما تسمع كلمة "ستيف جوبز" ، يمكنك على الفور التفكير في ثلاث إلى أربع سمات على الأقل وفصل الكيان إلى فئات ،
- شخص: ستيف جوبز
- الشركة: ابل
- اﻟﻌﻨﻮان كاليفورنيا
نظرًا لأن أجهزة الكمبيوتر لا تتمتع بهذه القدرة الطبيعية ، فإنها تتطلب مساعدتنا في تحديد الكلمات أو النصوص وتصنيفها. فمن حيث التعرف على الكيانات المسماة (صافي) يأتي دور.
دعونا نحصل على فهم موجز لـ NER وعلاقته بـ NLP.
ما هو التعرف على الكيان المحدد؟
يعد التعرف على الكيان المحدد جزءًا من معالجة اللغة الطبيعية. الهدف الأساسي من NER هو المعالجة البيانات المنظمة وغير المهيكلة وتصنيف هذه الكيانات المسماة في فئات محددة مسبقًا. تتضمن بعض الفئات الشائعة الاسم والموقع والشركة والوقت والقيم النقدية والأحداث والمزيد.
باختصار ، يتعامل NER مع:
- التعرف على الكيان المُسمى / اكتشافه - تحديد كلمة أو سلسلة من الكلمات في مستند.
- تصنيف كيان مسمى - تصنيف كل كيان تم اكتشافه إلى فئات محددة مسبقًا.
ولكن كيف يرتبط NER بـ NLP؟
تساعد معالجة اللغة الطبيعية على تطوير آلات ذكية قادرة على استخلاص المعنى من الكلام والنص. يساعد التعلم الآلي هذه الأنظمة الذكية على مواصلة التعلم من خلال التدريب على كميات كبيرة من اللغة الطبيعية مجموعات البيانات.
بشكل عام ، يتكون البرمجة اللغوية العصبية من ثلاث فئات رئيسية:
- فهم هيكل وقواعد اللغة - بناء الجملة
- اشتقاق معاني الكلمات والنصوص والكلام وتحديد علاقاتهم - دلالات
- التعرف على الكلمات المنطوقة والتعرف عليها وتحويلها إلى نصوص - خطاب
يساعد NER في الجزء الدلالي من البرمجة اللغوية العصبية، واستخراج معنى الكلمات وتحديدها وتحديد موقعها بناءً على علاقاتها.
أمثلة على التعرف على الكيانات المسماة
بعض الأمثلة الشائعة لملف تصنيف الكيان هي:
أبل: تم تصنيفها على أنها ORG (المؤسسة) وتم تمييزها باللون الأحمر.
اليوم: تم تصنيفه على أنه DATE وتم تمييزه باللون الوردي.
ثانيا: تم تصنيفها على أنها QUANTITY وتم تمييزها باللون الأخضر.
إفون سي: تم تصنيفه على أنه COMM (منتج تجاري) وتم تمييزه باللون الأزرق.
4.7 بوصة: تم تصنيفها على أنها QUANTITY وتم تمييزها باللون الأخضر.
غموض في التعرف على الكيانات المسماة
الفئة التي ينتمي إليها المصطلح واضحة تمامًا للبشر. ومع ذلك ، ليس هذا هو الحال مع أجهزة الكمبيوتر - فهي تواجه مشاكل التصنيف. فمثلا:
مدينة مانشستر (منظمة) فاز بكأس الدوري الإنجليزي الممتاز بينما في الجملة التالية يتم استخدام المنظمة بشكل مختلف. مدينة مانشستر (موقع المعرض) كانت شركة نسيجية وصناعية.
يحتاج نموذج NER الخاص بك بيانات التدريب لإجراء دقيق استخراج الكيان والتصنيف. إذا كنت تقوم بتدريب النموذج الخاص بك على Shakespearean English ، فلا داعي للقول ، فلن يكون قادرًا على فك رموز Instagram.
مقاربات NER المختلفة
الهدف الأساسي من أ نموذج NER هو تسمية الكيانات في المستندات النصية وتصنيفها. يتم استخدام الأساليب الثلاثة التالية بشكل عام لهذا الغرض. ومع ذلك ، يمكنك اختيار دمج طريقة واحدة أو أكثر أيضًا.
الطرق المختلفة لإنشاء أنظمة NER هي:
الأنظمة المستندة إلى القاموس
ربما يكون النظام المعتمد على القاموس هو النهج الأكثر بساطة وأساسية NER. سيستخدم قاموسًا يحتوي على العديد من الكلمات والمرادفات ومجموعة المفردات. سيتحقق النظام مما إذا كان كيانًا معينًا موجودًا في النص متاحًا أيضًا في المفردات. باستخدام خوارزمية مطابقة السلسلة ، يتم إجراء تدقيق شامل للكيانات.
أحد عيوب استخدام هذا النهج هو أن هناك حاجة للترقية المستمرة لمجموعة بيانات المفردات من أجل الأداء الفعال لنموذج NER.
الأنظمة المستندة إلى القواعد
في هذا النهج ، يتم استخراج المعلومات بناءً على مجموعة من القواعد المحددة مسبقًا. هناك مجموعتان أساسيتان من القواعد المستخدمة ،
القواعد المستندة إلى النمط - كما يوحي الاسم ، تتبع القاعدة المستندة إلى النمط نمطًا صرفيًا أو سلسلة من الكلمات المستخدمة في المستند.
القواعد المستندة إلى السياق - تعتمد القواعد المستندة إلى السياق على معنى أو سياق الكلمة في المستند.
الأنظمة القائمة على التعلم الآلي
في الأنظمة القائمة على التعلم الآلي ، تُستخدم النمذجة الإحصائية لاكتشاف الكيانات. يتم استخدام التمثيل المستند إلى السمات للوثيقة النصية في هذا النهج. يمكنك التغلب على العديد من عيوب النهجين الأولين حيث يمكن للنموذج التعرف عليه أنواع الكيانات على الرغم من الاختلافات الطفيفة في هجائهم.
تعلم عميق
تستفيد أساليب التعلم العميق لـ NER من قوة الشبكات العصبية مثل شبكات RNN والمحولات لفهم تبعيات النص طويلة المدى. الميزة الرئيسية لاستخدام هذه الأساليب هي أنها مناسبة تمامًا لمهام NER واسعة النطاق مع بيانات التدريب الوفيرة.
علاوة على ذلك، يمكنهم تعلم الأنماط والميزات المعقدة من البيانات نفسها، مما يلغي الحاجة إلى التدريب اليدوي. ولكن هناك صيد. تتطلب هذه الأساليب قدرًا كبيرًا من القوة الحسابية للتدريب والنشر.
الطرق الهجينة
تجمع هذه الأساليب بين أساليب مثل التعلم القائم على القواعد والإحصائي والتعلم الآلي لاستخراج الكيانات المسماة. الهدف هو الجمع بين نقاط القوة في كل طريقة مع تقليل نقاط الضعف فيها. أفضل جزء من استخدام الأساليب المختلطة هو المرونة التي تحصل عليها من خلال دمج تقنيات متعددة يمكنك من خلالها استخراج الكيانات من مصادر بيانات متنوعة.
ومع ذلك، هناك احتمال أن تصبح هذه الأساليب في نهاية المطاف أكثر تعقيدًا من أساليب النهج الواحد، لأنه عند دمج أساليب متعددة، قد يصبح سير العمل مربكًا.
حالات الاستخدام للتعرف على الكيانات المسماة (NER)؟
الكشف عن تعدد استخدامات التعرف على الكيانات المسماة (NER):
- برامج الدردشة: يساعد NER روبوتات الدردشة مثل ChatGPT من OpenAI في فهم استعلامات المستخدم من خلال تحديد الكيانات الرئيسية.
- دعم العملاء: فهو ينظم تعليقات العملاء حسب أسماء المنتجات، مما يؤدي إلى تسريع أوقات الاستجابة.
- التمويل: يستخرج NER البيانات المهمة من التقارير المالية، مما يساعد في تحليل الاتجاهات وتقييم المخاطر.
- الرعاية الصحية: فهو يسحب المعلومات الأساسية من السجلات السريرية، مما يعزز تحليل البيانات بشكل أسرع.
- HR: فهو يبسط التوظيف من خلال تلخيص ملفات تعريف المتقدمين وتوجيه تعليقات الموظفين.
- مقدمو الأخبار: يقوم NER بتصنيف المحتوى إلى معلومات واتجاهات ذات صلة، مما يؤدي إلى تسريع عملية إعداد التقارير.
- محركات التوصية: تستخدم شركات مثل Netflix NER لتخصيص التوصيات بناءً على سلوك المستخدم.
- محركات البحث: من خلال تصنيف محتوى الويب، يعمل NER على تحسين دقة نتائج البحث.
- تحليل المشاعر: يستخرج NER إشارات العلامة التجارية من المراجعات، مما يعزز أدوات تحليل المشاعر.
من يستخدم التعرف على الكيانات المسماة (NER)؟
إن NER (التعرف على الكيانات المسماة) هي إحدى تقنيات معالجة اللغة الطبيعية القوية (NLP) التي شقت طريقها إلى مختلف الصناعات والمجالات. وهنا بعض الأمثلة:
- محركات البحث: يعد NER مكونًا أساسيًا لمحركات البحث الحديثة مثل Google وBing. يتم استخدامه لتحديد وتصنيف الكيانات من صفحات الويب واستعلامات البحث لتوفير نتائج بحث أكثر صلة. على سبيل المثال، بمساعدة NER، يمكن لمحرك البحث التمييز بين "Apple" الشركة مقابل "Apple" الفاكهة بناءً على السياق.
- برامج الدردشة: يمكن لمساعدي Chatbots والذكاء الاصطناعي استخدام NER لفهم الكيانات الرئيسية من استعلامات المستخدم. ومن خلال القيام بذلك، يمكن لروبوتات الدردشة تقديم استجابات أكثر دقة. على سبيل المثال، إذا سألت "البحث عن مطاعم إيطالية بالقرب من سنترال بارك"، فسوف يفهم برنامج الدردشة الآلي "إيطالي" كنوع المطبخ، و"المطاعم" كمكان، و"سنترال بارك" كموقع.
- الصحافة الاستقصائية: استخدم الاتحاد الدولي للصحفيين الاستقصائيين (ICIJ)، وهي منظمة إعلامية مشهورة، NER لتحليل أوراق بنما، وهي تسريب ضخم لـ 11.5 مليون وثيقة مالية وقانونية. في هذه الحالة، تم استخدام NER لتحديد الأشخاص والمنظمات والمواقع تلقائيًا عبر ملايين المستندات غير المنظمة، والكشف عن الشبكات المخفية للتهرب الضريبي في الخارج.
- المعلوماتية الحيوية: في مجال المعلوماتية الحيوية، يتم استخدام NER لاستخراج الكيانات الرئيسية مثل الجينات والبروتينات والأدوية والأمراض من أوراق الأبحاث الطبية الحيوية وتقارير التجارب السريرية. تساعد مثل هذه البيانات في تسريع عملية اكتشاف الأدوية.
- مراقبة وسائل التواصل الاجتماعي: تستخدم العلامات التجارية عبر وسائل التواصل الاجتماعي NER لتتبع المقاييس الإجمالية لحملاتها الإعلانية ومستوى أداء منافسيها. على سبيل المثال، هناك شركة طيران تستخدم NER لتحليل التغريدات التي تشير إلى علامتها التجارية. فهو يكتشف التعليقات السلبية حول كيانات مثل "الأمتعة المفقودة" في مطار معين حتى يتمكنوا من حل المشكلة في أسرع وقت ممكن.
- الإعلان السياقي: تستخدم منصات الإعلانات NER لاستخراج الكيانات الرئيسية من صفحات الويب لعرض إعلانات أكثر صلة إلى جانب المحتوى مما يؤدي في النهاية إلى تحسين استهداف الإعلانات ونسب النقر إلى الظهور. على سبيل المثال، إذا اكتشف NER وجود "هاواي" و"فنادق" و"شواطئ" في إحدى مدونات السفر، فستعرض منصة الإعلانات صفقات لمنتجعات هاواي بدلاً من سلاسل الفنادق العامة.
- التوظيف وفحص السيرة الذاتية: يمكنك توجيه NER للعثور على المهارات والمؤهلات المطلوبة بالضبط بناءً على مجموعة مهارات مقدم الطلب وخبرته وخلفيته. على سبيل المثال، يمكن لوكالة التوظيف استخدام NER لمطابقة المرشحين تلقائيًا.
تطبيقات NER
لدى NER العديد من حالات الاستخدام في العديد من المجالات المتعلقة بمعالجة اللغات الطبيعية وإنشاء مجموعات بيانات تدريبية لها آلة التعلم و التعلم العميق حلول. بعض تطبيقات NER هي:
تبسيط دعم العملاء
يمكن لنظام NER اكتشاف شكاوى العملاء واستفساراتهم وملاحظاتهم ذات الصلة بسهولة بناءً على المعلومات المهمة مثل أسماء المنتجات والمواصفات ومواقع الفروع والمزيد. يتم تصنيف الشكوى أو التعليقات بشكل مناسب وتحويلها إلى القسم الصحيح عن طريق تصفية الكلمات الرئيسية ذات الأولوية.
كفاءة الموارد البشرية
تساعد NER فرق الموارد البشرية على تحسين عملية التوظيف وتقليل الجداول الزمنية من خلال تلخيص السيرة الذاتية للمتقدمين بسرعة. يمكن لأدوات NER مسح السيرة الذاتية واستخراج المعلومات ذات الصلة - الاسم والعمر والعنوان والمؤهل والكلية وما إلى ذلك.
بالإضافة إلى ذلك ، يمكن لقسم الموارد البشرية أيضًا استخدام أدوات NER لتبسيط سير العمل الداخلي عن طريق تصفية شكاوى الموظفين وإحالتها إلى رؤساء الإدارات المعنية.
تصنيف المحتوى المبسط
تصنيف المحتوى هو مهمة شاقة لمقدمي الأخبار. يجعل تصنيف المحتوى إلى فئات مختلفة من السهل اكتشافه واكتساب رؤى وتحديد الاتجاهات وفهم الموضوعات. مسمى التعرف على الكيانات يمكن أن تكون الأداة مفيدة لموفري الأخبار. يمكنه مسح العديد من المقالات وتحديد الكلمات الرئيسية ذات الأولوية واستخراج المعلومات بناءً على الأشخاص والتنظيم والموقع والمزيد.
تحسين محركات البحث
NER يساعد في تبسيط وتحسين سرعة وملاءمة نتائج البحث. بدلاً من تشغيل استعلام البحث لآلاف المقالات ، يمكن لنموذج NER تشغيل الاستعلام مرة واحدة وحفظ النتائج. لذلك ، بناءً على العلامات الموجودة في استعلام البحث ، يمكن التقاط المقالات المرتبطة بالاستعلام بسرعة.
توصية المحتوى الدقيق
تعتمد العديد من التطبيقات الحديثة على أدوات NER لتقديم تجربة محسنة ومخصصة للعملاء. على سبيل المثال، توفر Netflix توصيات مخصصة بناءً على سجل البحث والعرض الخاص بالمستخدم باستخدام التعرف على الكيانات المسماة.
يجعل التعرف على الكيان المسماة آلة التعلم نماذج أكثر كفاءة وموثوقية. ومع ذلك، فأنت بحاجة إلى مجموعات بيانات تدريبية عالية الجودة حتى تعمل نماذجك على المستوى الأمثل وتحقق الأهداف المقصودة. كل ما تحتاجه هو شريك خدمة ذو خبرة يمكنه تزويدك بمجموعات بيانات عالية الجودة جاهزة للاستخدام. إذا كان الأمر كذلك، فإن Shaip هو أفضل رهان لك حتى الآن. تواصل معنا للحصول على مجموعات بيانات NER شاملة لمساعدتك في تطوير حلول ML فعالة ومتقدمة لنماذج الذكاء الاصطناعي الخاصة بك.
[اقرأ أيضًا: ما هو البرمجة اللغوية العصبية؟ كيف يعمل ، الفوائد ، التحديات ، الأمثلة
كيف يعمل التعرف على الكيان المسمى؟
يكشف الخوض في عالم التعرف على الكيانات المسماة (NER) عن رحلة منهجية تتكون من عدة مراحل:
Tokenization
في البداية، يتم تقسيم البيانات النصية إلى وحدات أصغر، تسمى الرموز، والتي يمكن أن تتراوح من الكلمات إلى الجمل. على سبيل المثال، تم تقسيم عبارة "باراك أوباما كان رئيسًا للولايات المتحدة الأمريكية" إلى رموز مثل "باراك"، و"أوباما"، و"كان"، و"ال"، و"الرئيس"، و"من"، و"ال"، و" الولايات المتحدة الأمريكية".
كشف الكيان
وباستخدام مجموعة من المبادئ التوجيهية اللغوية والمنهجيات الإحصائية، يتم تسليط الضوء على الكيانات المسماة المحتملة. يعد التعرف على أنماط مثل الكتابة بالأحرف الكبيرة في الأسماء («باراك أوباما») أو التنسيقات المميزة (مثل التواريخ) أمرًا بالغ الأهمية في هذه المرحلة.
تصنيف الكيانات
بعد الكشف، يتم فرز الكيانات إلى فئات محددة مسبقًا مثل "الشخص" أو "المؤسسة" أو "الموقع". غالبًا ما تقود نماذج التعلم الآلي، التي يتم رعايتها على مجموعات البيانات المصنفة، هذا التصنيف. هنا، يتم وضع علامة "باراك أوباما" على أنها "شخص" و"الولايات المتحدة الأمريكية" على أنها "موقع".
التقييم السياقي
غالبًا ما يتم تضخيم براعة أنظمة NER من خلال تقييم السياق المحيط. على سبيل المثال، في عبارة "شهدت واشنطن حدثًا تاريخيًا"، يساعد السياق في تمييز "واشنطن" كموقع وليس اسم شخص.
تحسين ما بعد التقييم
بعد التحديد والتصنيف الأولي، قد يترتب على ذلك تحسين ما بعد التقييم لصقل النتائج. يمكن أن تعالج هذه المرحلة أوجه الغموض، أو دمج الكيانات متعددة الرموز، أو استخدام قواعد المعرفة لزيادة بيانات الكيان.
هذا النهج المحدد لا يزيل الغموض عن جوهر NER فحسب، بل يعمل أيضًا على تحسين المحتوى لمحركات البحث، مما يعزز رؤية العملية المعقدة التي يجسدها NER.
فوائد وتحديات NER؟
الفوائد :
- استخراج المعلومات: يحدد NER البيانات الأساسية، مما يساعد على استرجاع المعلومات.
- تنظيم المحتوى: يساعد على تصنيف المحتوى، وهو مفيد لقواعد البيانات ومحركات البحث.
- تجربة المستخدم المحسنة: يقوم NER بتحسين نتائج البحث وتخصيص التوصيات.
- تحليل الثاقبة: أنه يسهل تحليل المشاعر والكشف عن الاتجاه.
- سير العمل الآلي: NER يعزز الأتمتة، مما يوفر الوقت والموارد.
القيود/التحديات:
- حل الغموض: يكافح مع تمييز الكيانات المتشابهة.
- التكيف الخاص بالمجال: كثيفة الاستخدام للموارد عبر مجالات متنوعة.
- التبعية اللغوية: تختلف الفعالية باختلاف اللغات.
- ندرة البيانات المسمى: يحتاج إلى مجموعات بيانات كبيرة مصنفة للتدريب.
- التعامل مع البيانات غير المهيكلة: يتطلب تقنيات متقدمة.
- مقياس الاداء: التقييم الدقيق أمر معقد.
- المعالجة في الوقت الحقيقي: الموازنة بين السرعة والدقة أمر صعب.
مستقبل NER
على الرغم من أن التعرف على الكيانات المسماة (NER) يعد مجالًا راسخًا، إلا أنه لا يزال هناك الكثير من العمل الذي يتعين القيام به. إحدى المجالات الواعدة التي يمكننا أخذها بعين الاعتبار هي تقنيات التعلم العميق بما في ذلك المحولات ونماذج اللغة المدربة مسبقًا، بحيث يمكن تحسين أداء NER بشكل أكبر.
فكرة أخرى مثيرة هي بناء أنظمة NER مخصصة لمختلف المهن، مثل الأطباء أو المحامين. نظرًا لأن الصناعات المختلفة لها أنواع وأنماط هوية خاصة بها، فإن إنشاء أنظمة NER في هذه السياقات المحددة يمكن أن يوفر نتائج أكثر دقة وذات صلة.
علاوة على ذلك، يعد NER متعدد اللغات ومتعدد اللغات أيضًا مجالًا ينمو بشكل أسرع من أي وقت مضى. مع تزايد عولمة الأعمال، نحتاج إلى تطوير أنظمة NER التي يمكنها التعامل مع الهياكل اللغوية والنصوص المتنوعة.
نظرًا لأن أنظمة NER أصبحت أكثر تعقيدًا ويتم تطبيقها في المجالات الحيوية مثل الرعاية الصحية والتمويل، فإن فهم كيفية قيام هذه النماذج بتنبؤاتها أمر بالغ الأهمية. يمكن أن يؤدي تطوير تقنيات لتصور وشرح الأسباب الكامنة وراء مخرجات NER إلى زيادة الثقة في هذه الأنظمة وتسهيل نشرها المسؤول.