الكيان المسمى[1] في استخراج المعلومات وتنقيب النصوص، يُعد كائنًا حقيقيًا مثل الأشخاص أو المواقع أو المؤسسات أو المنتجات وما إلى ذلك، والتي يمكن الإشارة إليه باسم علم. يمكن أن تكون هذه الكيانات مجردة أو لها وجود مادي. من الأمثلة على الكيانات المسماة باراك أوباما أو مدينة نيويورك أو فولكس فاجن جولف، أو أي شيء آخر يمكن تسميته. يمكن ببساطة النظر للكيانات المسماة على أنها مثال لكيان (على سبيل المثال، مدينة نيويورك هي مثال لمدينة).
من منظور تاريخي، تم إنشاء مصطلح «الكيان المسمى» أثناء حملة تقييم MUC-6 واحتوى على ENAMEX (تعبيرات لاسم الكيان مثل الأشخاص والمواقع والمؤسسات) و NUMEX (تعبير رقمي).
على سبيل المثال، لنأخذ الجملة «ترامب هو رئيس الولايات المتحدة». كل من «ترامب» و «الولايات المتحدة» كيانات مسماة لأنها تشير إلى كائنات محددة (دونالد ترامب والولايات المتحدة). ومع ذلك، فإن «الرئيس» ليس كيانًا محددًا لأنه يمكن استخدامه للإشارة إلى العديد من الأشياء المختلفة في عوالم مختلفة (تشير الكلمة إلى أشخاص مختلفين في فترات رئاسية مختلفة، أو إلى أشخاص مختلفين في بلدان أو منظمات مختلفة). عادةً ما تتضمن الكيانات المسماة الأعلام بالإضافة إلى بعض المصطلحات الطبيعية مثل الأنواع البيولوجية والمواد.
هناك أيضًا اتفاق عام في مجتمع التعرف على الكيانات المسماة لإعتبارالتعبيرات الزمنية والرقمية مثل مبالغ المال وأنواع أخرى من الوحدات ككيانات مسماة. وقد ينتهتك هذا الإتفاق المنظورالصارم للكيانات المسماة.
تعرف مهمة إيجاد الكيانات المسماة في النص بـالتعرف على الكيانات المسماة Named Entity Recognition بينما تسمى مهمة تحديد هوية الكيانات المسماة المذكورة في النص باسم توضيح الكيانات المسماة Named Entity Disambiguation. تتطلب كلتا المهمتين خوارزميات وموارد مخصصة لتنفيذها.[2]
انظر أيضًا
المراجع