تنقيب الويبالتنقيب على الويب هو تطبيق لتقنيات التنقيب عن البيانات لاكتشاف الأنماط من شبكة الويب العالمية. يستخدم طرقًا آلية لاستخراج البيانات المهيكلة وغير المهيكلة من صفحات الويب وسجلات الخادم وهياكل الارتباط. هناك ثلاث فئات فرعية رئيسية لتعدين الويب. استخراج محتوى الويب يستخرج المعلومات من داخل الصفحة. يكتشف التعدين في بنية الويب بنية الارتباطات التشعبية بين المستندات، ويصنف مجموعات من صفحات الويب ويقيس التشابه والعلاقة بين المواقع المختلفة. يكتشف التنقيب عن استخدام الويب أنماط استخدام صفحات الويب. أنواع التنقيب عن الويبيمكن تقسيم تعدين الويب إلى ثلاثة أنواع مختلفة - التنقيب عن استخدام الويب وتعدين محتوى الويب وتعدين بنية الويب. 1. المقدمة والمعلومات الاساسيةفي عالم الحاسوب، البيانات تمثل مجالا مثيرا للاهتمام. انها في ازدياد مستمر وتتوسع بشكل كبير، وإنه من المهم بالنسبة لنا العثور على معلومات مفيدة من هذه البيانات الضخمة. العملية الشاملة لتحليل مجاميع البيانات، للعثور على معلومات مفهومة ومفيدة لأصحاب البيانات، تسمى تنقيب البيانات.[1] في السنوات القليلة الماضية، تم تخزين معظم البيانات التي تملكها المؤسسات في مخازن مهيكلة للبيانات مثل قواعد البيانات العلائقية. هذه البيانات يمكن الوصول إليها بسهولة لأغراض التنقيب باستخدام العديد من تقنيات استخراج البيانات.[1] مع ذلك، فقد تغيرت طبيعة البيانات بشكل كبير منذ ظهور شبكة الإنترنت، والتي لديها مميزات وخصائص تجعلها مختلفة عن البيانات المهيكلة. هذه الخصائص يمكن تلخيصها على النحو التالي:[2] 1. الحجم الضخم للبيانات على الويب وما زالت تنمو اضعافا مضاعفة. 2. الويب يحتوي على بيانات من مختلف الانواع والاشكال. ذلك يشمل البيانات المهيكلة مثل الجدول، والبيانات شبه المهيكلة مثل وثائق الإكس أم أل (XML)، وبيانات غير مهيكلة مثل النصوص في صفحات الويب، وبيانات متعددة الوسائط مثل الصور والافلام. 3. عدم تجانس المعلومات على شبكة الإنترنت. مؤلفون من حول العالم يشاركون في بناء محتوى الويب. نتيجة لذلك. قد تجد صفحات ذات محتوى شبيه أو متطابق. 4. بيانات الويب تمتلك وصلات تشعبية، وهو ما يعني أن صفحات الويب ترتبط معا بحيث يمكن لأي شخص التنقل من خلال صفحات داخل الموقع نفسه أو عبر مواقع مختلفة. هذه الوصلات يمكن أن تخبرنا كيف يتم تنظيم المعلومات بين الصفحات داخل الموقع، ومدى قوة أو ضعف العلاقة ما بين الصفحات عبر مواقع مختلفة. 5. ضجيج المعلومات على الويب. أسباب ذلك هما قضيتان. أولا، صفحة الويب النموذجية عادة ما تحتوي على العديد من المعلومات مثل الجسم الرئيسي للصفحة، وصلات، والإعلانات، وغيرها الكثير. وبالتالي، فإن الصفحة لا توجد لديها بنية محددة. ثانيا، ليست هناك سيطرة نوعية على المعلومات، بمعنى أنه يمكن لأي شخص تحميل محتوى على الويب بغض النظر عن نوعيته أو جودته. 6. جزء كبير من المحتوى على شبكة الإنترنت يُعتبر ديناميكي، وهذا يعني أنه يتم تحديث المعلومات في كثير من الأحيان وبشكل مستمر. على سبيل المثال، معلومات الطقس يتم تحديثها بشكل مستمر. 7. الويب يحتوي على مواقع التجارة الإلكترونية التي تمكن الناس من أداء العديد من عمليات الشراء، وتحويل الأموال، وغيرها الكثير. هذا النوع من المواقع يحتاج إلى تزويد العملاء بخدمات محوسبة مثل نظام التوصية. 8. الويب ليس مجرد بيانات ومعلومات. في الوقت الحاضر، يعتبر ويب مجتمع افتراضي، حيث يمكن للناس والمنظمات وحتى الانظمة المحوسبة التواصل والتفاعل مع بعضها البعض. كل هذه الخصائص تجعل عملية استخراج البيانات على الشبكة أكثر تحديا، وفي نفس الوقت تعطينا فرصا لاكتشاف المعرفة المفيدة والقيّمة من الويب. ونظرا لوجود مجموعة واسعة من أنواع البيانات أصبحت تقنيات استخراج البيانات التقليدية غير كافية.[2] وهذا ما أدى إلى تبلور حاجة لتطوير تقنيات وخوارزميات جديدة تهدف تنقيب البيانات على شبكة الإنترنت. العديد من الباحثين مثل عتيق وآخرون[3] وتشانغ وسيغال[4] يعتقدون أن استخراج البيانات التقليدية تتعامل بشكل رئيسي مع البيانات المهيكلة التي يتم تخزينها في قواعد البيانات العلائقية، في حين تنقيب ويب تتعامل مع بيانات الويب، التي عادة ما تكون شبه مهيكلة أو غير مهيكلة. آخرون مثل إتزيوني[5]، وماركوف وآخرون[6]، وكوسالا وبلوكيل[7] يرون تنقيب الويب كتطبيق على منهجيات وتقنيات ونماذج استخراج البيانات. ليو[2] يشير إلى أن العديد من تقنيات استخراج البيانات التقليدية يمكن تطبيقها في العديد من مهام تنقيب الويب. ومع ذلك، فهو يرى أن تنقيب الويب ليس تماما تطبيق لاستخراج البيانات التقليدية نظرا للخصائص التي يمتاز بها الويب والتي تم نقاشها أعلاه. هناك تعريف جيد لمصطلح تنقيب الويب والتي قدمها ليو:[2] يهدف تنقيب الويب إلى إيجاد واستخراج المعلومات المفيدة من بيانات الويب، والتي تشمل: هياكل الارتباطات التشعبية، محتوى صفحات الويب، وسجلات استخدام الويب. الغالبية العظمى من الباحثين مثل ليو[2]، ومادريا وآخرون[8]، وبورخيس ويفين[9] يتفقون على أن تنقيب الويب يمكن تقسيمها إلى ثلاث فئات بناءً على الجزء المنوي تنقيبه؛ وهم: تنقيب هيكلية الويب، والتي تسعى إلى كشف معلومات مفيدة من بنية الارتباط التشعبي للشبكة، وتنقيب محتوى ويب، والتي تهدف إلى استخراج المعلومات المفيدة من محتوى صفحات الويب، وأخيرا تنقيب استخدام الويب، والتي تنطوي على إيجاد أنماط وصول المستخدم. سأقوم بمناقشة كل واحد منهما على حدة في الاقسام اللاحقة. عملية تنقيب الويب مشابهة إلى حد ما عملية استخراج البيانات التقليدية، والتي تتكون أساسا من ثلاث خطوات رئيسية: مرحلة ما قبل المعالجة، لتحويل البيانات الخام إلى شكل يمكن أن يكون مناسبة للتنقيب، واستخراج البيانات، والتي يتم فيها تطبيق خوارزمية تحليل البيانات وتجهيزها، ومرحلة ما بعد المعالجة، للتّعرف على بيانات مفيدة باستخدام التقييم وتقنيات التصور.[10] مع ذلك، جمع البيانات مختلف تماما عن ما هو في استخراج البيانات التقليدية. في استخراج البيانات التقليدية، تستخدم مستودعات البيانات لجمع وتخزين البيانات، في حين أنه في تنقيب الويب، جمع البيانات هي مهمة صعبة وتتطلب سحب عدد كبير من صفحات الويب.[2] علاوة على ذلك، التقنيات المستخدمة في كل خطوة مختلفة تماما في تنقيب الويب.[2] آخرون مثل إتزيوني[5]، وكوسالا وبلوكيل[7]، وتشانغ وسيغال[4] يقسمون عملية تنقيب الويب إلى المراحل التالية: 1. جمع الموارد: لاسترجاع وجمع مستندات ويب. 2. اختيار المعلومات ومرحلة ما قبل المعالجة: لتحديد بيانات محددة وتحويلها إلى شكل ملائم للمعالجة. 3. التعميم: لاكتشاف الأنماط والتعرف عليها. 4. التحليل: للتحقق من صحة المعلومات التي تم استخراجها والعمل على تمثيلها بطريقة مناسبة. تتمحور بقية هذه المقالة البحثية على النحو التالي: في القسمين الثاني والثالث، والرابع، سأعرض فئات تنقيب الويب، وهي: تنقيب هيكلية الويب وتنقيب محتوى ويب، وتنقيب استخدام الويب على التوالي. ثم سألخص هذه المقالة مع الإشارة إلى بعض الاتجاهات المستقبلية في القسم الخامس والاخير. 2. تنقيب هيكلية الويبنعني بتنقيب هيكلية الويب استخدام بنية الارتباط التشعبي على الشبكة كمصدر للمعلومات في عملية التنقيب.[7] الارتباطات التشعبية تمثل واحدة من السمات الخاصة للشبكة وكذلك أساس الويب. ترتبط كل صفحات ويب ببعضها البعض عن طريق وصلات بحيث يمكن للمستخدم التنقل من صفحة إلى أخرى من خلالها.[2] تنقيب هيكلية الويب تهدف إلى استخراج معرفة مفيدة مجردة من بنية الارتباط التشعبي على الشبكة لأغراض عديدة.[2] بعض التقنيات المستخدمة في تنقيب هيكلية الويب مستوحاة من تحليل الشبكات الاجتماعية التي يمكن من خلالها أن نجد أنواع معينة من الصفحات مثل المحاور والسلطات والمجتمعات بناءً على الروابط الواردة والصادرة.[11] في الفقرات التالية، سأناقش بعض مهام تنقيب هيكلية الويب مع تقنياتهم بشكل مختصر.
أ. تحسين نتائج بحث الويباستخراج المعرفة من بنية الارتباط التشعبي مهم جدا لمحركات البحث بحيث يمكن اكتشاف صفحات الويب ذات الصلة.[12] في محركات البحث البدائية على الإنترنت، كانت طرق استرجاع المعلومات وحدها غير كافية لترتيب النتائج التي يتم إرجاعها من قبل محركات البحث على الويب. مع وجود الارتباطات التشعبية، وجد الباحثون أن النتائج التي يتم استرجاعها يمكن تحسينها بشكل ملحوظ.[2]
البيج رانك هي الخوارزمية التي جعلت جوجل محرك بحث ناجح من بين الآخرين. واحدة من مميزاته أنه لا يعتمد على الاستعلام عند تقييم صفحات ويب. خوارزمية البيج رانك تعتمد بشكل رئيسي على معلومتين: الروابط الداخلة لصفحة س، وهي الوصلات التي تشير إلى الصفحة س من صفحات أخرى، والروابط الخارجة من الصفحة س، وهي الوصلات التي تشير إلى صفحات أخرى من الصفحة س.[13] البيج رانك تعتمد على فكرة البريستيج المستخدمة في تحليل الشبكات الاجتماعية.[11] الفكرة الرئيسية للبيج رانك هي كما يلي:[13] 1. كلما كان هنالك روابط تشير إلى الصفحة س، كلما زاد الدعم، كلما زادت قيمة البريستيج. 2. كلما زاد عدد الصفحات ذات البريستيج العالي التي تشير إلى الصفحة س، كلما زادت أهمية الصفحة س.
بينما البيج رانك لا يعتمد على الاستعلام، هيتس تعتمد على الاستعلام. عندما يقوم المستخدم بالاستعلام عن شيء ما، هيتس تحاول جمع مجموعة من صفحات الويب ذات الصلة التي تم إرجاعها بواسطة محرك البحث. ثم يقوم بإعطاء تقديرات عددية تسمى اوزان المحور والسلطة باستخدام نهج متكرر. يطلق على الصفحة سلطة إذا كان لديها العديد من الروابط الداخلة، بمعنى ان الصفحة تحتوي على محتوى موثوق به وكثير من الناس يؤيدون ذلك. يطلق على الصفحة محور إذا كان لديها العديد من الروابط الخارجة.[14] الصورة 2[2] توضح مثالا على مجموعة من السلطات والمحاور. لمزيد من التفاصيل حول حسابات هيتس، يمكن العثور عليها في.[12][14] يتم حساب البيج رانك، والسلطة، والمحور باستخدام طريقة تكرار القوة.[2] ب. اكتشاف المجتمعاتويمكن أيضا استخدام بنية شبكة لاكتشاف مجموعة من المساهمين في المحتوى، أو ما يسمى مستخدمي المجتمعات، والذين تربطهما مصالح مشتركة؛ يمكن رؤية كل مجتمع على أنها مجموعة من صفحات الويب المترابطة.[15] هناك ثلاثة أسباب رئيسية لاكتشاف المجتمعات:[15] 1. المجتمعات تمتلك في كثير من الأحيان على المعلومات الأكثر قيمة، ذات الصلة، ومحدّثة للمستخدمين المعنيين في تلك المعلومات. 2. المجتمعات تجعل الإنترنت أكثر الاجتماعية، والناس الذين يهتمون في التطور الفكري للويب يستطيعون دراسة تلك المجتمعات. 3. المجتمعات يمكنها أن تخدم الدعايات الموجهة على مستوى دقيق جدا.
3. تنقيب محتوى الويبنعني بتنقيب محتوى الويب استخدام محتويات صفحات الويب لاستخراج المعلومات المفيدة.[17] تصنيف وتجميع صفحات الويب وفقا لمواضيعهم هي أمثلة على المهام التي تقع ضمن تنقيب محتوى ويب. هذه المهام هي مماثلة لتلك المستخدمة في استخراج البيانات التقليدية.[2] مع ذلك، هناك مهام على شبكة الإنترنت التي لا تعتبر مهام استخراج التقليدية. تشمل الأمثلة استخراج آراء العملاء من مراجعات العملاء ومشاركات الشبكات الاجتماعية، واستخراج مواصفات المنتجات بالإضافة إلى تحليل المشاعر وغيرها الكثير.[2] في الفقرات التالية، سأقوم بمناقشة المهام الرئيسية المستخدمة في تنقيب محتوى الويب بشكل مختصر.
أ. استخراج البينات المهيكلة: توليد المُجمِّعواحدة من المشاكل الواضحة التي تواجهنا عند استخراج المعلومات هي استخراج بنود المعلومات من صفحات ويب. استخراج المعلومات من نص اللغة الطبيعية يُدرس على نطاق واسع من قبل مجتمعات معالجة اللغة الطبيعية (NLP) البحثية. التحدي من منظور تنقيب ويب هو استخراج البيانات المهيكلة من صفحات الويب.[2]
1. النهج اليدوي: يعتمد هذا النهج كليا على المبرمجين البشريين من خلال مراقبة صفحة ويب وكود المصدر. ثم يستخرج المبرمج القواعد ومن ثم يطور برنامج قائم على هذه القواعد لاستخراج المعلومات المستهدفة. هذا النهج من الواضح غير قابل لاستيعاب صفحات مختلفة أخرى. 2. استقراء المُجمِّع: يعتمد هذا النهج على أساليب التعلم ضمن بيانات معروفة سابقا، حيث يتم تعلم القواعد من صفحات الموصوفة بشكل مسبق أو سجلات البيانات. ثم يتم تطبيق هذه القواعد على صيغ مماثلة لاستخراج عناصر البيانات. مثال على نظام يعتمد على هذا النهج هو النظام ستوكر.[18] 3. الاستخراج التلقائي: هذا النهج يتغلب على جهود وضع العلامات المسبقة يدويا. وهي تعتمد على أساليب التعلم الغير خاضعة للرقابة، والتي يتم استخراج قواعد عناصر البيانات. مثال على هذه التقنية آي إي باد (IEPAD).[19] ب. تكامل المعلوماتفي القسم السابق، ناقشنا بإيجاز كيفية استخراج البيانات على شبكة الإنترنت وتخزينها في مصدر بيانات مهيكل. مع ذلك، جمع البيانات من عدد كبير من المواقع على شبكة الإنترنت يضيف بعدا آخر من التعقيد، ألا وهو تكامل البيانات.[2] من خلال التكامل، فإننا نعني أساسا أمرين:[2] 1. مطابقة الأعمدة في الجداول المختلفة التي تحتوي على نفس النوع من البيانات. 2. مطابقة القيم التي تكون متطابقة دلاليا، ولكن تكون مُمَثّلة بشكل مختلف في أماكن مختلفة.
2. مطابقة المجال والبيانات فقط: يتم اعتماد البيانات مع معلومات المجال لكل عمود. 3. مطابقة المخطط، والمجال، والبيانات: يتم اعتماد البينات مع معلومات المجال لكل عمود بالإضافة لمعلومات المخطط. وتوجد عدة طرق لجميع الانواع أعلاه. أما النوع الثاني، وهو مطابقة المجال والبيانات فقط، وهي الحالة الأكثر شيوعا التي تتم في الويب لأنه غالبا يتم إخفاء المخطط.[2] النوع الثالث عادة ما يُمثل مزيجا من التقنيات من النوعين الأولين.[2] مناقشة أكثر تفصيلا لهذه الطرق يمكن العثور عليها في.[20][21] ت. تنقيب الآراء وتحليل المشاعركجزء من الويب يحتوي على البيانات المهيكلة، يحتوي أيضا على كمية هائلة من البيانات غير المهيكلة. هذه البيانات عادة ما تكون نصوص غير مهيكلة. واحدة من مهام التنقيب محتوى الويب الهامة التي تتعامل مع هذه البيانات هو تنقيب الرأي، الذي يجرد المشاعر الإيجابية أو السلبية.[2] وسائل الإعلام الاجتماعي ينمو بسرعة على شبكة الإنترنت بما في ذلك الوظائف شاغرة، المراجعات، المدونات، والمنتديات، ومواقع الشبكات الاجتماعية مثل الفيس بوك وتويتر. هذه المحتويات هي ذات أهمية كبيرة بالنسبة لكثير من الأفراد والمؤسسات وتساعدهم على اتخاذ القرارات.[2] يمكن للأفراد ان تجد العديد من المرجعات على بعض المنتجات على شبكة الإنترنت. المؤسسات عادة تهتم في معرفة آراء عملائهم من المعلومات المتاحة للجمهور على شبكة الإنترنت.[2]
1. استخراج جميع الكيانات في M وتجميعها في مجاميع، بحيث كل مجموعة تمثل كيان وحيد ei. 2. استخراج منيع الجوانب وتجميعها في مجاميع، بحيث كل مجموعة تمثل جانب وحيد aij. 3. استخراج صاحب الرأي ومعلومة الوقت. 4. القيام بتصنيف جوانب العاطفة لتحديد إن كان الرأي ايجابيا أو سلبيا أو محايدا. 5. وأخيرا، تجميع جميع خماسيات الآراء (ei; aij ; ooijkl; hk; tl) في M كنتيجة من المهام أعلاه. 4. تنقيب استخدام الويبيشير تنقيب استخدام شبكة الإنترنت لعملية اكتشاف أنماط الاستخدام من البيانات على الويب.[22] يتم تمثيل البيانات الأولية المستخدمة في هذه العملية من خلال سجلات الاستخدام، التي تسجل التفاعلات بين المستخدم وموقع ويب. هذا يتضمن بيانات مثل نقرات المستخدمين، تاريخ ووقت الوصول، عناوين IP، الخ. سجلات الاستخدام عادة ما تكون موجودة على خوادم كما حال سجلات الدخول الملقم وسجلات تطبيق ويب.[22] وعلى غرار عملية استخراج البيانات[10]، غالبا ما تنقسم عملية تنقيب استخدام الإنترنت إلى 3 مراحل، وهي: معالجة مسبقة، اكتشاف الانماط، وتحليل الانماط.[22] صورة 3[2] تُظهر هذه المراحل. في المرحلة الأولى، مرحلة ما قبل المعالجة، يتم تحويل بيانات الاستخدام إلى تجريدات، والتي تمثل التفاعلات لمستخدم ضمن موقع الويب. يمكن أن تشارك أنواع أخرى من البيانات في هذه المرحلة بما في ذلك بيانات حقيقية في صفحات الموقع، والبيانات التي تصف بنية صفحات الويب، والبيانات التي تمثل معلومات ديموغرافية عن المستخدمين.[22]
1. التحليل الإحصائي: باستخدام الأساليب الإحصائية المختلفة، يمكن أن نجد العديد من المتغيرات التي تهمنا مثل: تصفح الصفحات، وصفحات التي يتم الوصول إليها في أغلب الأحيان، ووقت العرض للصفحات، وأطوال المسارات التنقليّة. 2. قواعد تكوين الروابط: توليد مثل هذه القواعد يمكن أن تستخدم لربط الصفحات أو العناصر التي تم الوصول إليها أو شراؤها بشكل متكرر من قبل المستخدمين. وهكذا، يتم مساعدة مصممي الويب لتنظيم محتوى مواقع الويب الخاصة بهم بكفاءة. 3. التكتل: باستخدام تقنيات التكتل، يمكننا اكتشاف مجموعتين، وهم: مجموعات المستخدمين ومجموعات الصفحات. مجموعات المستخدمين الذين لديهم أنماط التصفح نفسها يمكن أن تكون مفيدة جدا لفرق التسويق، على سبيل المثال، لتزويدهم بمحتويات شخصية. 4. أنماط التسلسل: عن طريق تنقيب أنماط التسلسل، يمكننا معرفة المسارات التنقليّة المتكررة للمستخدمين. كمثال على هذا التنقيب أن يكون شيء من هذا القبيل "على موقع ويب اتش كاريرز، 10% فقط من المستخدمين زار الصفحة الرئيسية، ثم صفحة الوظائف، وأخيرا صفحة العرض".
5. الخلاصة واتجاهات مستقبليةمصدر البيانات كالويب، يُعد جديرا جدا للتنقيب واستخراج المعرفة. من ناحية، ثراء وتنوع المعلومات على الويب جعله مصدرا قيما للمعلومات يمكننا من خلاله استخراج الكثير من المعارف المفيدة. من ناحية أخرى، فإنه يجعل عملية التنقيب أكثر صعوبة وأكثر تعقيدا من عملية تنقيب البيانات التقليدية، وخاصة في غياب هيكلية محددة مسبقا.
انظر أيضًاالمراجع
Books
Bibliographic references
Related Conference
وصلات خارجية
|