دانلود پاورپوینت کاوشگرهای وب معنایی با فرمت ppt ودر 34اسلاید قابل ویرایش
قسمتی از متن پاورپوینت کاوشگرهای وب معنایی
فهرست مطالب
•کاوشگر وب
•وب معنایی
•چالش های کاوشگر های سنتی برای وب معنایی
•کاوشگر های وب معنایی
•کاوشگر های متمرکز برای وب معنایی
•نتیجه گیری
کاوشگر وب
•برنامه ای است که به صورت خودکار، وب را از طریق دانلود کردن صفحات و دنبال کردن پیوند ها، از صفحه ای به صفحه ای دیگر، پیمایش می کند.
•جمع آوری داده
•اولین مولفه مورد نیاز برای ایجاد شاخص گذاری و بازیابی اسناد وب
•crawler، spider، robot، ...
رفتار کاوشگر
•چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه)
–محبوبیت محور
–علاقه محور
•چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی)
–بررسی به روز بودن صفحه
–اولویت به روز رسانی
•چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست politeness)
–مجوز کاوش سایت: فایل robot.txt
–رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت
•چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی)
–یک صفحه یکسان چندین بار توسط کاوشگرهای مختلف کاوش نشود.
روشهای پیوند اسناد در وب معنایی
•rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs ، owl:import
•پیوند های موجود در اسناد html که اشاره به یک سند با پسوند .rdf می کنند.
•دنبال کردن پیوند های A-Box و T-Box
– استدلال بر روی سه گانه ها (subject, predicate, object)
–T-Box: کلاس ها و خصیصه ها (شمای یک سند)
•URIهرpredicate
•URI مربوط به هر obejct، در صورتی که در سه گانه مورد نظر، predicate آن از نوع type باشد..
–A-Box: نمونههای تعریف شده
•URI مربوط به هر Subject و یا Object
چالش های کاوشگر های سنتی برای وب معنایی
•حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به کاوش جامع و کامل وب
•عدم اتصال کافی بین منابع
•تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد
•شیوه متفاوت پیوند بین منابع
•به روز رسانی اسناد
کاوش وب معنایی
•جمع آوری URI های اولیه
–وارد کردن URI توسط کاربر
–استفاده از خروجی موتور های جستجو و بعضی از سایت ها
•فیلتر های معنایی
–جلوگیری از واکشی و ذخیره داده های غیر معنایی
–انواع فیلتر ها: پروتکل - پسوند فایل - عبارات منظم – دامنه - پیشوند URI - نوع رسانه/محتوا
•پارسرهای معنایی
–Jena - Any23 – NxParser
–استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها
–چهارگانه = (subject, predicate, object, context)
دیدگاه خود را ثبت کنید