توضیحات محصول
دانلود پاورپوینت اسپم و فیلترکردن عمومی آن با استفاده از روش Naïve Bayesian با فرمت ppt و در 28 اسلاید قابل ویرایش
قسمتی از متن پاورپوینت
— پاورپوینت شامل تصاویر میباشد —-
اسلاید ۱ :
رئوس مطالب
- مروری بر پدیده اسپم
- روشهای مبتنی بر یادگیری برای فیلترکردن اسپم ها
- روش Naïve Bayesian برای فیلترکردن اسپم
- معیارهای ارزیابی
- بررسی نتایج
-
اسلاید ۲ :
ایمیل های اسپم
- Spam/junk/bulk Emails
- پیغامهایی در Inbox شما هستند که شما آن ها را نخواسته و زمانی را برای بیرون انداختن آنها صرف می کنید.
- در مقابل آن : نامه های الکترونیکی معتبر یا ham
- ۷۵-۸۰% از حجم نامه های الکترونیکی را اسپم ها (spam) تشکیل می دهند
- باعث ایجاد ترافیک شده و فضای حافظه و قدرت محاسباتی را از بین می برد
- باعث ضرر اقتصادی
- هزینه ای بالغ بر ۵۰ میلیون دلار بر اقتصاد امریکا در سال ۲۰۰۵ وارد ساخته
- با توجه به شخص و سازمان گیرنده ایمیل، اسپم ها تعریف می گردند
- ایمیل های در حوزه هنر برای شخصی که علاقه ای به هنر ندارد اسپم تلقی می شود
-
-
اسلاید ۳ :
نمونه هایی از ایمیل های اسپم
- Subject: AWARD CONFIRMATION
We wish to congratulate you over your email success in our computer BALLOTING SWEEPSTAKE held on 16th Nov, 2007. This is a millennium scientific computer game in which email addresses were used. It is a promotional program aimed at encouraging internet users; therefore you do not need to buy ticket to enter for it.
- “ You have won!!!!“, you are almost winner of $…
- “Your order”, your item$ have to be $hipped
- “Lose your weight”, no subscription required
- “Assistance required”, an amount of million 25 US$
-
- “Download it”, free celebrity wallpapers download
-
-
اسلاید ۴ :
برخی از اهداف ایمیل های اسپم
- بیشتر به منظور اهداف اقتصادی است
- تبلیغ برای یک کالای خاص، سرویس خاص و یا یک ایده خاص
- فریب کاربران برای استفاده از اطلاعات محرمانه آنها ß phishing
- انتقال یک نرم افزار خرابکار به کامیپوتر کاربر (مثلاً ویروس)
- ایجاد یک خرابی به صورت موقتی در Mail-Server
- ایجاد ترافیک
- پخش مطالب غیراخلاقی
üاسپم ها دائما در حال تغییر محتوا و شکل هستند، برای اینکه توسط آنتی اسپم ها شناسایی نشوند.
اسلاید ۵ :
تکنیک های مبارزه با اسپم ها و کنترل آنها
- روشهای اقتصادی
- دریافت وجه برای ارسال ایمیل : مانند پروتکل Zmail
- روشهای قانون گذاری مانند قانون US-CAN SPAM
- امن سازی بسترانتقال ایمیل
- تغییر پروتکلهای انتقال ایمیل (مثل SMTP) و ارانه پروتکل های جایگزین مانند SenderId
- کنترل ایمیل های خروجی در برابر کنترل ایمیل های ورودی
- فیلترینگ ایمیل ها
۱- فیلترینگ براساس یکسری قاعده از پیش تعریف شده:
— if $SENDER$ contains “schacht” $ACTION$=$INBOX$ [HAM]
— if $SUBJECT$ contains “Win” $ACTION$=$DELETE$ [SPAM]
— if $BODY$ contains “%%Money%%” $ACTION$=$DELETE$ [SPAM]
مشکلات: قوانین ثابت، وابستگی به زبان، چه تعداد قانون؟، چه کسی باید قوانین را تعریف
کند
۲- فیلترینگ براساس لیست سیاه و سفید (Black list-white list)
ü۳- فیلترینگ مبتنی بر یادگیری (آماری) و با استفاده از ویژگیهای پیغامها
اسلاید ۶ :
فیلترینگ مبتنی بر یادگیری (آماری) و با استفاده از ویژگیهای پیغامها
- در یادگیری ماشینی برای عمل دسته بندی (Classification) از نمونه داده هایی (ایمیل هایی) که از قبل فراهم شده است(داده آموزش یا training) و هر یک دسته(کلاس،برچسب) مشخص دارد، استفاده کرده و دسته(کلاس) یک نمونه جدید(تست) را تعیین می کنیم.
-
-
- بردار پارامترها( ویژگی ها) θ حاصل آموزش دسته بند با استفاده از یک مجموعه داده است که قبلاً جمع آوری شده است
- نیز تابع آموزش (Training) می باشد
-
- تست داده جدید: m’ یک ایمیل جدید است و دسته آن را می خواهیم (spam or ham?)
اسلاید ۷ :
متدهای یادگیری
–داده های آموزش با کلاس(برچسب) مشخص، قبلا جمع آوری شده است و ما در طی دسته بندی از همین داده های ثابت استفاده می کنیم
- <email type=“HAM_email”>Soha! sorry cannot reach at 18:00</email>
- <email type=“spam”>hi, have you thought online credit?</email>
- ….
–
–کاربر طبقه بندی هایِ غلط دسته بند را تصحیح می کند و برچسب صحیح را معین می کند؛ به این ترتیب حجم داده آموزش به تدریج افزوده می شود و دانش دسته بند افزایش می یابد
- مثال: در سرویس ایمیل Yahoo! می توان بر روی “spam” و یا “not spam” کلیک کرد و بدین ترتیب Yahoo! از کاربر Feedback می گیرد
اسلاید ۸ :
مراحل مدل
–داده های آموزش شامل ایمیل های برچسب خورده
–دو کلاس مشخص: Spam و Ham
–استخراج ویژگی ها
- توکن بندی متن ßتشخیص کلمات ßحذف Stopwords(مثل if,and اگر، به، با،…)ß ریشه یابی کلمات (Stemming) ßحذف علامات نقطه گذاری مثل ؛ ، ….ß ویژگیهای به صورت لغت
- عبارات دست ساخته که متمایز کننده می باشند مثل$$Money$$
- ویژگی های مشخصه دامنه مثل To، From، تاریخ ارسال پیام، اندازه پیام، …
–انتخاب ویژگی های برتر : Feature Selection
–دسته بندی ایمیل به عنوان اسپم و یا ایمیل معتبر
- دسته با احتمال بیشتر = برچسب کلاس
–ارزیابی نتایج (Precision/Recall)
اسلاید ۹ :
ویژگی(مشخصه) های یک پیام الکترونیکی
- این ویژگی ها نشانه هایی برای دسته بندی یک پیغام به اسپم و یا ایمیل معتبر است
- ویژگی های یک ایمیل
–کلمات (توکن ها)
- free, win, online, weight, fortune, offer ،…
–عبارات
- “Free”, “only$”, “order now!”،…
–کاراکترهای خاص
–سرآیند ایمیل (وابسته به دامنه)
- نام فرستنده، آدرس ایمیل فرستنده و گیرنده، نام دامنه (مثل .edu، .ir، .com)، آدرس های IP
اسلاید ۱۰ :
ماتریس بردار ویژگی ها (با مقادیر باینری)
کلمات و عبارات همان ویژگی ها هستند، اگر در آن سند/ایمیل موجود باشند ، مقدارشان برابر ۱ بوده
و اگر در آن سند/ایمیل موجود نباشند مقدارشان برابر صفر خواهد بود
...
بیشتر
دیدگاه خود را ثبت کنید