دانلود پاورپوینت خلاصه سازی متن با فرمت pptودر 47 اسلاید قابل ویرایش
قسمتی از متن پاورپوینت
تاریخچه
شروع خلاصه سازي متن به سال 1950 برمی گردد.
به دلیل کمبود کامپیوترهاي قدرتمند و مشکلات موجود براي پردازش زبانهاي طبیعی کارهاي اولیه بروي مطالعه ظواهر متن مانند (موقعیت جمله و ، عبارات اشاره) ، متمرکز شده بود.
سال 1970 تا 1980 هوش مصنوعی بکار آمد .
Kupiec اولین الگوریتم مبتنی بر یادگیري را پیشنهاد داد. او عمل خلاصه سازي را به صورت یک مسئله دسته بندي ، درنظر گرفت و دسته بندي کننده هاي بیزین را براي تعیین جملاتی که باید در خلاصه وارد شود ، بکار برد.
Chuang و Yangچندین الگوریتم مانند درخت تصمیم و دسته بنديکننده رابراي استخراج قطعات جمله پیشنهاد دادند . این روش خلاصه سازي اسناد در یک حوزه خاصعملکرد خوبی دارد.
Elhadad و Barzilay خلاصه هایی با پیدا کردن زنجیره هاي لغوي ایجاد کردند که به توزیع کلمه و اتصالات لغوي بین آنها ، براي تقریب زدن محتوا و ارائه یک نمایش از ساختار لغوي بهم پیوسته متن اتکا می کرد
خلاصه سازي
به ايجاد يک نمايش مختصرتر از يک دسته اطلاعات توسط يک برنامه کامپيوتري ، خلاصه سازي خودکارگفته ميشود.
کاربردها
• نمايش خلاصهاي از اطلاعات يافت شده توسط موتورهاي جستجو
• خلاصه کردن و مقايسه معالجات پيشنهاد شده براي يک بيمار
• توليد توصيه نامه مختصري بر يک کتاب و تبدیل کتابخانه ها به خلاصه ها
• و ...
Other Applications
•Abstracts for Scientific and other articles
•News summarization(mostly Multiple document summarization)
•Classification of articles and other written data
•Web pages for search engines
•Web access from PDAs, Cell phones
•Question answering and data gathering
انواع مدل هاي خلاصه سازي متن
1- استخراج جملات مهم از متن اصلي
2- ارائه مضمون اصلي متن را در قالب جملات جديد
خلاصه سازی تک سنده و خلاصه سازی چند سنده :
در تک سنده ، فقط با یک متن سروکار داریم.
در چند سنده ، روی چند تا متن پردازش انجام می دهیم.
ویژگی های خلاصه سازی
منبع (ورودي)
منبع : تک سنده ، چند سنده
زبان : تک زبانه ، چند زبانه
دسته : اخبار ، گزارش فني ، مقاله علمي و ... .
اختصاصي : زمينه خاص ، عمومي.
طول : کوتاه ( 1 تا 2 صفحه) ، بلند (بيش از 50 صفحه) .
رسانه : متن ، رسم ، سمعي ، تصويري ، چند رسانهاي و ... .
هدف
کاربرد : عمومي ، پرسش گرا (به اطلاعات خاص مورد نياز توجه دارد)
هدف : متن خلاصه براي چه منظوري استفاده ميشود؟ (هشدار، پيش نما، آگاهي، خلاصه تهيه اطلاعاتي از زندگي نامه)
کاربر : بدون هدف ، هدفمند (کاربر خاصي موردنظر است)
ترکيب (خروجي)
اشتقاق : استخراج ، چکيده ·
فرمت : متن ، جدول ، نمايشهاي جغرافيايي ، خطوط زمان ، نمودار، تصوير ·
رويکردهاي خلاصه سازي خودکار متن
الگوريتم ها را درسه سطح surface و entity و discourse بررسي ميکنيم.
سطح Surface : از ويژگي ها ي سطحي براي پردازش استفاده ميکنند
◦فرکانس کلمه : جملات مهم آنهايي هستند که دربردارنده کلمات با تعداد رخداد بالا مي باشند. سيستمهاي خلاصه سازي اوليه مستقيما از توزيع کلمه در منبع استفاده ميکردند.
◦
◦موقعيت : فرض را بر اين ميگيرد که جملات مهم بسته به نوع متن ، معمولا در موقعيت هاي مشخصي قرار دارند. چند قاعده کلي مثل روش تقدم و روش مبتني بر عنوان هم وجود دارند. روش تقدم تنها جملات اول را انتخاب ميکند. در روش مبتني بر عنوان ، کلمات تشکيل دهنده عنوان و سرصفحه در تهيه خلاصه نقش دارند. از موارد تعميم اين روشها ميتوان به OPP اشاره کرد که در سيستم SUMMARIST استفاده شده است . آنها در اين سيستم از روشهاي يادگيري ماشين براي شناسايي موقعيت اطلاعات مرتبط در انواع متني مختلف استفاده کردند.
◦
◦باياس : ارتباط واحدهاي معني دار، يا حضور کلماتي از عنوان يا سرفصل ، بخش آغازين متن يا تعداد کلمات پرسش گونه را به عنوان ويژگي درنظر ميگيرد.
◦
سطح Surface
کلمات اشاره: نشاني از ارتباط يا بي ارتباطي هستند . آنها معمولا نشانه هاي غيرنمادين زبانشناختي هستند. (اشاراتي مانند : "بطورخلاصه" ، "درنتيجه" ، " در اين مقاله قصد داريم " و يا تاکيد کننده هايي مانند : "بطورقابل توجهي" ، "مهم" ، "بخصوص" ، "به ندرت" ، "غيرممکن") و همچنين عبارات تشويقي و کلمات مطرح در حوزه خاص نيز مي تواند در نظرگرفته شود.
گرچه ليست اين عبارات به صورت دستي ساخته ميشود، اما مي توان به صورت خودکار هم آنها را تشخيص داد.
سطح entity
}رويکردهاي سطح موجوديت با مدل کردن موجوديتهاي متن (کلمات ساده ، مرکب و اسمي خاص، جملات و...) ، يک نمايش داخلي از متن و روابط آنها (موجوديتها) مي سازد. روابط بين موجوديتها شامل موارد زير است :
}مشابهت : کلمات مشابه آنهايي هستند که شکل مشابهي دارند. مثل کلماتي که ريشه يکسان دارند (مثل شبيه و شباهت) . مي توان از دو معيار مشابهت براي تعيين تعلق يک جمله به يک بافت بزرگتر استفاده کرد :1- مشابهت بين يک جمله و مابقي سند2- مشابهت بين جمله و عنوان سند .
}مجاورت : فاصله بين دادههاي متني که موجوديتها را شامل ميشوند ، يک فاکتور تعيين کننده براي برقراري روابط بين موجوديتها است.
}پيوستگي : اتصالات طبق این حقیقت عمل می کنند که واحدهاي متنی مهم معمولا شامل موجودیتهایی هستند که بعضا ساختارهاي معنایی اتصال قوي دارند :
◦هم_رخدادي : کلماتی که در بافتهاي مشترك ظاهر می شوند ، می توانند بهم مرتبط
◦هم_ ارجاعی : عبارات ارجاع دهنده(مرجع ) می توانند بهم لینک شوند.
◦و ...
}روابط معنايي مبتني بر نمايش : روابط معنایی در بين موجوديتها برقرار ميکند
فرمت خروجی
فرمت خلاصه ملاك دیگري براي دسته بندي روشهاي خلاصه سازي متن است
در چکیده متن ، که امر چالش انگیزتري است ، متن اصلی به روش زبان شناختی عمیقی تجزیه می شود ، سپس متن در قالب یک نمایش قراردادي ، به صورت معنایی تفسیر می شود . مفاهیم مختصر بیشتري براي توصیف متن و در پی آن تولید یک متن کوتاه جدید ، یعنی یک چکیده ، از اطلاعات پایه یکسان کشف می شوند.
در مقابل ، استخراج به معنی تشخیص عبارت مرتبط در یک یا چند سند است، که اغلب با تکنیکهاي استاندارد بازیابی اطلاعات مبتنی بر آمار که با پردازش کم و بیش سطحی زبانهاي طبیعی و دسته یا اکتشاف هاي خاص زبانی تکمیل شده است ، استفاده می شود. سپس این عبارات (اغلب جملات و اصطلاحات ) استخراج شده ، و بهم متصل می شوند ، تا یک خلاصه بدون افزونگی را شکل دهند که کوتا ه تر از سنداصلی و با حداقل تلفات ممکن در اطلاعات است. گاهی این قطعات استخراج شده ، مورد پس _ویرایش قرار می گیرند. اکثر کارهایی که در زمینه خلاصه سازي انجام شده است براساس استخراج است
دیدگاه خود را ثبت کنید