دوره 9، شماره 3 - ( پاییز 1402 )                   دوره 9 شماره 3 صفحات 135-111 | برگشت به فهرست نسخه ها

XML English Abstract Print


1- دانشگاه تربیت مدرس ، rezghi@modares.ac.ir
2- دانشگاه تربیت مدرس
چکیده:   (304 مشاهده)
رشد سریع و پیوسته شبکه جهانی وب باعث شده است فرآیند استخراج اطلاعات مفید با حجم کمینه، از میان مجموعه‌ی اسناد بزرگ چالش جدی این روزها باشد. خلاصه­سازی اسناد برای انسان امری بسیار زمان‌بر و دشوار است، ولذا نیاز به یک سیستم خلاصه­سازی قدرتمند را برای کاهش حجم متون و همچنین سرعت بالاتر دسترسی به اطلاعات مفید را آشکار می­کند. اخیرا سیستم خلاصه­سازی مبتنی بر رویکرد نمایش تنک ارائه شده است که سعی بر آن دارد تا هر جمله را با ترکیب خطی از جملات دیگر به صورت تنک بازسازی کند. در این رویکرد زیر مجموعه‌ای از جملات متن اصلی که حاوی اطلاعات مهم متن می‌باشد را انتخاب کرده و به عنوان خلاصه به خروجی می­فرستد. همچنین نیاز است کم‌ترین تعداد از جملات متن که حداکثر بازسازی سایر جملات متن را داشته باشد انتخاب شود، که استفاده از رویکرد نمایش تنک این هدف محقق می‌کند. این مدل از یک تابع جریمه مبتنی بر نرم L2 برای کنترل بازسازی جملات و یک عامل منظم ساز تنک مبتنی بر نرم یک تشکیل شده است. تابع بازسازی بر اساس نرمL2  سبب می‌شود که تمام کلمات کلیدی نقش مساوی در بازسازی جملات داشته باشند که این امر ممکن است باعث شود کلمات پرت نتیجه خلاصه­سازی را عوض کنند. بنابراین برای بهبود کیفیت خلاصه به دست آمده در این مقاله تابع جریمه را با نرم L1 بازنویسی می‌کنیم. این امر باعث ‌می‌شود تا میزان خطای متفاوتی برای هر کدام از کلمات در بازسازی جملات اختصاص یابد که موجب کمتر شدن حساسیت روش به کلمات پرت می­شود. نتایج پیاده سازی نشان می­دهند که روش پیشنهادی نسبت به روش‌های قبلی خلاصه‌ای سریع و با کیفیت بالا بر مبنای معیارهای ROUGE[1] وF-measure  ارائه می‌دهد.
 
[1] Recall-Oriented Understudy for Gisting Evaluation
.
 
[1] Recall-Oriented Understudy for Gisting Evaluation
متن کامل [PDF 682 kb]   (94 دریافت)    
نوع مطالعه: مقاله استخراج شده از پایان نامه | موضوع مقاله: ریاضی
دریافت: 1399/4/31 | ویرایش نهایی: 1402/11/30 | پذیرش: 1401/2/2 | انتشار: 1402/10/10 | انتشار الکترونیک: 1402/10/10

بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.