رشد سریع و پیوسته شبکه جهانی وب باعث شده است فرآیند استخراج اطلاعات مفید با حجم کمینه، از میان مجموعهی اسناد بزرگ چالش جدی این روزها باشد. خلاصهسازی اسناد برای انسان امری بسیار زمانبر و دشوار است، ولذا نیاز به یک سیستم خلاصهسازی قدرتمند را برای کاهش حجم متون و همچنین سرعت بالاتر دسترسی به اطلاعات مفید را آشکار میکند
. اخیرا سیستم خلاصهسازی مبتنی بر رویکرد نمایش تنک ارائه شده است که سعی بر آن دارد تا هر جمله را با ترکیب خطی از جملات دیگر به صورت تنک بازسازی کند. در این رویکرد زیر مجموعهای از جملات متن اصلی که حاوی اطلاعات مهم متن میباشد را انتخاب کرده و به عنوان خلاصه به خروجی میفرستد. همچنین نیاز است کمترین تعداد از جملات متن که حداکثر بازسازی سایر جملات متن را داشته باشد انتخاب شود، که استفاده از رویکرد نمایش تنک این هدف محقق میکند. این مدل از یک تابع جریمه مبتنی بر نرم
L2 برای کنترل بازسازی جملات و یک عامل منظم ساز تنک مبتنی بر نرم یک تشکیل شده است. تابع بازسازی بر اساس نرم
L2 سبب میشود که تمام کلمات کلیدی نقش مساوی در بازسازی جملات داشته باشند که این امر ممکن است باعث شود کلمات پرت نتیجه خلاصهسازی را عوض کنند. بنابراین برای بهبود کیفیت خلاصه به دست آمده در این مقاله تابع جریمه را با نرم
L1 بازنویسی میکنیم. این امر باعث میشود تا میزان خطای متفاوتی برای هر کدام از کلمات در بازسازی جملات اختصاص یابد که موجب کمتر شدن حساسیت روش به کلمات پرت میشود. نتایج پیاده سازی نشان میدهند که روش پیشنهادی نسبت به روشهای قبلی خلاصهای سریع و با کیفیت بالا بر مبنای معیارهای
ROUGE[1] و
F-measure ارائه میدهد
.
[1] Recall-Oriented Understudy for Gisting Evaluation
.
[1] Recall-Oriented Understudy for Gisting Evaluation
نوع مطالعه:
مقاله استخراج شده از پایان نامه |
موضوع مقاله:
ریاضی دریافت: 1399/4/31 | ویرایش نهایی: 1402/11/30 | پذیرش: 1401/2/2 | انتشار: 1402/10/10 | انتشار الکترونیک: 1402/10/10