با پیدایش روشهای یادگیری عمیق، مدلهای دنباله به دنباله با هدف ترجمه ماشینی یک جمله مبدأ به یک جمله مقصد ارائه شدند و از همین ایده برای ترجمه یا تبدیل یک متن به شکل خلاصهشده آن استفاده گردیده است. خلاصههایی که به این روش تولید میشوند از نظر ساختاری خواناتر بوده و مع چکیده کامل
با پیدایش روشهای یادگیری عمیق، مدلهای دنباله به دنباله با هدف ترجمه ماشینی یک جمله مبدأ به یک جمله مقصد ارائه شدند و از همین ایده برای ترجمه یا تبدیل یک متن به شکل خلاصهشده آن استفاده گردیده است. خلاصههایی که به این روش تولید میشوند از نظر ساختاری خواناتر بوده و معمولاً معنای کاملی را به خواننده منتقل میکنند. در چنین ساختارهایی برای بازنمایی معنایی واژهها از بردارهای جانمایی کلمات استفاده میشود که در آن، وزن هر کلمه با توجه به کلمات مجاور آن از یک پیکره بزرگ آموزش داده میشود. در حالت کلی وزن این بردارها با انتخاب یک پنجره مجاورت برای هر کلمه بهدست میآید؛ اما در مدلهای زبانی بافتاری مانند برت برای محاسبه وزن این کلمات از مبدلهای چندلایه استفاده میشود که به تمامی کلمات موجود در متن توجه میکنند. تاکنون مقالات متعددی نشان دادهاند که مدلهای زبانی بافتاری بهدلیل قابلیت ریزتنظیم وزنها برای انجام یک وظیفه پردازش زبان طبیعی خاص، موفقتر از سایر روشهای جانمایی کلمات عمل میکنند؛ اما بررسی عملکرد وزن اولیه این مدلها برای کاربست در تولید عنوان در زبان فارسی مورد توجه قرار نگرفته است.
در این مقاله به بررسی رفتار جانمایی کلمات بهصورت پیشآموزشدادهشده و بدون ریزتنظیم آنها در تولید عنوان از متون فارسی میپردازیم. برای یادگیری مدل از «علمنت» که یک پیکره فارسی شامل حدود 350 هزار جفت چکیده و عنوان مقالات علمی میباشد، استفاده شده است. نتایج نشان میدهند استفاده از مدل برت حتی بدون ریزتنظیم وزنهای آن در بهبود کیفیت عناوین فارسی تولیدشده تأثیرگذار بوده و معیار 1-ROUGE را در فارسی به 42% میرساند که بهتر از سایر مدلهای جانمایی است.
پرونده مقاله
رتبهبندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستمهای بازیابی اطلاعات ایفا میکند. این مقاله یک رویکرد جدید برای رتبهبندی اسناد با استفاده از مدلهای درونسازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبهبندی ارائه میکند. رویکرد پیشنهادی از روشهای د چکیده کامل
رتبهبندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستمهای بازیابی اطلاعات ایفا میکند. این مقاله یک رویکرد جدید برای رتبهبندی اسناد با استفاده از مدلهای درونسازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبهبندی ارائه میکند. رویکرد پیشنهادی از روشهای درونسازی واژگان برای بهتصویرکشیدن نمایشهای معنایی پرسوجوهای کاربر و محتوای سند استفاده میکند. با تبدیل دادههای متنی به بردارهای معنایی، ارتباط و شباهت بین پرسوجوها و اسناد تحت روابط رتبهبندی پیشنهادی با هزینه کمتر مورد ارزیابی قرار میگیرد. روابط رتبهبندی پیشنهادی عوامل مختلفی را برای بهبود دقت در نظر میگیرند که این عوامل شامل بردارهای درونسازی واژگان، مکان واژگان کلیدی و تأثیر واژگان باارزش در رتبهبندی بر مبنای بردارهای معنایی است. آزمایشها و تحلیلهای مقایسهای برای ارزیابی اثربخشی روابط پیشنهادی اعمال گردیده است. نتایج تجربی، اثربخشی رویکرد پیشنهادی را با دستیابی به دقت بالاتر در مقایسه با روشهای رتبهبندی رایج نشان میدهند. این نتایج بیانگر آن مسئله است که استفاده از مدلهای درونسازی و ترکیب آن در روابط رتبهبندی پیشنهادی بهطور قابل توجهی دقت رتبهبندی را تا 87/0 در بهترین حالت بهبود میبخشد. این بررسی به بهبود رتبهبندی اسناد کمک میکند و پتانسیل مدل درونسازی BERT را در بهبود عملکرد رتبهبندی نشان میدهد.
پرونده مقاله