مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 22 1 2024 7 7 On the Behavior of Pre-trained Word Embedding Variants in Deep Headline Generation from Persian Texts کاربست انواع جانمایی کلمات پیش‌آموزش‌داده‌شده در مدل‌های یادگیری عمیق برای تولید عنوان از متون فارسی 30 38 fa محمد ابراهیم شناسا دانشگاه آزاد اسلامی واحد علوم و تحقیقات، ایران بهروز مینایی بیدگلی دانشگاه علم و صنعت، ايران 2022 8 17 Inspired by sequence-to-sequence models for machine translation, deep-learning based summarization methods were presented. The summaries generated this way, are structurally more readable and usually convey the complete meaning to the reader. In these methods, embedding vectors are used for semantic representation, in which the weight of each word vector is learned according to its neighboring words from a large corpus. In static word embedding, the weight of the vectors is obtained by choosing a proximity window for each word. But in contextual ones like BERT, multilayer transformers are applied to calculate the weight of these vectors, which pay attention to all the words in the text. So far, several papers have shown that contextual word embedding are more successful than the other ones due to the ability of fine-tuning the weights to perform a specific natural language processing task. However, the performance of the initial weights of these vectors is not investigated for headline generation from Persian texts. In this paper, we will investigate the behavior of pre-trained word embedding variants without fine-tuning in deep headline generation from Persian texts. To train the headline generation model, "Elam Net" is used, which is a Persian corpus containing about 350 thousand pairs of abstracts and titles of scientific papers. The results show that the use of BERT model, even without fine-tuning its weights, is effective in improving the quality of generated Persian headlines, bringing the ROUGE-1 metric to 42%, which is better than the other pre-trained ones. با پیدایش روش‌های یادگیری عمیق، مدل‌های دنباله به دنباله با هدف ترجمه ماشینی یک جمله مبدأ به یک جمله مقصد ارائه شدند و از همین ایده برای ترجمه یا تبدیل یک متن به شکل خلاصه‌شده آن استفاده گردیده است. خلاصه‌هایی که به این روش تولید می‌شوند از نظر ساختاری خواناتر بوده و معمولاً معنای کاملی را به خواننده منتقل می‌کنند. در چنین ساختارهایی برای بازنمایی معنایی واژه‌ها از بردارهای جانمایی کلمات استفاده می‌شود که در آن، وزن هر کلمه با توجه به کلمات مجاور آن از یک پیکره بزرگ آموزش داده می‌شود. در حالت کلی وزن این بردارها با انتخاب یک پنجره مجاورت برای هر کلمه به‌دست می‌آید؛ اما در مدل‌های زبانی بافتاری مانند برت برای محاسبه وزن این کلمات از مبدل‌های چندلایه استفاده می‌شود که به تمامی کلمات موجود در متن توجه می‌کنند. تاکنون مقالات متعددی نشان داده‌اند که مدل‌های زبانی بافتاری به‌دلیل قابلیت ریزتنظیم وزن‌ها برای انجام یک وظیفه پردازش زبان طبیعی خاص، موفق‌تر از سایر روش‌های جانمایی کلمات عمل می‌کنند؛ اما بررسی عملکرد وزن اولیه این مدل‌ها برای کاربست در تولید عنوان در زبان فارسی مورد توجه قرار نگرفته است. در این مقاله به بررسی رفتار جانمایی کلمات به‌صورت پیش‌آموزش‌داده‌شده و بدون ریزتنظیم آنها در تولید عنوان از متون فارسی می‌پردازیم. برای یادگیری مدل از «علم‌نت» که یک پیکره فارسی شامل حدود 350 هزار جفت چکیده و عنوان مقالات علمی می‌باشد، استفاده شده است. نتایج نشان می‌دهند استفاده از مدل برت حتی بدون ریزتنظیم وزن‌های آن در بهبود کیفیت عناوین فارسی تولیدشده تأثیرگذار بوده و معیار 1-ROUGE را در فارسی به 42% می‌رساند که بهتر از سایر مدل‌های جانمایی است.

http://ijece.org/en/Article/Download/38931