مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 23 4 2026 3 23 Proposing Two Data Augmentation Techniques for ASR with Limited Data: Gradual Masking and Word Frequency-Aware Masking ارائه دو روش داده‌افزایی برای بازشناسی گفتار با دادگان محدود: پوشاندن تدریجی و پوشاندن آگاه از فراوانی کلمات 233 245 fa مریم اسداله زاده کرمانشاهی دانشكده مهندسی كامپيوتر، دانشگاه علم و صنعت ايران احمد اکبری ازیرانی دانشگاه علم و صنعت ایران بابک ناصرشریف K. N. Toosi 2025 6 4 Data scarcity is the main challenge for DNN-based speech recognition, and data augmentation serves as an effective solution. This paper presents a comprehensive taxonomy of data augmentation methods in speech recognition while investigating the effectiveness of the most important techniques in this domain, masking-based methods, under limited data conditions. The examined methods include two powerful approaches: SpecAugment and word masking. Despite their proven effectiveness in high-resource scenarios, these methods have been less studied under limited data conditions. After analyzing the shortcomings of word masking in limited data settings, we propose two novel methods: (1) Gradual masking, which begins training with frame-level masking and then transitions to word-level masking; and (2) Word frequency-aware masking, which masks high-frequency words first, followed by low-frequency words. Experiments on the 100-hour LibriSpeech subset demonstrate that our first proposed method achieves a WER of 6.8% on the clean test set and 18.2% on the challenging test set, representing improvements of 6.8% and 4.2% respectively over SpecAugment. The second proposed method reaches a WER of 6.6% on the clean test set and 17.3% on the challenging test set, achieving improvements of 9.6% and 8.9% respectively compared to SpecAugment. کمبود داده، چالش اصلی بازشناسی گفتار مبتنی بر شبکه&zwnj;های عصبی عمیق است و داده&zwnj;افزایی یک راه&zwnj;حل مؤثر برای این مسئله می&zwnj;باشد. این مقاله ضمن ارائه طبقه&zwnj;بندی جامع روش&zwnj;های داده&zwnj;افزایی در بازشناسی گفتار، به بررسی اثربخشی مهم&zwnj;ترین روش&zwnj;های این حوزه یعنی روش&zwnj;های مبتنی بر پوشاندن در شرایط محدودیت دادگان می&zwnj;پردازد. روش&zwnj;های مورد بررسی دو روش قدرتمند SpecAugment و پوشاندن کلمه هستند. این روش&zwnj;ها علی&zwnj;رغم کارایی اثبات&zwnj;شده در شرایط دادگان فراوان، در شرایط دادگان محدود، کمتر مطالعه شده&zwnj;اند. در تحقیق حاضر، پس از تحلیل معایب روش پوشاندن کلمه در شرایط دادگان محدود، دو روش نوآورانه برای رفع این ایرادات ارائه می&zwnj;دهیم: (1) پوشاندن تدریجی که آموزش را با پوشاندن در سطح فریم آغاز و سپس به پوشاندن کلمه تغییر می&zwnj;دهد؛ (2) پوشاندن آگاه از فراوانی کلمات که ابتدا کلمات پرتکرار و سپس کلمات کم&zwnj;تکرار پوشانده می&zwnj;شوند. آزمایشات روی مجموعه 100 ساعتی پیکره LibriSpeech نشان می&zwnj;دهد روش پیشنهادی اول به WER 8/6% در مجموعه تمیز و 2/18% در مجموعه چالش&zwnj;برانگیز رسیده که به&zwnj;ترتیب 8/6% و 2/4% بهبود نسبت به روش رقابتی SpecAugment حاصل کرده است. روش پیشنهادی دوم نیز به WER 6/6% در مجموعه تمیز و 3/17% در مجموعه چالش&zwnj;برانگیز رسیده که به&zwnj;ترتیب 6/9% و 9/8% بهبود نسبت به SpecAugment کسب کرده است.

http://ijece.org/fa/Article/Download/50484