﻿<?xml version="1.0" encoding="utf-8"?>
<ArticleSet>
  <ARTICLE>
    <Journal>
      <PublisherName>مرکز منطقه ای اطلاع رسانی علوم و فناوری</PublisherName>
      <JournalTitle>فصلنامه مهندسی برق و مهندسی کامپيوتر ايران</JournalTitle>
      <ISSN>16823745</ISSN>
      <Volume>23</Volume>
      <Issue>4</Issue>
      <PubDate PubStatus="epublish">
        <Year>2026</Year>
        <Month>3</Month>
        <Day>23</Day>
      </PubDate>
    </Journal>
    <ArticleTitle>Proposing Two Data Augmentation Techniques for ASR with Limited Data: Gradual Masking and Word Frequency-Aware Masking</ArticleTitle>
    <VernacularTitle>ارائه دو روش داده‌افزایی برای بازشناسی گفتار با دادگان محدود: پوشاندن تدریجی و پوشاندن آگاه از فراوانی کلمات </VernacularTitle>
    <FirstPage>233</FirstPage>
    <LastPage>245</LastPage>
    <ELocationID EIdType="doi" />
    <Language>fa</Language>
    <AuthorList>
      <Author>
        <FirstName>مریم</FirstName>
        <LastName>اسداله زاده کرمانشاهی</LastName>
        <Affiliation>دانشكده مهندسی كامپيوتر، دانشگاه علم و صنعت ايران</Affiliation>
      </Author>
      <Author>
        <FirstName>احمد</FirstName>
        <LastName>اکبری ازیرانی</LastName>
        <Affiliation>دانشگاه علم و صنعت ایران</Affiliation>
      </Author>
      <Author>
        <FirstName>بابک</FirstName>
        <LastName>ناصرشریف</LastName>
        <Affiliation>K. N. Toosi</Affiliation>
      </Author>
    </AuthorList>
    <History PubStatus="received">
      <Year>2025</Year>
      <Month>6</Month>
      <Day>4</Day>
    </History>
    <Abstract>&lt;p style="direction: ltr;"&gt;Data scarcity is the main challenge for DNN-based speech recognition, and data augmentation serves as an effective solution. This paper presents a comprehensive taxonomy of data augmentation methods in speech recognition while investigating the effectiveness of the most important techniques in this domain, masking-based methods, under limited data conditions. The examined methods include two powerful approaches: SpecAugment and word masking. Despite their proven effectiveness in high-resource scenarios, these methods have been less studied under limited data conditions. After analyzing the shortcomings of word masking in limited data settings, we propose two novel methods: (1) Gradual masking, which begins training with frame-level masking and then transitions to word-level masking; and (2) Word frequency-aware masking, which masks high-frequency words first, followed by low-frequency words. Experiments on the 100-hour LibriSpeech subset demonstrate that our first proposed method achieves a WER of 6.8% on the clean test set and 18.2% on the challenging test set, representing improvements of 6.8% and 4.2% respectively over SpecAugment. The second proposed method reaches a WER of 6.6% on the clean test set and 17.3% on the challenging test set, achieving improvements of 9.6% and 8.9% respectively compared to SpecAugment.&lt;/p&gt;</Abstract>
    <OtherAbstract Language="FA">&lt;p&gt;کمبود داده، چالش اصلی بازشناسی گفتار مبتنی بر شبکه&amp;zwnj;های عصبی عمیق است و داده&amp;zwnj;افزایی یک راه&amp;zwnj;حل مؤثر برای این مسئله می&amp;zwnj;باشد. این مقاله ضمن ارائه طبقه&amp;zwnj;بندی جامع روش&amp;zwnj;های داده&amp;zwnj;افزایی در بازشناسی گفتار، به بررسی اثربخشی مهم&amp;zwnj;ترین روش&amp;zwnj;های این حوزه یعنی روش&amp;zwnj;های مبتنی بر پوشاندن در شرایط محدودیت دادگان می&amp;zwnj;پردازد. روش&amp;zwnj;های مورد بررسی دو روش قدرتمند SpecAugment و پوشاندن کلمه هستند. این روش&amp;zwnj;ها علی&amp;zwnj;رغم کارایی اثبات&amp;zwnj;شده در شرایط دادگان فراوان، در شرایط دادگان محدود، کمتر مطالعه شده&amp;zwnj;اند. در تحقیق حاضر، پس از تحلیل معایب روش پوشاندن کلمه در شرایط دادگان محدود، دو روش نوآورانه برای رفع این ایرادات ارائه می&amp;zwnj;دهیم: (1) پوشاندن تدریجی که آموزش را با پوشاندن در سطح فریم آغاز و سپس به پوشاندن کلمه تغییر می&amp;zwnj;دهد؛ (2) پوشاندن آگاه از فراوانی کلمات که ابتدا کلمات پرتکرار و سپس کلمات کم&amp;zwnj;تکرار پوشانده می&amp;zwnj;شوند. آزمایشات روی مجموعه 100 ساعتی پیکره LibriSpeech نشان می&amp;zwnj;دهد روش پیشنهادی اول به WER 8&lt;sub&gt;/&lt;/sub&gt;6% در مجموعه تمیز و 2&lt;sub&gt;/&lt;/sub&gt;18% در مجموعه چالش&amp;zwnj;برانگیز رسیده که به&amp;zwnj;ترتیب 8&lt;sub&gt;/&lt;/sub&gt;6% و 2&lt;sub&gt;/&lt;/sub&gt;4% بهبود نسبت به روش رقابتی SpecAugment حاصل کرده است. روش پیشنهادی دوم نیز به WER 6&lt;sub&gt;/&lt;/sub&gt;6% در مجموعه تمیز و 3&lt;sub&gt;/&lt;/sub&gt;17% در مجموعه چالش&amp;zwnj;برانگیز رسیده که به&amp;zwnj;ترتیب 6&lt;sub&gt;/&lt;/sub&gt;9% و 9&lt;sub&gt;/&lt;/sub&gt;8% بهبود نسبت به SpecAugment کسب کرده است.&lt;/p&gt;</OtherAbstract>
    <ObjectList>
      <Object Type="Keyword">
        <Param Name="Value">بازشناسی گفتار، پوشاندن کلمات، داده‌افزایی، دادگان محدود.</Param>
      </Object>
    </ObjectList>
    <ArchiveCopySource DocType="Pdf">http://ijece.org/fa/Article/Download/50484</ArchiveCopySource>
  </ARTICLE>
</ArticleSet>